schrapen en parsing zijn twee nauw verwante website data - mining praktijken . De meer algemene , parsing , verwijst naar het afbreken van de gegevens in zijn samenstellende delen . Wanneer uw middelbare school leraar Engels vroeg je om diagram zinnen , was je ontleden van de woorden van hen straffen voor hun woordsoorten . Schrapen meer specifiek betrekking op het ontleden van webpagina's voor bepaalde soorten data , in dit geval adressen . De programmeertaal Python en de " beautifulsoup " uitbreiding kan de gebruiker te schrapen en te ontleden websites in een paar regels code . Wat je nodig hebt Python 2.6 of hoger beautifulsoup 3.2 Toon Meer Aanwijzingen 1 Installeer beautifulsoup door het downloaden van de nieuwste versie van mollig software kan uitgepakt /unzip het bestand . Open een Terminal -venster en typ de volgende opdracht : My - iMac : ~ me $ python Downloads/BeautifulSoup-3.2.0/python setup.py install Dit vertelt de Python interpreter om de beautifulsoup install script dat kan draaien te vinden in de map BeautfulSoup , dat is in de map Downloads kopen van 2 Typ python op de prompt raakte terugkeer en import beautifulsoup : . Mijn - iMac : ~ me $ python >>> import beautifulsoup 3 Voer het volgende script om een webpagina te openen en af te drukken elke Universal Resource Locator ( webadressen ) je zou kunnen vinden in een pagina : >>> import urllib2 >> ; > page = urllib2.urlopen ( " http://www.THE URL JE WILT HIER SCHAAFT " ) >>> soup = beautifulsoup ( pagina ) >>> soup.findAll ( ' a ' ) >>> print soup.strip ( ) >>> printThis script zal een webpagina te openen , ontleden de html , zoeken naar de tag waarin webadressen zijn ingebed , verwijder de tags en laat de tekst .
|