De programmeertaal Python kan ondersteunen HTML 5 websites met behulp van de bibliotheek ' html5lib . ' Deze bibliotheek kunt u Python scripts te schrijven die parse HTML 5 pagina's met behulp van een boomstructuur . Boomstructuren zijn hiërarchische opvattingen van webpagina -elementen . Toegang tot webpagina -elementen wordt bereikt met behulp van een boom wandelaar. De boom wandelaar ' wandelt ' langs de aansluitingen van de boom knopen , en kan de hele boom doorkruisen . U kunt Python gebruiken met ' html5lib ' te openen, bekijken en afdrukken van een HTML 5 website. Wat je Python 3.2 programmeertaal nodig met html5lib module Toon Meer Aanwijzingen 1 Open de IDLE teksteditor in Program Files ( of Programma's voor Macintosh ) in de python directory . Een lege broncode bestand opent Import 2 de " html5lib " module door het schrijven van de volgende verklaringen aan de bovenkant van de broncode bestand : . Import html5lib uit html5lib import treebuilders , treewalkers , serializer import urllib2 3 Maak een nieuwe HTML 5 -parser , die je zal gebruiken om een HTML-website te lezen . Het uitroepen van een nieuwe parser door het schrijven van het volgende : parser = html5lib.HTMLParser ( ) 4 Open een website door het passeren van de naam in de urllib2.urlopen functie . Bijvoorbeeld, als u wilt openen " www.website_adddress.com , " schrijft het volgende: . URL = urllib2.urlopen ( " http://www.website_address.com " ) gelezen ( ) < br > 5 Passeer de website in de HTML 5 -parser een boom vertegenwoordiging krijgen . Bewaar deze voorstelling in een variabele met de naam " boom " door het schrijven van de volgende verklaring : boom = parser.parse ( URL ) 6 Maak een boom wandelaar als dit : treeWalker = treewalkers.getTreeWalker ( " dom " ) op Twitter wandeling 7 door de boom met behulp van de boom wandelaar . De boom wandelaar zal een stroom van informatie die hij ontdekt in de HTML 5 website terug . Te lopen door de boom , schrijf de volgende : stroom = treeWalker ( boom) 8 Serialize de stroom , zodat u gemakkelijk kunt uitvoeren deze naar de console . Serial = serializer.htmlserializer.HTMLSerializer ( omit_optional_tags = False ) uitgang = serial.serialize ( stream) 9 : U kunt de stroom met behulp van de volgende twee uitspraken serialize Doorloop de seriële uitgang van de stroom als dit: voor element van de output : 10 inspringen de lijn direct na de vorige verklaring en schrijf een print functie , zoals dit : druk ( element ) 11 Voer het programma door op F5 te drukken . Het script wordt geopend en vervolgens ontleden een HTML 5 webpagina. Het script serialiseert vervolgens de boomstructuur van de pagina en voert deze naar de console . De output is afhankelijk van de webpagina gekozen , maar kan er ongeveer zo uitzien : < /head > < br > Welkom op een webpagina ! < /body > < /html > < br >
|