parseren van XML is een uitdaging voor de would-be tekst analyzer gevolge van XML 's uitbreidbaarheid . XML opmaak conventies zijn hiërarchisch van aard , wat betekent dat sommige labels domineren andere tags . Regular Expressions ( reguliere expressies ) identificeren XML tekstpatronen - Een REGEX voor bijpassende XML- tags zullen alles in xml -tags overeenkomen < > , maar zal niet de hiërarchische organisatie van deze tags weer te geven . Het is mogelijk om deze tag structuur scheiden van de tekst met behulp van de programmeertaal Python en de Natural Language Toolkit pakket, dat reguliere expressies en tekst manipulatie bedt en kan de XML -tags , zodat de organisatie weer te geven . Instructies 1 Open een terminal venster en typ het commando " python - v " op de prompt om de aanwezigheid en de versie van Python op uw computer te controleren . Ga naar de NLTK homepage en download de NLTK installatiepakket geschikt is voor uw besturingssysteem . Controleer dat NLTK correct is geïnstalleerd met het commando " >>> import nltk " bij de Python -prompt. Type 2 " >>> nltk.download ( ) " aan een raam open . Kies de rij met het label " all " en klik op de download knop . Dit zal een aantal teksten voor NLTK te werken met downloaden , waaronder Shakespeare's ' De Koopman van Venetië " geformatteerd met speciale XML- tags voor toneelstukken . Import 3 de koopman van Venetië getagd in XML met de volgende opdracht bij de Python prompt : >>> merchant_file = nltk.data.find ( ' corpora /shakespeare /merchant.xml ' ) op Twitter Wijs het bestand een variabel , zodat je kunt manipuleren met Python commando : . >>> rauw = open ( merchant_file ) gelezen ( ) op gewoon om ervoor te zorgen dat het er is , voert u de volgende opdracht om de eerste 168 tekens te bekijken: . >>> print ruwe [ 0:168 ] U zult het XML- header -tags en de speciale XML- play -tags zien < br > Goedkope 4 Voer de volgende opdracht bij de Python prompt : >>> van nltk.etree.ElementTree import elementtree en druk op " Return ", dan typ het volgende bij de Python prompt : . >>> koopman = elementtree ( ) parse ( merchant_file ) op de parse commando kan de gebruiker de XML- tags en hun inhoud te bekijken . Om een hiërarchische weergave van correct genest XML -tags op te bouwen , voert u de volgende opdracht bij de Python prompt : >>> merchant.getchildren ( ) op Dit zal alle speciale XML tonen labels spelen in hun hiërarchische volgorde . De output van dit commando moet er zo uitzien : [ , , , , < , Element ACT bij 22cc0f8 > , , , , ] < br >
|