De structuur en de syntaxis van de HyperText Markup Langauge , of HTML , vertelt niet alleen een webbrowser hoe u de inhoud van een bestand weer te geven , maar ook identificeert structurele gegevens over het bestand zelf . Deze tags zijn ook van onschatbare waarde als je een programmeur op zoek naar een programma dat verwijderd specifieke delen van een HTML-bestand , zoals de kop-en voettekst zal strippen coderen . HTML Anatomie HTML maakt gebruik van een eenvoudig systeem van mark-up tags om verschillende delen van een HTML document te identificeren . Header van de HTML-bestand wordt gemarkeerd door de "
" tag , de voettekst van de tag . Een HTML- lezer zal iets tussen de opening -tag en de tag die de sectie dicht , " < /header " > geeft via interpreteren " < /footer > , " als onderdeel van het aangegeven gedeelte . Andere labels , zoals " " overeenstemmen met de overige onderdelen van het dossier . Identificeren kop-en voetteksten Wanneer u het maken van code te strippen weg HTML kop-en voetteksten , kunt u geen beroep doen op precies te weten hoe lang de kop-of voettekst zal zijn . Terwijl sommige kop-en voetteksten bestaan uit een enkele lijn , kunnen ze veel langer zijn . Bijgevolg kan de code niet te zoeken naar een " / " tag dan de ' \\ n' symbool dat het einde van een regel geeft . Wanneer u de inhoud van het HTML-bestand lezen in een tekenreeks , moet u de index positie van de eerste " < " van het oorspronkelijke label , evenals de " > " van de terminal -tag te identificeren . < Br > lokaliseren String Posities Beide low level talen , zoals C en C + + en hogere talen als Python en Ruby hebben methoden om u te helpen artikelen van de tekst te lokaliseren binnen een bepaalde string. Deze methoden zullen de index positie van het eerste teken van de tekst die u zoekt terugkeren . Wanneer u op zoek zijn naar de oorspronkelijke labels , zal dit u uw startpunt voor het verwijderen van de tekst te geven . Wanneer u op zoek zijn naar de terminal -tag , bedenk dan dat het punt dat u wilt is ofwel zes ( " < /head > " ) of zeven ( " < /footer > " ) posities voor het nummer van de methode geeft je . Striping Code
Zodra u de index posities voor de kop-of voettekst segment dat u wilt verwijderen , kunt u gaan doen in een van de twee algemene manieren . Een daarvan is om de juiste methoden aanroepen om de tekens tussen de eerste en laatste index posities voor het segment te verwijderen . Dit zal rechtstreeks bewerkt u de oorspronkelijke string. Het oorspronkelijke bestand en een versie ontdaan van de kop-en voettekst code : U kunt ook een nieuwe reeks van twee versies van de inhoud van het HTML- bestand te creëren . Doe dit door het toewijzen van de inhoud van de originele string tot aan de oorspronkelijke index positie , en dan is alles na de laatste index positie , om de nieuwe string.