Een web spider is een computertoepassing die een webpagina downloadt , en daarna volgt al van de links op die pagina en download ze net zo goed . Spiders worden gebruikt om websites te slaan voor offline lezen , of voor opslag van webpagina's in databases te worden gebruikt door een zoekmachine . Het creëren van een web spider is een uitdagende taak , die geschikt zijn voor een college - niveau programmering klasse . Deze instructies veronderstellen heb je gedegen ervaring met programmeren , maar geen kennis van spin architectuur . De stappen lay-out een zeer specifieke architectuur voor het schrijven van een web spin in uw gekozen taal . Wat je nodig hebt webbrowser die met lees -en schrijftoegang schijf en database functies reageert op programmatische opdrachten Programmeertaal Toon Meer Aanwijzingen 1 initialiseren uw programma met de eerste webpagina die u wilt downloaden . Voeg de URL van deze pagina naar een nieuwe database tabel van URL's . Kopen van 2 Stuur een commando naar de web browser de instructie om deze webpagina te halen en op te slaan op een schijf . Verplaats de database verwijzing vooruit een stap voorbij de URL die je zojuist hebt gedownload , die nu zal wijzen op het einde van de tafel . 3 Lees de webpagina in het programma , en ontleden het voor links naar bijkomende webpagina's . Dit wordt meestal gedaan door te zoeken naar de tekenreeks " http://" en vastleggen van de tekst tussen die string en beëindiging teken (bijvoorbeeld "", " . " Of " > " ) . Voeg deze links de URL database tabel , de database aanwijzer moet blijven op de top van deze nieuwe lijst Test 4 de gegevens in de database tabel voor uniciteit , en verwijder alle URL's die lijken meer dan eens . . 5 Als u een URL-filter ( bijvoorbeeld het downloaden van pagina's van sites op verschillende domeinen te voorkomen ) toe te passen , toe te passen nu de URL database tabel en verwijder alle URL's die u niet wilt te downloaden . 6 Opzetten van een programmatische lus zodat je spin terug naar de voorgaande stap 2 . Dit zal recursief alle URL uw spin tegenkomt downloaden . Het verwijderen van dubbele URL's zorgt ervoor dat de spin goed zal eindigen wanneer het laatste unieke URL bereikt .
|