Zoekmachines , zoals Google of Yahoo , trek webpagina's in hun zoekresultaten door het gebruik van Web bots ( ook wel spiders of crawlers ) , die zijn programma's die het internet en index websites in een scan database. Web bots kan worden gemaakt met behulp van de meeste programmeertalen , waaronder C , Perl , Python en PHP , die allemaal in staat software engineers om scripts die procedurele taken , zoals Web scannen en indexeren uitvoeren schrijven . Instructies 1 Open een plain text editing applicatie , zoals Kladblok , die is opgenomen in Microsoft Windows of Mac OS X 's TextEdit , waar u de auteur een Python web bot toepassing . < Br > 2 Start de Python-script door het opnemen van de volgende regels code , en het vervangen van de voorbeeld-URL met de URL van de website die u wilt scannen en de naam van de voorbeeld -database met de database die zal worden het opslaan van de resultaten : < br > import urllib2 , re , stringenter_point = ' http://www.exampleurl.com ' DB_NAME = ' example.sql ' 3 Neem de volgende regels code aan bepalen de volgorde van handelingen die het web bot zal volgen : def uniq ( volgende) : set = { } map ( set.__setitem__ , seq, [ ] ) return set.keys ( ) op < br > 4 verkrijgen van de uRL's in de structuur van de website met de volgende regels code : def geturls ( url ) : items = [ ] verzoek = urllib2.Request ( url ) request.add.header ( 'Gebruiker' , ' Bot_name ;) ' ) content = urllib2.urlopen ( aanvraag) . gelezen ( ) artikelen = re.findall ( ' href = " http://. ?' ' , inhoud ) urls = [ ] return urls 5 Definieer de database die de web bot zal gebruiken en aangeven welke informatie zij moeten slaan om te voltooien het maken van de web bot: db = open ( DB_NAME , ' a ' ) allurls = uniq ( geturls ( enter_point ) ) 6 Sla het tekstdocument en deze uploaden naar een server of een computer met een internetverbinding , waar u het script kan uitvoeren en beginnen met het scannen van webpagina's .
|