Robots , in het Internet context , betekent software programma dat scant een website om informatie te verzamelen . Dit zijn geen virussen - er geen code geplaatst op uw machine , en wanneer de robot klaar is met uw website , is er geen bewijs dat de robot er was . Het proces van informatieverzameling is niet per se schadelijk - je zou kunnen profiteren van het bezoek . Het Robots Exclusion Protocol ( REP ) stelt u in staat om enige controle over het proces. Geschiedenis De REP idee begon in 1994 met een robot lezersgroep ( [email protected] ) als een manier om robots te begeleiden door middel van websites. Het basisidee was om een korte file met een bekende naam en locatie van de instrueert de robot waar te kijken installeren . Deze aanwijzingen zouden waarschijnlijk genegeerd worden door boosaardige robots , maar kunnen worden gebruikt door goedaardige robots om hen wat tijd besparen door alleen te onderzoeken enkele van je bestanden . De basis -protocol werd in 2008 versterkt door een groot aantal van de grote internetbedrijven zoals Yahoo en Google . Goedaardige Robots Er zijn een aantal robots je eigenlijk wilt bezoeken uw website . Bijvoorbeeld , zoekmachines gebruiken robots naar de index op het internet . Beginnend met een website -adres , de robot classificeert die website en houdt een lijst van alle links op de website . Dan gaat de robot naar beneden de lijst met verzamelde website-adressen . Aangezien de lijst van nieuwe websites die elke maand zijn openbaar , er is een achterstand van websites te controleren of de robots werken dag en nacht houdt . U wilt deze robot bezoeken omdat je wilt dat de zoekmachines om te weten en te classificeren uw website, zodat potentiële klanten u kunt vinden via zoekmachines . Malevolent Robots robots kunnen ook gebruikt worden voor destructieve doeleinden . Zo kunnen robots een lijst met e - mailadressen geïndexeerd door belangen te compileren . Om dit te doen , ze op zoek naar iets dat een " @ " symbool heeft en neem het touwtje eromheen , dat gebonden is door spaties . Dit is waarom zie je een aantal informatica professoren geven hun adres als Professor.Abc { apenstaartje } University.edu - het is om kwaadaardige robots folie . Als u uw e - mailadres classificeren volgens rente , de robot kijkt in de META verklaring dat is een deel van de code achter elke website . REP Syntax De robots . txt -bestand wordt geïnstalleerd in een directory . Als uw website is www.widgits.com , het pad naar het robots.txt-bestand zal zijn www.widgits.com /robots.txt . De eerste regel in het bestand zal worden " user-agent : " en de volgende regel zal zijn " Disallow : " - de eerste regel selecteert de bevolking van robots en de tweede regel geeft aan welke mappen zijn off limits . Gebruik " , " om een regeleinde aangeven , "user - id : * ; /abc /" zijn de twee lijn verklaringen die direct alle robots om het abc directory voorkomen . Zodat searchbot om alles te onderzoeken , maar verbied alle andere robots , zou de code zijn "user - id : searchbot , verbieden : ; user - id : * ; Disallow : /" - * : alle robots , /: alle mappen en een lege ruimte betekent geen directories .
|