Zonder robots.txt

Niet iedere crawler neemt het robots.txt bestand in acht. Dergelijke crawlers indexeren je site ook al wil je dat niet. Soms gebruiken deze crawlers metatags die je op je website plaatst (alhoewel nog maar weinig robots alleen die tag gebruiken). Voor de zekerheid zou je deze tag dus nog kunnen toevoegen:

<meta name=”robots” content=”noindex,nofollow”>

Deze tag plaats je tussen de <head> en </head> van de pagina die je niet geïndexeerd wilt hebben. Ook wordt niet verder gezocht naar hyperlinks. Je kan ook de robots specificeren zoals je dat zou doen in robots.txt.

<meta name=”googlebot” content=”index, nofollow”>

Deze metatag staat dus toe dat Google de site indexeert, maar dat deze niet wordt geanalyseerd op hyperlinks.

Robots die zowel robots.txt als metatags negeren, kan je natuurlijk gewoon weigeren. Ikzelf vind het ongenode gasten en ben momenteel bezig met het schrijven van een script wat dergelijke crawlers buiten de deur houdt, terwijl 'gewone' user-agents wel worden toegelaten. Niet helemaal veilig, maar veel meer kan je imho niet doen :)

« Lees de omschrijving en reacties

Inhoudsopgave

  1. Het bestand robots.txt
  2. Validatie en user-agents
  3. Zonder robots.txt
  4. Verdere informatie

PHP tutorial opties

 
 

Om de gebruiksvriendelijkheid van onze website en diensten te optimaliseren maken wij gebruik van cookies. Deze cookies gebruiken wij voor functionaliteiten, analytische gegevens en marketing doeleinden. U vindt meer informatie in onze privacy statement.