Validatie en user-agents

Zoals ik net zei: je kan je bestandje laten valideren, net zoals dat kan met html en css-bestanden. Dat kan je hier doen.

Hoe weet je welke user-agents je moet hebben voor de verschillende zoekmachines? Dat is vrij lastig, omdat zoekmachines vaak andere namen hebben voor hun spiders. Die van Altavista heet bijvoorbeeld ‘Scooter’, die van HotBot heet ‘Slurp’ (wat ik een vrij toepasselijke naam vind overigens) en die van Infoseek heet ‘Infoseek Sidewinder’.

Je zou kunnen kijken naar de statistieken van je pagina: daar staan over het algemeen ook user-agents tussen die je site hebben bezocht.

Afbeelding

Je kan uit deze statistieken zien dat er regelmatig spiders langskomen (vaak te herkennen aan ‘Crawler’ in de naam). Maar je ziet ook direct een probleem: wie vertelt jou namelijk of Microsoft-WebDAV-MiniRedir/5.1.2600 een spinnetje is? Tenzij je kennissen hebt die toevallig bij Microsoft werken gaat niemand jou dat waarschijnlijk vertellen (ter informatie: het is geen spider, maar wordt door Microsoft gebruikt wanneer iemand je site toevoegt aan ‘Mijn netwerklocaties’; vaak FTP-locaties of gedeelde partities).
Ook zijn niet alle user-agents opgenomen in je statistieken, en zijn sommige spiders moeilijk te herkennen (op #3 staat Yahoo Slurp en op #9 nogmaals Google, maar die zijn niet echt makkelijk te herkennen tussen de andere Mozilla’s).

Om alle user-agents te verkrijgen, zou je een PHP-scriptje kunnen schrijven, wat de user-agent in een log-bestand of naar een database wegschrijft en wat gebruik maakt van $_SERVER[‘HTTP_USER_AGENT’].

Uiteraard zijn er ook mensen die lijsten bijhouden van zoekmachines. Op http://www.psychedelix.com/agents/index.shtml vind je bijvoorbeeld een uitgebreide lijst. De officiële lijst bevat meer informatie over de aparte robots, maar de lijst is niet zo uitgebreid.
Een beetje Googlen op ‘list’ en ‘crawler’, ‘spider’, ‘robot’ of ‘user-agent’ doet overigens wonderen.

Mocht je er dan ook niet uitkomen, dan helpt het soms om even een mailtje te besturen naar de desbetreffende zoekmachine. Zo heb ik laatst een e-mail gestuurd naar die van MSN Search, en de volgende dag kreeg ik een erg uitgebreide mail terug. Ik was verbaasd over de uitzonderlijk vriendelijke toon en de hoeveelheid diepgaande informatie over de bot. Hulde dus aan de helpdesk van MSN Search, zo hoort een helpdesk te antwoorden!

« Lees de omschrijving en reacties

Inhoudsopgave

  1. Het bestand robots.txt
  2. Validatie en user-agents
  3. Zonder robots.txt
  4. Verdere informatie

PHP tutorial opties

 
 

Om de gebruiksvriendelijkheid van onze website en diensten te optimaliseren maken wij gebruik van cookies. Deze cookies gebruiken wij voor functionaliteiten, analytische gegevens en marketing doeleinden. U vindt meer informatie in onze privacy statement.