Ola vrienden,

Een korte vraag. Wat "ziet" een zoekmachine eigenlijk?

Ziet een zoekmachine alleen bestanden waarnaar vanuit de webpagina's wordt gelinkt? Of ziet een zoekmachine alle bestanden in een directory? Anders gezegd, kan een zoekmachine een directory uitlezen?

Voorbeeld:

We hebben de map public...


/public/
  favicon.ico
  index.php
  page1.php
  page2.php
  secretfile.php
       /images/
          image1.jpg
          image2.jpg
          secretimage.jpg

Stel nu in index.php staan verwijzingen naar page1.php, page2.php en er worden 2 afbeeldingen getoond, namelijk image1.jpg en image2.jpg.

Bovengenoemde bestanden zullen allemaal worden geïndexeerd. Maar hoe zit dat met het bestand secretfile.php en de afbeelding secretimage.jpg. Ziet de zoekmachine die ook? Of weet de zoekmachine niet van hun bestaan, omdat er nergens naar wordt gelinkt?
Thanks Wouter. Ik dacht inderdaad ook dat het op deze manier werkte, dus dat in een pagina een link staat, en dat die link dan weer wordt gevolgd enz. Maar toch kan ik me ook voorstellen dat een directory compleet wordt uitgelezen, maar dat zou eigenlijk wel raar zijn omdat de zoekmachine zich dan op "onbevoegd terrein" bevindt. Anyhow, ik ga er dan maar vanuit dat uitsluitend pagina's/bestanden waarnaar gelinkt wordt, kunnen worden geïndexeerd. Thanks!
Googlebot is niet je eerste zorg. Er zijn kwaadaardige robots die op zoek zijn naar achterdeuren op basis van bekende lekken in CMS'en, blogsoftware, enzovoort. Er zijn ook robots die uit zijn op het 'oogsten' van specifieke content, bijvoorbeeld mp3's.

Als je toch een soort secretfile.php in een openbare directory zet, zet er dan een strenge toegangscontrole op: IP-whitelist + SSL + inloggen is praktisch waterdicht.
Thanks Ward. Kunnen die robots dan ook een directory uitlezen?

Ik zie in mijn eigen serverlogs inderdaad vaak aanvallen, en dan worden er allerlei versies van phpmyadmin uitgeprobeerd. Wat bedoel je met het 'oogsten' van content. Ze gaan kijken of er mp3's in een directory staan, en die gaan ze dan naar een andere server kopiëren???
Als je geen directorylistings toont, kunnen robots niets lezen. Maar ze gaan anders te werk: ze raden gewoon naar voor de hand liggende bestandsnamen zoals functions.php en config.inc. Of inderdaad, zoals bij jouw phpMyAdmin: naar alle directory- en bestandsnamen die in open-source software worden gebruikt.

Als je een mp3 online zet, wordt die inderdaad vaak gekopieerd naar een server in het oostblok. Kan iemand weer een paar cent verdienen aan betaalde downloads.

Ik heb voor de lol wel eens een simpele honeypot opgezet. In robots.txt had ik het indexeren van een bepaalde directory verboden. En je raadt al waarom: als je een directory noemt in robots.txt, weten kwaadwillende ook dat die directory bestaat. Vervolgens registreerde ik met een PHP-script in de verboden directory welke robots die regel in robots.txt aan hun laars lapten. Leerzaam...
Ah oke... geinig :) Ik zal er eens mee experimenteren :)

Reageren