wat ziet een zoekmachine?

Door Ozzie PHP op 19-09-2013 21:15

1.166 views

Ola vrienden,

Een korte vraag. Wat "ziet" een zoekmachine eigenlijk?

Ziet een zoekmachine alleen bestanden waarnaar vanuit de webpagina's wordt gelinkt? Of ziet een zoekmachine alle bestanden in een directory? Anders gezegd, kan een zoekmachine een directory uitlezen?

Voorbeeld:

We hebben de map public...


/public/
  favicon.ico
  index.php
  page1.php
  page2.php
  secretfile.php
       /images/
          image1.jpg
          image2.jpg
          secretimage.jpg

Stel nu in index.php staan verwijzingen naar page1.php, page2.php en er worden 2 afbeeldingen getoond, namelijk image1.jpg en image2.jpg.

Bovengenoemde bestanden zullen allemaal worden geïndexeerd. Maar hoe zit dat met het bestand secretfile.php en de afbeelding secretimage.jpg. Ziet de zoekmachine die ook? Of weet de zoekmachine niet van hun bestaan, omdat er nergens naar wordt gelinkt?

Ozzie PHP

19-09-2013 23:59

Thanks Wouter. Ik dacht inderdaad ook dat het op deze manier werkte, dus dat in een pagina een link staat, en dat die link dan weer wordt gevolgd enz. Maar toch kan ik me ook voorstellen dat een directory compleet wordt uitgelezen, maar dat zou eigenlijk wel raar zijn omdat de zoekmachine zich dan op "onbevoegd terrein" bevindt. Anyhow, ik ga er dan maar vanuit dat uitsluitend pagina's/bestanden waarnaar gelinkt wordt, kunnen worden geïndexeerd. Thanks!

Ward van der Put

20-09-2013 08:30

Googlebot is niet je eerste zorg. Er zijn kwaadaardige robots die op zoek zijn naar achterdeuren op basis van bekende lekken in CMS'en, blogsoftware, enzovoort. Er zijn ook robots die uit zijn op het 'oogsten' van specifieke content, bijvoorbeeld mp3's.

Als je toch een soort secretfile.php in een openbare directory zet, zet er dan een strenge toegangscontrole op: IP-whitelist + SSL + inloggen is praktisch waterdicht.

Ozzie PHP

20-09-2013 13:23

Thanks Ward. Kunnen die robots dan ook een directory uitlezen?

Ik zie in mijn eigen serverlogs inderdaad vaak aanvallen, en dan worden er allerlei versies van phpmyadmin uitgeprobeerd. Wat bedoel je met het 'oogsten' van content. Ze gaan kijken of er mp3's in een directory staan, en die gaan ze dan naar een andere server kopiëren???

Ward van der Put

20-09-2013 13:39

Als je geen directorylistings toont, kunnen robots niets lezen. Maar ze gaan anders te werk: ze raden gewoon naar voor de hand liggende bestandsnamen zoals functions.php en config.inc. Of inderdaad, zoals bij jouw phpMyAdmin: naar alle directory- en bestandsnamen die in open-source software worden gebruikt.

Als je een mp3 online zet, wordt die inderdaad vaak gekopieerd naar een server in het oostblok. Kan iemand weer een paar cent verdienen aan betaalde downloads.

Ik heb voor de lol wel eens een simpele honeypot opgezet. In robots.txt had ik het indexeren van een bepaalde directory verboden. En je raadt al waarom: als je een directory noemt in robots.txt, weten kwaadwillende ook dat die directory bestaat. Vervolgens registreerde ik met een PHP-script in de verboden directory welke robots die regel in robots.txt aan hun laars lapten. Leerzaam...

Ozzie PHP

20-09-2013 14:06

Ah oke... geinig :) Ik zal er eens mee experimenteren :)

Reageren

Inloggen om te reageren