Ola vrienden,

Een korte vraag. Wat "ziet" een zoekmachine eigenlijk?

Ziet een zoekmachine alleen bestanden waarnaar vanuit de webpagina's wordt gelinkt? Of ziet een zoekmachine alle bestanden in een directory? Anders gezegd, kan een zoekmachine een directory uitlezen?

Voorbeeld:

We hebben de map public...


/public/
  favicon.ico
  index.php
  page1.php
  page2.php
  secretfile.php
       /images/
          image1.jpg
          image2.jpg
          secretimage.jpg

Stel nu in index.php staan verwijzingen naar page1.php, page2.php en er worden 2 afbeeldingen getoond, namelijk image1.jpg en image2.jpg.

Bovengenoemde bestanden zullen allemaal worden geïndexeerd. Maar hoe zit dat met het bestand secretfile.php en de afbeelding secretimage.jpg. Ziet de zoekmachine die ook? Of weet de zoekmachine niet van hun bestaan, omdat er nergens naar wordt gelinkt?
Als een directory geen open-dir is, dan kan de zoekmachine uiteraard niet bij bestanden komen waar niet naar gelinkt is. Wij kunnen die niet zien, dus een zoekmachine ook niet ;-).
Wat bedoel je met open-dir?

De zoekmachine zou het bestand gewoon kunnen aanroepen via www.mijnsite.nl/secretfile.php. Maar mijn vraag is of de zoekmachine weet dat dit bestand bestaat.
Een open dir is een directory die inzichtelijk is:
Bijv. http://www.geenstijl.nl/icons/, om als voorbeeld te noemen.

Als een bestandnaam niet geïndexeerd is, dan bestaat deze niet voor Google.
Ah oke... maar als het nu wel een open-dir is, maar er wordt niet naar het bestand gelinkt, dan weet Google wel of niet dat het bestand bestaat? Gaat Google die directory uitlezen?

Oh ja, stel dat een andere website nu zou linken naar www.mijnsite.nl/secretfile.php. Wordt het bestand dan alsnog geïndexeerd?

p.s. Ik krijg geen mail als jij reageert. Ligt de mailserver eruit?
Als Google een link kan vinden op zijn pad, zonder een blokkade van een http 5xx-header (500, 503 etc..) of een robots.txt, dan gaat hij gewoon door.
Misschien heeft Google ook wel een aantal keywords met namen zoals bijv. secretfile e.d. waarop hij probeert te matchen.
- Aar - op 19/09/2013 22:12:24

Als Google een link kan vinden op zijn pad, zonder een blokkade van een http 5xx-header (500, 503 etc..) of een robots.txt, dan gaat hij gewoon door.

Aar, ik snap je nog niet helemaal. Als een directory openstaat, leest Google dan die hele directory uit... OF, wordt alleen gekeken naar de links die in een pagina staan? Dus stel in index.php staat een link naar page2 dan wordt page 2 geïndexeerd. In page2 staat een link naar page3 en vervolgens wordt page3 geïndexeerd enz. Maar als er geen enkele link is naar "secretpage" kan die pagina dan toch worden geïndexeerd?

Roel PHP op 19/09/2013 22:25:22

Misschien heeft Google ook wel een aantal keywords met namen zoals bijv. secretfile e.d. waarop hij probeert te matchen.

Zou kunnen, maar dan zou ik eerder denken aan bijv. "robots.txt" en niet zozeer aan "secretfile". Alhoewel... tegenwoordig weet je het inderdaad maar nooit :)))
Ik ken Google's zoekalgoritme niet, en die weet niemand, behalve de ontwerper/bouwer die een strikte geheimhoudingscontract zal hebben getekend.

Maar ik denk zelf dat open-dir's ook doorzocht worden. Ik zou zeggen, test het eens uit ;-)
gelukkig staan vaak de open-dir's in Apache uit, en krijg je een 403 voor je kiezen.
Hmmm oke... thanks... ben er nog niet echt veel wijzer van geworden :)

Als iemand meer weet hoor ik het graag!
Voorzover ik weet moet je de google bot zien als een HTMl parser. Hij parsed een HTMl file, haalt er nuttige keywords uit en andere informatie. Vervolgens zoekt hij alle links op en bezoekt die pagina, hier doet hij hetzelfde, etc. Zodra er dus een pagina is waarnaar niet wordt gelinkt zal google deze niet vinden. Stel een andere site linkt erna, dan wordt hij natuurlijk wel gevonden.

Leerzaam filmpje:
[youtube]BNHR6IQJGZs[/youtube]

Reageren