Hallo,
Ik heb een vraagje over mijn robots.txt
Alle requests die op mijn website binnenkomen worden doorgestuurd naar index.php in de root.
Als het een geldige route is, dan wordt de juiste pagina aangeroepen.
Dus www.mijnsite.nl/contact wordt doorgestuurd naar index.php en de contactpagina wordt getoond.
En www.mijnsite.nl/ik-besta-niet wordt ook doorgestuurd naar index.php, maar toont een 'niet gevonden' pagina.
Nu is het dus zo dat 'index.php' op zichzelf geen geldige route is. Om naar de homepage te gaan, typ je gewoon www.mijnsite.nl in. Als je www.mijnsite.nl/index.php intypt, wordt een 'niet gevonden' pagina getoond. Het bestand bestaat wel, maar ik heb 'index.php' niet ingesteld als geldige route. Is gebruik namelijk 'nette' URLs zonder bestandsnamen.
Nu komt het probleem (denk ik). Als de spider gewoon naar www.mijnsite.nl gaat, dan gaat het prima en is er verder niks aan de hand. Maar nu vraag ik me af ... omdat er in de root een bestand index.php staat ... stel dat de spider nu als eerste www.mijnsite.nl/index.php gaat aanroepen (of doet ie dat niet?), dan krijgt ie dus een 404 status terug. Is zo'n spider zo slim dat ie dan alsnog de domeinnaam zonder index.php aanroept, dus www.mijnsite.nl, en gaat ie dan alsnog verder met spideren?
Ik zat dus te denken om in robots.txt 'index.php' op disallow te zetten, maar ik ben bang dat ie dan de hele site niet doorzoekt. Of zie ik dat verkeerd? Of zou ik dat wel kunnen doen, en dan in de sitemap alle geldige URLs vermelden?
1.050 views