Robots.txt vraagje

Door Ozzie PHP op 07-04-2017 06:14 gewijzigd op 07-04-2017 06:27

1.050 views

Hallo,

Ik heb een vraagje over mijn robots.txt

Alle requests die op mijn website binnenkomen worden doorgestuurd naar index.php in de root.
Als het een geldige route is, dan wordt de juiste pagina aangeroepen.

Dus www.mijnsite.nl/contact wordt doorgestuurd naar index.php en de contactpagina wordt getoond.
En www.mijnsite.nl/ik-besta-niet wordt ook doorgestuurd naar index.php, maar toont een 'niet gevonden' pagina.

Nu is het dus zo dat 'index.php' op zichzelf geen geldige route is. Om naar de homepage te gaan, typ je gewoon www.mijnsite.nl in. Als je www.mijnsite.nl/index.php intypt, wordt een 'niet gevonden' pagina getoond. Het bestand bestaat wel, maar ik heb 'index.php' niet ingesteld als geldige route. Is gebruik namelijk 'nette' URLs zonder bestandsnamen.

Nu komt het probleem (denk ik). Als de spider gewoon naar www.mijnsite.nl gaat, dan gaat het prima en is er verder niks aan de hand. Maar nu vraag ik me af ... omdat er in de root een bestand index.php staat ... stel dat de spider nu als eerste www.mijnsite.nl/index.php gaat aanroepen (of doet ie dat niet?), dan krijgt ie dus een 404 status terug. Is zo'n spider zo slim dat ie dan alsnog de domeinnaam zonder index.php aanroept, dus www.mijnsite.nl, en gaat ie dan alsnog verder met spideren?

Ik zat dus te denken om in robots.txt 'index.php' op disallow te zetten, maar ik ben bang dat ie dan de hele site niet doorzoekt. Of zie ik dat verkeerd? Of zou ik dat wel kunnen doen, en dan in de sitemap alle geldige URLs vermelden?

Ward van der Put

07-04-2017 08:05 gewijzigd op 07-04-2017 08:05

Een robot roept om te beginnen alleen de namen aan die elders vindbaar zijn: de hostnaam plus alle directory- en bestandsnamen waarnaar een link verwijst (hetzij een link van jezelf, hetzij een externe link van derden).

Een nette robot gaat niet raden naar de standaardbestandsnaam bij een verzoek om een directory: dat is namelijk niet per definitie index.php, maar kan ook index.htm, index.html, index.jsp, default.asp, default.aspx, enzovoort zijn. Voor de zekerheid handel ik requests om deze bestandsnamen echter af met een permanente redirect naar de host- of directorynaam. Dat heeft uiteindelijk hetzelfde effect als een disallow in robots.txt (of een 404 Not Found), maar voegt daaraan de gewenste eindbestemming toe en voorkomt verlies van bezoekers.

Op het standaardgedrag bestaan uitzonderingen voor standaardbestanden. Daarvan is robots.txt er inderdaad een, maar denk bijvoorbeeld ook aan sitemaps.

Het crawlproces begint met een lijst van webadressen uit eerdere crawls en sitemaps die zijn geleverd door website-eigenaren. Wanneer onze crawlers deze websites bezoeken, zoeken ze naar links voor andere pagina's die ze kunnen bezoeken. De software besteedt extra aandacht aan nieuwe sites, wijzigingen in bestaande sites en dode links.

Een vergelijkbare uitzondering is favicon.ico. Dit pictogrambestand wordt niet gezocht door robots, maar wel automatisch opgevraagd door browsers. Er wordt wel eens ten onrechte beweerd dat dit verouderd gedrag is van Internet Explorer, maar in de developer tools van Google Chrome kun je zien dat Chrome precies hetzelfde doet.

Verder is het natuurlijk verstandig om dit gedrag (en wangedrag) te bewaken: log de 404's.

Ozzie PHP

07-04-2017 14:42

Thanks Ward. Beetje oenig van mij natuurlijk. Niet helemaal wakker. Ik ging er even voor het gemak vanuit dat die crawler vanuit mijn root opereerde, dus dat hij de inhoud van de root-map zou kunnen zien, maar dat is natuurlijk helemaal niet zo ... dom dom dom, haha :-)

* Ozzie geeft zichzelf klap tegen voorhoofd *

Reageren

Inloggen om te reageren