Ik hoop dat hier mensen met SEO kennis zitten die mij wat over Googlebot kunnen uitleggen.
Ik heb een klein projectje online staan waarbij je een datum kan kiezen waarbij je de benodigde knmi gegevens krijgt. Deze staat al jaren online, maar is nu het 'doelwit' van Googlebot.
Googlebot is nou in 4 dagen tijd al 140x komen kijken, maar op Google zelf gebeurt weinig met de gegevens.
Zo is de hoofdpagina het laatst ge-cachet op 9 januari terwijl deze dagelijks wijzigt (Nieuwe knmi gegevens). En zijn er totaal 5 pagina's opgeslagen.
- Wat is Googlebot nou aan het doen? Alleen kijken?
- Waarom wordt het niet weergegeven in Google Search?
Je kan de domein die door Googlebot wordt bezocht ook aanmelden bij Webmasterstools. Dan heb je meer controle over het zoekgedrag van Google op je site. Verder wordt er niet real-time geindexeerd.
Ga ik eens proberen! Maar wat is dan wel het nut van Google dat ie zo vaak mijn pagina komt bekijken? Wat is zijn doel daarmee? Hij lijkt of ie nou alle datums langsgaat, maar als die dit niet indexeert snap ik zijn doel niet.
Maak ik een uur geleden een pagina aan, index_beta.php, om wat aanpassingen te doen, krijg ik ook al gelijk bezoek. Hoe weten ze dat ie pagina ineens bestaat?
Misschien moet ik wat meer gaan verdiepen in hoe Crawlen (juiste woord?) werkt.
Google weet pas of een pagina geindexeerd moet worden als de pagina ook echt bezocht is. Dus als jij links heb naar 20 pagina's dan zal Google die 20 bezoeken. Daaruit kan dan geconcludeerd worden dat het niet nuttig is, maar dat zal na het bezoek zijn.
Wat betreft dat directe bezoek op een nieuwe pagina. Heb je een andere service van Google op je pagina's? Bijvoorbeeld advertenties? Requests voor advertenties worden over het algemeen vrij snel daarna, zoniet direct, gevolgd door een bezoekje van de bot.
Google weet pas of een pagina geindexeerd moet worden als de pagina ook echt bezocht is. Dus als jij links heb naar 20 pagina's dan zal Google die 20 bezoeken. Daaruit kan dan geconcludeerd worden dat het niet nuttig is, maar dat zal na het bezoek zijn.
Dus eerst bekijken, en daarna analyseren of het nuttig is om te indexeren. Duidelijk.
Wat betreft dat directe bezoek op een nieuwe pagina. Heb je een andere service van Google op je pagina's? Bijvoorbeeld advertenties? Requests voor advertenties worden over het algemeen vrij snel daarna, zoniet direct, gevolgd door een bezoekje van de bot.
Nee, zoals ik zei was/is het een projectje. Daarbij zijn er geen ads, analytics, of dergelijke toegepast. Er is geen enkele connectie naar buiten, alleen eens per dag ('s ochtends) een request naar knmi om de nieuwe data op te halen. Vreemd bezoek dus.
Ik heb intussen de pagina toegevoegd bij m'n webmastertools. Ik ben nou bezig een dynamische sitemap te maken in de hoop dat dit googles bezoekjes vermindert.
Toevoeging:
Zojuist de sitemap toegevoegd, 41.308 pagina's verzonden, hopelijk is het voor Google nou duidelijk dat ie ze daar mag gaan zoeken ipv alle pagina's zelf langslopen :)
Volgens de statistieken van Webmastertools zijn er al 86 pagina's 'ge-crawlt' op 1 dag.
Crawlen is inderdaad iets anders dan indexeren. Googlebot crawlt meer dan er wordt geïndexeerd. Pas na het crawlen kan Google immers beoordelen of de pagina het indexeren wel waard is.
In een sitemap kun je het crawlen sturen met <changefreq>. Voor je homepage kun je die bijvoorbeeld op daily zetten, omdat je deze één keer per dag update.
Dat heb ik zojuist gedaan in m'n 41.308 records lange sitemap. De index (/) op Daily en de overige 41.307 pagina's op never omdat deze niet meer wijzigen. Google schijnt zich niet 100% aan deze changefreq te houden, dus een page met 'never' kan alsnog zo nu en dan worden bezocht, mocht er toch iets wijzigen.
De sitemap is nog steeds in behandeling en Googlebot crawlt intussen nog lekker door.
[size=xsmall]Toevoeging op 06/02/2014 10:40:56:[/size]
Nog een gedeeltelijk relaterende vraag; Kan Google document titels, die door javascript zijn toegevoegd, lezen?
Google gaat intussen nog steeds rustig door met Crawlen. Intussen heb ik de links ook nog weer verandert, gaat hij nou alles opnieuw doen? Van index.php?date=2014-02-06 naar /2014-02-06
Terwijl googlebot nog steeds aan het crawlen is, zou iemand nog antwoord kunnen geven op de vraag of de een door javascript toegevoegde document titel ook kan lezen?
Daarnaast nog een vraagje; Ik heb 2 links als <a>Vorige</a> <a>Volgende</a>
Nou heeft google dit geindexeerd als "Pagina titel - Vorige", wat ik een beetje vreemd vind lijken. Nou heb de linkjes aangepast naar <a title="Titel">Vorige</a>. Indexeerd google dit dan ook als "Pagina titel- Titel" ?
Matt Cutts: “Googlebot keeps getting smarter. Now has the ability to execute AJAX/JS to index some dynamic comments.”
Op zich ook logisch: Google wil zien wat internetgebruikers zien. Google heeft daarvoor de techniek in huis, niet alleen in de browserengine voor Chrome, maar bijvoorbeeld ook voor het maken van thumbnails van webpagina's.