Googlebot komt alleen kijken?
Hallo,
Ik hoop dat hier mensen met SEO kennis zitten die mij wat over Googlebot kunnen uitleggen.
Ik heb een klein projectje online staan waarbij je een datum kan kiezen waarbij je de benodigde knmi gegevens krijgt. Deze staat al jaren online, maar is nu het 'doelwit' van Googlebot.
Googlebot is nou in 4 dagen tijd al 140x komen kijken, maar op Google zelf gebeurt weinig met de gegevens.
Zo is de hoofdpagina het laatst ge-cachet op 9 januari terwijl deze dagelijks wijzigt (Nieuwe knmi gegevens). En zijn er totaal 5 pagina's opgeslagen.
- Wat is Googlebot nou aan het doen? Alleen kijken?
- Waarom wordt het niet weergegeven in Google Search?
pastebin: log
Ik hoop dat hier mensen met SEO kennis zitten die mij wat over Googlebot kunnen uitleggen.
Ik heb een klein projectje online staan waarbij je een datum kan kiezen waarbij je de benodigde knmi gegevens krijgt. Deze staat al jaren online, maar is nu het 'doelwit' van Googlebot.
Googlebot is nou in 4 dagen tijd al 140x komen kijken, maar op Google zelf gebeurt weinig met de gegevens.
Zo is de hoofdpagina het laatst ge-cachet op 9 januari terwijl deze dagelijks wijzigt (Nieuwe knmi gegevens). En zijn er totaal 5 pagina's opgeslagen.
- Wat is Googlebot nou aan het doen? Alleen kijken?
- Waarom wordt het niet weergegeven in Google Search?
pastebin: log
Je kan de domein die door Googlebot wordt bezocht ook aanmelden bij Webmasterstools. Dan heb je meer controle over het zoekgedrag van Google op je site. Verder wordt er niet real-time geindexeerd.
Ga ik eens proberen! Maar wat is dan wel het nut van Google dat ie zo vaak mijn pagina komt bekijken? Wat is zijn doel daarmee? Hij lijkt of ie nou alle datums langsgaat, maar als die dit niet indexeert snap ik zijn doel niet.
Maak ik een uur geleden een pagina aan, index_beta.php, om wat aanpassingen te doen, krijg ik ook al gelijk bezoek. Hoe weten ze dat ie pagina ineens bestaat?
Misschien moet ik wat meer gaan verdiepen in hoe Crawlen (juiste woord?) werkt.
Maak ik een uur geleden een pagina aan, index_beta.php, om wat aanpassingen te doen, krijg ik ook al gelijk bezoek. Hoe weten ze dat ie pagina ineens bestaat?
Misschien moet ik wat meer gaan verdiepen in hoe Crawlen (juiste woord?) werkt.
Quote:
2014-02-05 11:06:59|216.158.82.203|216-158-82-203.static.webnx.com|/index_beta.php|Page view
2014-02-05 11:07:05|216.158.82.203|216-158-82-203.static.webnx.com|/index_beta.php|Page view
2014-02-05 11:07:10|216.158.82.203|216-158-82-203.static.webnx.com|/index_beta.php|Page view
2014-02-05 11:08:01|93.103.82.92|93-103-82-92.dynamic.t-2.net|/index_beta.php|Page view
2014-02-05 11:09:16|94.23.169.100|94-23-169-100.kimsufi.com|/index_beta.php|Page view
2014-02-05 11:10:39|79.175.196.164|ip-79-175-196-164.cable.smsnet.pl|/index_beta.php|Page view
2014-02-05 11:10:03|74.63.210.214|214-210-63-74.static.reverse.lstn.net|/index_beta.php|Page view
2014-02-05 11:07:05|216.158.82.203|216-158-82-203.static.webnx.com|/index_beta.php|Page view
2014-02-05 11:07:10|216.158.82.203|216-158-82-203.static.webnx.com|/index_beta.php|Page view
2014-02-05 11:08:01|93.103.82.92|93-103-82-92.dynamic.t-2.net|/index_beta.php|Page view
2014-02-05 11:09:16|94.23.169.100|94-23-169-100.kimsufi.com|/index_beta.php|Page view
2014-02-05 11:10:39|79.175.196.164|ip-79-175-196-164.cable.smsnet.pl|/index_beta.php|Page view
2014-02-05 11:10:03|74.63.210.214|214-210-63-74.static.reverse.lstn.net|/index_beta.php|Page view
Google weet pas of een pagina geindexeerd moet worden als de pagina ook echt bezocht is. Dus als jij links heb naar 20 pagina's dan zal Google die 20 bezoeken. Daaruit kan dan geconcludeerd worden dat het niet nuttig is, maar dat zal na het bezoek zijn.
Wat betreft dat directe bezoek op een nieuwe pagina. Heb je een andere service van Google op je pagina's? Bijvoorbeeld advertenties? Requests voor advertenties worden over het algemeen vrij snel daarna, zoniet direct, gevolgd door een bezoekje van de bot.
Wat betreft dat directe bezoek op een nieuwe pagina. Heb je een andere service van Google op je pagina's? Bijvoorbeeld advertenties? Requests voor advertenties worden over het algemeen vrij snel daarna, zoniet direct, gevolgd door een bezoekje van de bot.
Erwin H op 05/02/2014 12:01:42:
Google weet pas of een pagina geindexeerd moet worden als de pagina ook echt bezocht is. Dus als jij links heb naar 20 pagina's dan zal Google die 20 bezoeken. Daaruit kan dan geconcludeerd worden dat het niet nuttig is, maar dat zal na het bezoek zijn.
Dus eerst bekijken, en daarna analyseren of het nuttig is om te indexeren. Duidelijk.
Quote:
Wat betreft dat directe bezoek op een nieuwe pagina. Heb je een andere service van Google op je pagina's? Bijvoorbeeld advertenties? Requests voor advertenties worden over het algemeen vrij snel daarna, zoniet direct, gevolgd door een bezoekje van de bot.
Nee, zoals ik zei was/is het een projectje. Daarbij zijn er geen ads, analytics, of dergelijke toegepast. Er is geen enkele connectie naar buiten, alleen eens per dag ('s ochtends) een request naar knmi om de nieuwe data op te halen. Vreemd bezoek dus.
Ik heb intussen de pagina toegevoegd bij m'n webmastertools. Ik ben nou bezig een dynamische sitemap te maken in de hoop dat dit googles bezoekjes vermindert.
Toevoeging:
Zojuist de sitemap toegevoegd, 41.308 pagina's verzonden, hopelijk is het voor Google nou duidelijk dat ie ze daar mag gaan zoeken ipv alle pagina's zelf langslopen :)
Volgens de statistieken van Webmastertools zijn er al 86 pagina's 'ge-crawlt' op 1 dag.
Gewijzigd op 05/02/2014 14:12:37 door Michael -
Crawlen is inderdaad iets anders dan indexeren. Googlebot crawlt meer dan er wordt geïndexeerd. Pas na het crawlen kan Google immers beoordelen of de pagina het indexeren wel waard is.
In een sitemap kun je het crawlen sturen met <changefreq>. Voor je homepage kun je die bijvoorbeeld op daily zetten, omdat je deze één keer per dag update.
In een sitemap kun je het crawlen sturen met <changefreq>. Voor je homepage kun je die bijvoorbeeld op daily zetten, omdat je deze één keer per dag update.
Dat heb ik zojuist gedaan in m'n 41.308 records lange sitemap. De index (/) op Daily en de overige 41.307 pagina's op never omdat deze niet meer wijzigen. Google schijnt zich niet 100% aan deze changefreq te houden, dus een page met 'never' kan alsnog zo nu en dan worden bezocht, mocht er toch iets wijzigen.
De sitemap is nog steeds in behandeling en Googlebot crawlt intussen nog lekker door.
Toevoeging op 06/02/2014 10:40:56:
Nog een gedeeltelijk relaterende vraag; Kan Google document titels, die door javascript zijn toegevoegd, lezen?
Google gaat intussen nog steeds rustig door met Crawlen. Intussen heb ik de links ook nog weer verandert, gaat hij nou alles opnieuw doen? Van index.php?date=2014-02-06 naar /2014-02-06
De sitemap is nog steeds in behandeling en Googlebot crawlt intussen nog lekker door.
Toevoeging op 06/02/2014 10:40:56:
Nog een gedeeltelijk relaterende vraag; Kan Google document titels, die door javascript zijn toegevoegd, lezen?
Google gaat intussen nog steeds rustig door met Crawlen. Intussen heb ik de links ook nog weer verandert, gaat hij nou alles opnieuw doen? Van index.php?date=2014-02-06 naar /2014-02-06
Terwijl googlebot nog steeds aan het crawlen is, zou iemand nog antwoord kunnen geven op de vraag of de een door javascript toegevoegde document titel ook kan lezen?
Daarnaast nog een vraagje; Ik heb 2 links als <a>Vorige</a> <a>Volgende</a>
Nou heeft google dit geindexeerd als "Pagina titel - Vorige", wat ik een beetje vreemd vind lijken. Nou heb de linkjes aangepast naar <a title="Titel">Vorige</a>. Indexeerd google dit dan ook als "Pagina titel- Titel" ?
Daarnaast nog een vraagje; Ik heb 2 links als <a>Vorige</a> <a>Volgende</a>
Nou heeft google dit geindexeerd als "Pagina titel - Vorige", wat ik een beetje vreemd vind lijken. Nou heb de linkjes aangepast naar <a title="Titel">Vorige</a>. Indexeerd google dit dan ook als "Pagina titel- Titel" ?
Op de eerste vraag: nee.
Google voert geen javascript uit.
Google voert geen javascript uit.
Bedankt voor je antwoord. Jammer.
Googlebot voert wel degelijk JavaScript uit.
Matt Cutts: “Googlebot keeps getting smarter. Now has the ability to execute AJAX/JS to index some dynamic comments.”
Op zich ook logisch: Google wil zien wat internetgebruikers zien. Google heeft daarvoor de techniek in huis, niet alleen in de browserengine voor Chrome, maar bijvoorbeeld ook voor het maken van thumbnails van webpagina's.
Matt Cutts: “Googlebot keeps getting smarter. Now has the ability to execute AJAX/JS to index some dynamic comments.”
Op zich ook logisch: Google wil zien wat internetgebruikers zien. Google heeft daarvoor de techniek in huis, niet alleen in de browserengine voor Chrome, maar bijvoorbeeld ook voor het maken van thumbnails van webpagina's.
Bedankt voor je reactie. Dat is beter nieuws! Dan indexeert Google dus de zelfde titels als de gebruikers te zien krijgen.
En weet je ook hoe dat met a-titles zit?
[example]
<a>klik hier</a> -> Indexeert: Pagina titel - klik hier
<a title="Een passende titel">klik hier</a> -> Indexeert: Pagina titel - Een passende titel ??
[/example]
edit:
volgens deze site worden ze niet meegenomen. En ik las net zelfs dat teveel title attributen juist negatief werkt. De link verwijst naar een bericht uit 2010 dus mogelijk is het allemaal al weer anders.
edit2:
En weet je ook hoe dat met a-titles zit?
[example]
<a>klik hier</a> -> Indexeert: Pagina titel - klik hier
<a title="Een passende titel">klik hier</a> -> Indexeert: Pagina titel - Een passende titel ??
[/example]
edit:
volgens deze site worden ze niet meegenomen. En ik las net zelfs dat teveel title attributen juist negatief werkt. De link verwijst naar een bericht uit 2010 dus mogelijk is het allemaal al weer anders.
edit2:
Quote:
Does Google Index The Title Attribute?
No.
There is no proof that Google adds information found in title attributes to its final index of the web.
There is no proof that Google uses text inside the title attribute for retrieval.
There is no proof that Google uses text inside the title attribute for ranking.
Why Not?
Maybe the potential for abuse is too high, a little bit like how using meta keywords quickly became useless for web search engines.
Read more: http://www.searchenginepeople.com/blog/title-attribute.html#ixzz2sdlBlUF2
No.
There is no proof that Google adds information found in title attributes to its final index of the web.
There is no proof that Google uses text inside the title attribute for retrieval.
There is no proof that Google uses text inside the title attribute for ranking.
Why Not?
Maybe the potential for abuse is too high, a little bit like how using meta keywords quickly became useless for web search engines.
Read more: http://www.searchenginepeople.com/blog/title-attribute.html#ixzz2sdlBlUF2
Gewijzigd op 07/02/2014 13:54:57 door Michael -
Je kunt het title-attribuut van <a> vergelijken met het alt-attribuut van <img>: het heeft wel enige betekenis, maar legt ook weer niet veel gewicht in de schaal.
Wat doen je a-tags? Als je ze meer gebruikt voor functionele links dan voor navigatielinks, kun je overwegen ze te vervangen door buttons.
Wat doen je a-tags? Als je ze meer gebruikt voor functionele links dan voor navigatielinks, kun je overwegen ze te vervangen door buttons.
2 links, Dag vooruit en Dag terug. Duidelijk wat ze doen denk ik :) Nou gebruikt google deze links om te navigeren/indexeren, maar plaatst dan in google 'pagina titel - Dag vooruit' wat ik dan weer jammer vind.
Gewijzigd op 07/02/2014 14:01:52 door Michael -
Duidelijk. Lijkt me het beste als je er dan een datum in zet. Bijvoorbeeld:
Met rel kun je de relatie tussen de huidige pagina en de bestemming ook nog benadrukken.
Code (php)
1
2
2
<a href="..." rel="prev" title="donderdag 6 februari 2014">Vorige</a>
<a href="..." rel="next" title="zaterdag 8 februari 2014">Volgende</a>
<a href="..." rel="next" title="zaterdag 8 februari 2014">Volgende</a>
Met rel kun je de relatie tussen de huidige pagina en de bestemming ook nog benadrukken.
De title staat er nou in, maar vroeg me dus af of google hier überhaupt iets van aantrekt. Tot nu toe lees ik van niet. Ik zal de 'rel' ook nog even toevoegen.
Ik denk het niet, anders zou je kunnen spammen of iemand een hak kunnen zetten met links zoals <a href"..." title="Viagra">.
Ward van der Put op 07/02/2014 13:21:31:
Googlebot voert wel degelijk JavaScript uit.
Matt Cutts: “Googlebot keeps getting smarter. Now has the ability to execute AJAX/JS to index some dynamic comments.”
Op zich ook logisch: Google wil zien wat internetgebruikers zien. Google heeft daarvoor de techniek in huis, niet alleen in de browserengine voor Chrome, maar bijvoorbeeld ook voor het maken van thumbnails van webpagina's.
Matt Cutts: “Googlebot keeps getting smarter. Now has the ability to execute AJAX/JS to index some dynamic comments.”
Op zich ook logisch: Google wil zien wat internetgebruikers zien. Google heeft daarvoor de techniek in huis, niet alleen in de browserengine voor Chrome, maar bijvoorbeeld ook voor het maken van thumbnails van webpagina's.
Volgens mij is dat heel iets anders. Google kan namelijk wel ajax calls indexeren, mits je je aan een heleboel richtlijnen houdt. In het kort, Google zal links die een ajax call tot gevolg hebben volgen en de response indexeren. Wat jij zal moeten doen is ervoor zorgen dat de link op de een of andere manier een volledige html pagina teruggeeft zoals de pagina eruit zou zien als de ajax call volledig in de pagina was afgehandeld. https://developers.google.com/webmasters/ajax-crawling/
Als jij echter de title van je pagina in willekeurig welke functie met javascript verandert, dan zal Google dat echt niet opmerken. Google voert geen javascript uit, maar volgt alleen links.
Maar toon me mijn ongelijk als dat ergens expliciet te vinden is, kan ik ook weer wat leren :-)
Edit, uit bovenstaande link:
Quote:
But making your application more responsive has come at a huge cost: crawlers are not able to see any content that is created dynamically.
Gewijzigd op 07/02/2014 14:26:18 door Erwin H
Precies. In hoever kan ik dan voorkomen dat google Dag vooruit gebruikt in de document titel, terwijl de eigenlijk titel anders is... Of gebeurt dat nou niet meer door het rel attribuut
Toevoeging op 07/02/2014 14:27:56:
@Erwin, bedankt voor je reactie. Als Google de door javascript gegeven document titel heeft geïndexeerd laat ik 't weten ;) Anders moet ik daar wat anders voor bedenken.
Toevoeging op 07/02/2014 14:27:56:
@Erwin, bedankt voor je reactie. Als Google de door javascript gegeven document titel heeft geïndexeerd laat ik 't weten ;) Anders moet ik daar wat anders voor bedenken.
Erwin, bijvoorbeeld deze longread en de daarin aangehaalde bronnen, waaronder deze case uit 2008, die beschrijft hoe een link die alleen in JavaScript wordt gebruikt, opduikt op plaats 1 bij Google.
Ik ben wel met je eens dat het gissen is hoeveel JavaScript Googlebot nu werkelijk verwerkt. Volgens sommigen is het uitsluitend Ajax, volgens anderen veel meer, bijvoorbeeld elke JavaScript-variabele die op een URL lijkt of zelfs de gehele jQuery-library uit het CDN van Google zelf.
Ik ben wel met je eens dat het gissen is hoeveel JavaScript Googlebot nu werkelijk verwerkt. Volgens sommigen is het uitsluitend Ajax, volgens anderen veel meer, bijvoorbeeld elke JavaScript-variabele die op een URL lijkt of zelfs de gehele jQuery-library uit het CDN van Google zelf.
Volgens moeten we een onderscheid maken tussen 'javascript lezen' en 'javascript uitvoeren'. Als ik het tweede voorbeeld van je aanhaal dan is het waarschijnlijk dat de google crawler de javascript code heeft uitgeplozen en die link eruit heeft geplukt. Dat op zich is niet zo anders dan het uitlezen van links uit je html pagina (al helemaal niet als die javascript code is embedded). Echter het geeft geen indicatie dat code ook daadwerkelijk wordt uitgevoerd. Tenzij ik een stuk in je longread heb gemist.
Het uitvoeren van code is juist nodig voor wat Michael wil.
Het uitvoeren van code is juist nodig voor wat Michael wil.




