Der Google Proxy-Cache

Mehr Verständnis zum Verhalten der GoogleBots erhalten wir mit der Erklärung von Matt Cutts. Unterschiedliche GoogleBots greifen auf einen Cache zu, der für differenziertes Zugriffsverhalten während des Crawls sorgt.

Auf einer Website können unterschiedliche GoogleBots gleichzeitig unterwegs sein. Neben dem normalen GoogleBot wird es vor allem der AdsenseBot sein, sobald eine Website Google-Anzeigen geschaltet hat. Für die Blog-Suche gibt es einen weiteren Bot. Ebenso für die Nachrichtensuche. Weitere Google-Services nutzen einen Bot. Die jeweiligen Bots arbeiten unabhängig voneinander. Es gibt keine Abstimmung untereinander, welche Seiten bereits besucht wurden. Es leuchtet ein, somit kann eine Webseite von mehren GoogleBots gleichzeitig oder kurz nacheinander besucht werden. Das ist uneffektiv und “klaut” den Site-Betreibern Bandbreite. Besser wäre es, die Bots könnten sich “absprechen”, abklären welche Seiten bereits besucht wurden.
Das passiert seit der neuen Infrastruktur “Bigdaddy” über einen Cache-Proxy. Bevor die GoogleBots eine Website besuchen, “schauen” sie im Cache, welche Seiten bereits im Cache vorhanden sind. Mit dieser Information ausgestattet, werden nur die Seiten besucht, die aktuell nicht im Cache vorhanden sind. Doppelte Besuche der Google-Bots auf einer Seite werden damit unnötig.

Typischerweise hat ein Cache ein Verfallsdatum. Es macht schliesslich keinen Sinn, über einen Zeitraum, von sagen wir mal drei Monaten, die Bots aus dem Cache zu bedienen. Täglich aktualisierte Seiten würden im Google-Index hoffnungslos veralten. Es mag also sein, dass der Cache täglich geleert wird. Doch das wäre noch nicht die optimale Arbeitsweise. Suchmaschinen legen für das Crawlen von Web-Seiten unterschiedliche Intervalle fest. Optimal wäre, wenn der Cache für Seiten, die mehrmals täglich aktualisiert werden, ebenfalls mehrfach täglich geleert würde. Für Seiten, die nur einmal im Monat besucht werden, könnte ein monatliches Intervall eingestellt werden. Ob der Google Proxy-Cache so differenziert arbeiten kann, geht aus Matts Blog nicht hervor.

Matt Cutts erklärt, die Teilnahme am Adsense Programm bzw. die Nutzung eines Blogs sorgt nicht für ein Extra-Crawling oder Ranking der Seiten. Die Seiten würden nicht schneller gecrawlt bzw. indexiert.

Hmmm, ob das mit der Schnelligkeit wirklich so stimmt? 3 Crawler schaffen schliesslich mehr als ein Crawler.

Noch Tipp von Matt: Webmaster können viel Bandbreite sparen, wenn sie die Übertragung der Webseiten im gzip-Format ermöglichen.

Matt Cutts: Gadgets, Google, and SEO » Crawl caching proxy


Posted

in

,

by

Tags: