Googlebots: Freshbot und Deepbot – Suchmaschinen Crawler

Autor:

Googlebots: FreshBot und Deepbot. Die Suchmaschine Google setzt zwei unterschiedliche Spider-Arten ein, um Webseiten zu indexieren. Freshbot für aktuelle, neue Inhalte und Deepbot für die Aktualisierung vorhandener Inhalte.

Freshbot von Deepbot technisch unterscheiden

Äusserlich sind die Bots kaum zu unterscheiden. Der Eintrag in die Logdatei (Logdateien erstellt jeder seriöse Hosting-Provider), sieht immer wie folgt aus:

Googlebot/2.1 (+http://www.googlebot.com/bot.html)

Technisch lassen sich Freshbot und Deepbot anhand ihrer IP-Adresse identifizieren. Die IP-Nummern des Fresh Bot beginnen gewöhnlich mit diesem Nummernblock:
64.xxx.xxx.xxx
Während der monatliche Deepcrawl aus diesem IP-Nummern Block heraus stattfindet.
216.xxx.xxx.xxx
Verlassen kann man sich auf diese Angaben jedoch nicht. Es wurden jeweils schon Bots aus dem anderen IP-Block gesichtet.

Freshbot

Werden Seiten neu angemeldet, besucht sie zunächst der Freshbot. Freshbot erkundet, ob eine Seite regelmässig aktualisiert wird. Deshalb kommt er an den folgenden Tagen wieder. Wurde die Seite aktualisiert, bedeutet das für Freshbot, an einem der nachfolgenden Tage zurückzukehren.

Wurde keine Aktualisierung erkannt, wird für das Ranking die zuletzt ermittelte, stabile Position verwendet. Für neue Seiten bedeutet das, sie verschwinden wieder aus der Ergebnisliste. Deshalb vermuten ungeduldige Webmaster oftmals, sie wären durch eine unerklärliche Strafe aus dem Index von Google verbannt. Keine Sorge, diese Seiten sind vorgemerkt und keinesfalls in Vergessenheit geraten. Wenn sie den Richtlinien für Webmaster entsprechen, werden die Seiten sicherlich mit dem nächsten Google-Dance im Index erscheinen.

Freshbot verfolgt nicht alle Links. Es wird eher “oberflächlich” gecrawlt. Erfahrungsgemäss werden oft nur weitere Seiten besucht, die direkt von der aktuellen Seite verlinkt sind. Google experimentiert, welche Seiten vom Freshbot besucht werden, wie tief gecrawlt wird, u.s.w. Deshalb sind zuverlässige Aussagen darüber nicht möglich.

Seiten die vom Freshbot erfasst wurden, erscheinen sehr schnell im Index. Normalerweise am nächsten Tag. Klar, wirklich aktuelle Informationen sollen natürlich schnell gefunden werden. Der Freshbot erfasst lediglich HTML- und Textseiten, während Deepbot eine wesentlich grössere Palette einschliesslich PDF-, MS-Word, -Exel, PowerPoint- Dateien u.s.w. abdeckt.

Deepbot

Eine anderer Gruppe von Google Spidern nennt sich Deepbot. Sie ist für den (in der Regel) monatlichen Refresh verantwortlich. Deren Aufgabe besteht darin, möglichst viele Einzelseiten einer Website zu erfassen. Die Seiten werden auf Veränderungen geprüft. Gemeinsam mit den Veränderungen auf anderen Seiten wird das neue Ranking ermittelt. Der Öffentlichkeit wird dieser Vorgang in Form des Google-Dance präsentiert.

Website: Google

Weitere Beiträge aus dieser Kategorie