(07.03.2003) Die Suchmaschine Google setzt zwei unterschiedliche Spider-Arten
ein, um Webseiten zu indexieren. Freshbot für aktuelle, neue Inhalte und
Deepbot für die Aktualisierung vorhandener Inhalte.
Freshbot von Deepbot technisch unterscheiden
Äusserlich sind die Bots kaum zu unterscheiden. Der Eintrag in die Logdatei
(Logdateien erstellt jeder seriöse Hosting-Provider), sieht immer wie folgt
aus:
Technisch lassen sich Freshbot und Deepbot anhand ihrer IP-Adresse identifizieren. Die
IP-Nummern des Fresh Bot beginnen gewöhnlich mit diesem Nummernblock:
64.xxx.xxx.xxx
Während der monatliche Deepcrawl aus diesem IP-Nummern Block heraus stattfindet.
216.xxx.xxx.xxx
Verlassen kann man sich auf diese Angaben jedoch nicht. Es wurden jeweils
schon Bots aus dem anderen IP-Block gesichtet.
Freshbot
Werden Seiten neu angemeldet, besucht sie zunächst der Freshbot.
Freshbot erkundet, ob eine Seite regelmässig aktualisiert wird. Deshalb
kommt er an den folgenden Tagen wieder. Wurde die
Seite
aktualisiert,
bedeutet das für Freshbot, an einem der nachfolgenden Tage zurückzukehren.
Wurde
keine
Aktualisierung
erkannt, wird für das Ranking die zuletzt ermittelte, stabile Position
verwendet.
Für neue Seiten bedeutet das, sie verschwinden wieder aus der Ergebnisliste.
Deshalb vermuten ungeduldige Webmaster oftmals, sie wären durch eine unerklärliche
Strafe aus dem Index von Google verbannt. Keine Sorge, diese Seiten sind vorgemerkt
und keinesfalls in Vergessenheit geraten. Wenn sie den Richtlinien für Webmaster
entsprechen, werden die Seiten sicherlich mit dem nächsten Google-Dance
im
Index
erscheinen.
Freshbot verfolgt nicht alle Links. Es wird eher "oberflächlich" gecrawlt.
Erfahrungsgemäss
werden oft nur weitere Seiten
besucht, die direkt von der aktuellen Seite verlinkt sind. Google experimentiert,
welche Seiten vom Freshbot besucht werden, wie tief gecrawlt wird, u.s.w. Deshalb
sind zuverlässige Aussagen darüber nicht möglich.
Seiten die vom Freshbot erfasst wurden, erscheinen sehr schnell im Index.
Normalerweise am nächsten Tag. Klar, wirklich aktuelle Informationen sollen
natürlich
schnell gefunden werden. Der Freshbot erfasst lediglich HTML- und Textseiten,
während
Deepbot eine wesentlich grössere Palette einschliesslich PDF-, MS-Word,
-Exel,
PowerPoint- Dateien u.s.w. abdeckt.
Deepbot
Eine anderer Gruppe von Google Spidern nennt sich Deepbot. Sie ist für
den (in der Regel) monatlichen
Refresh verantwortlich. Deren Aufgabe besteht darin, möglichst viele Einzelseiten
einer Website zu erfassen. Die Seiten werden auf Veränderungen geprüft.
Gemeinsam
mit den Veränderungen auf anderen Seiten wird das neue Ranking ermittelt.
Der
Öffentlichkeit wird dieser Vorgang in Form des Google-Dance präsentiert.
Anwendungen mit der Google Suchfunktion
programmieren
Weitere Google-Beiträge:
Das @-web Verzeichnis der wichtigsten Suchmaschinen mit URL zum Anmelden neuer
Webseiten.
Webverzeichnisse und Metasucher: Suchmaschinenverzeichnis
06.03.2003
Seitenbeginn