Dreijährige Studie zur Aktualität der Daten in Suchmaschinen

Sollen Suchmaschinen versuchen, täglich möglichst viele Webseiten zu aktualisieren oder können für ältere Seiten längere Abstände gelten?

Ein Studie, vorgesehen für die Veröffentlichung im Journal of Information Science, Nr. 34, setzt sich mit der Aktualität von Daten, speziell Webseiten, im Index von Suchmaschinen auseinander. Berücksichtigt wurden Suchmaschinen, die Webseiten im Cache behalten und somit Rückschlüsse auf das Alter der erfassten Seiten zulassen. Das sind Google, Yahoo! und MSN (Live Search). Die Untersuchung fasst die Daten einer früheren Untersuchung vom Jahre 2005 ein. Diese Studie kennt somit Daten aus den Jahren 2005, 2006 und 2007.

Die Studie geht davon aus, dass neben den Änderungen an Webseiten auch die Änderung der Verweise auf eine Seite für die Ermittlung der Aktualiiserungsfrequenz genutzt wird.

Anteil von Seiten, die täglich aktualisiert werden und deren tatsächliche Aktualität in in folgenden Suchmaschinen, in der Reihenfolge jeweils für 2005, 2006 und 2007:
Google 82,86% ,20,62%, 24,91%
Microsoft 48,01%, 28,92%, 10,26%
Yahoo! 42,85%, 73,13%, 49,76%

Der schwindende Anteil tagesaktueller Seiten für Google, wird mit einer überwiegenden Verzögerung von zwei Tagen erklärt, die Google für Seiten anwendet, die täglich aktualisiert werden. Davon abgesehen ist Google jedoch die Suchmaschine, die am häufigsten den Wechsel von Inhalten für mindestens täglich aktualisierte Webseiten erfasst.

Microsoft ist in der Lage, den kompletten Index innerhalb von 30 Tagen zu aktualisieren. Google bringt auch im Jahr 2007 noch Seiten, die bis zu 175 Tage alt sind. Google zeigt im Jahr 2007 für mehr als 68% aller Seiten eine Verzögerung von zwei Tagen für Seiten die täglich aktualisiert werden.

Google zeigt die grösste Differenzierungsfähigkeit, zwischen häufig geänderten und seltener geänderten Seiten zu unterscheiden. MSN hingegen zeigt in dieser Hinsicht die wenigsten Unterschiede. Macht jedoch den besten Job, innerhalb von 30 Tagen sämtliche Seiten erneut zu crawlen.

Wirklich klare Muster, in welchen Abständen Seiten wiederholt gecrawlt werden, konnten nicht gefunden werden. Dafür wechselt das Verhalten der Crawler zu häufig. Die untersuchten Suchmaschinen bieten für die Aktualisierung keine wirklich brauchbare Lösung für die Nutzer. Keine der untersuchten Suchmaschinen bietet umfassend tagesaktuelle Seiten, selbst für gecrawlte Seiten die täglich geändert werden. Die Suche innerhalb eines Datumbereiches isr nur bedingt erfolgreich. Suchmaschinen sind laut dieser Studie nicht in der Lage zu erkennen ob Änderungen etwa am Design oder Inhalt vorgenommen wurden.

Die Studie als PDF-Datei:
PDF-Datei: A three-year study on the freshness of Web search engine databases. Journal of Information Science 34(2008) (to appear)


Posted

in

by

Tags: