Google hat nicht den Grössten – Aber die meisten Leichen im Keller

Eine kürzlich veröffentlichte Studie befasst sich damit, wie ein zufälliger Datensatz aus einer Suchmaschine gewonnen werden kann, indem nur die offizielle Suchanfrage benutzt wird. Ein Thema das nur wenige Insider interessieren mag. Es kann allerdings dazu dienen, einen unabhängigen Leistungsvergleich der Suchmaschinen durchzuführen. Bemerkenswert sind Details der Studie zu Indexgrösse, Frische und Überlappung von Daten, sowie der Anteil dynamisch erzeugter Dokumente in Internet-Suchmaschinen. Untersucht wurden die Suchmaschinen Google, Yahoo! und MSN.

Indexgrösse
Die Beantwortung der Frage “Wer hat den grössten” war lange Zeit Statussymbol der Suchmaschinen, speziell Google. Auf der Startseite von Google standen Zahlen die niemand überprüfen konnte. Die letzte von Google veröffentlichte Zahl lag bei mehr als 8 Milliarden Dokumenten. Als im Jahr 2005 Yahoo! eine Zahl von rund 19 Milliarden indexierter Dokumente veröffentlichte, gab es eine Diskussion, die damit endete, dass Suchmaschinen nicht mehr preisgeben, wie gross der Suchmaschinenindex tatsächlich ist. Diese Frage wird auch in dieser Studie nicht beantwortet. Anhand von Beispieldatensätzen wurde ermittelt, welcher Suchmaschine, welche Indexgrösse zuzuordnen ist.

Die Abbildung zeigt die relativen Verhältnisse der Indexgrössen. Danach ist der Index von Yahoo rund ein Viertel grösser als der Google-Index. MSN folgt abgeschlagen.

Indexgrösse der Suchmaschinen

Überlappung
Für die Recherche in Suchmaschinen ist es interessant zu wissen, dass nicht jedes Dokument in jeder Suchmaschine zu finden ist. Die Indizies der grossen Suchmaschinen überlappen sich zwar, aber nur zum Teil. die nachfolgende Tabelle, verdeutlicht, wie gross die jeweiligen Überlappungen ausfallen. Die Autoren räumen ein, dass die Zahlen nur anhand englischsprachiger Begriffe ermittelt wurden. Eine gewisse Fehlerquote kann nicht ausgeschlossen werden.

Die Darstellung bestätigt praktische Erfahrungen, eine nicht erfolgreiche Recherche in einer anderen Suchmaschine fortzusetzen.

Überlappung der Suchmaschinen-Indizies

Tote Seiten
Im Vergleich der GYM-Suchmaschinen (GYM – Google, Yahoo!, MSN) stellte die Studie Google als Suchmaschine mit den meisten Leichen im Keller heraus. 2% aller Links riefen beim Anklicken eine Fehlermeldung aus dem Fehler-Code Bereich 4xx hervor.

Das bedeutet, der Anteil toter Seiten im Google-Index ist rund dreimal so gross, wie der jeweilige Indexanteil von MSN und Yahoo!.

Tote Seiten in Suchmaschinen

Aktualität der Daten

Für die Aktualität der Daten bekommt Google ebenfalls das Schlusslicht verliehen. Immerhin, weit mehr als 50% aller Daten sind in allen Suchmaschinen aktuell. Was aber auch bedeutet, dass eine grosse Fraktion im Index nicht wirklich aktuell ist.

MSN konnte insgesamt die meisten aktuellen Dokumente liefern.

Aktualität der Suchmaschinen-Indizies

Dynamische Seiten
Dynamisch erzeugte Seiten waren vor einigen Jahren ein rotes Tuch für Suchmaschinen. Zu viele technische Probleme wurden beim crawlen dynamischer Inhalte verursacht. Heute haben dynamische Seiten, die erst nach dem Abruf der Seite auf dem Servver zusammengestellt werden, wesentlich bessere Chancen in den Index der Suchmaschinen zu gelangen. Die Untersuchung machte dynamische Seiten an den Sonderzeichen ? und & fest. Ebenso wurde bei folgenden Dateiendungen unterstellt, es handle sich um dynamische Seiten: .php, .php3, .asp, .cfm, .cgi, .pl, .jsp, .exe, .dll.

Diesen Job erledigt Google eindeutig am besten. Mehr als 35% aller Inhalte im Google-Index werden als dynamische Seiten ausgeliefert. Bei Yahoo! sind es noch über 30% und MSN kommt auf etwas weniger als 25%.

Anteil dynamischer Seiten im Suchmaschinenindex

Die Veröffentlichung der Autoren Ziv Bar-Yossef und Maxim Gurevich ist mit dem 23. August 2006 datiert.
Random Sampling from a Search Engine’s Corpus (PDF-Datei)


Posted

in

, ,

by