Suchmaschine Google mit neuen Rekorden

Mit 3 Millionen Dokumenten, Nachrichten und Informationen aus dem Newsnet (Diskussionsgruppen) stellt sich Google wieder einmal in neuem Glanz dar.

Kampf der Giganten

Der Kampf um den weltweit grössten Suchmaschinen-Index hat schon seit langer Zeit nur einen Gewinner, Google. Ernstzunehmender Herausforderer ist das norwegische Suchmaschinenunternehmen FAST & Transfer, welches die Suchmaschine AllTheWeb betreibt. FAST kündigte vor einigen Monaten an seinen Index auf 1,8 Mill. Webseiten zu erhöhen.
(Siehe Beitrag v.28.08.2001 zur Suchmaschine AllTheWeb)

Bisher hat FAST keine neuen Zahlen verkündet. Jedoch verteilte FAST deutliche Seitenhiebe gegen den Konkurrenten und nahm in den jüngsten Pressemitteilungen für sich in Anspruch, einen zweimal frischeren Index gegenüber Google zu bieten.

Ein weiterer möglicher Konkurrent, WiseNut, beansprucht einen Index von rund 1,6 Milliarden Webseiten für sich. WiseNut aktualisert schon seit Monaten nicht mehr und hat unheimlich an Relevanz verloren, keine Gefahr.

Qualitativ mit hoher Relevanz ist der Suchindex von Inktomi, zu erreichen über die Suchmaschine HotBot. Inktomis Index verfügt “nur” über 500 Mill. Webseiten, muss aber einen Vegleich nicht scheuen.

Zahlenspiel

Sicher wollte Google dem neuen grösseren Index der Suchmaschine AllTheWeb zuvorkommen und meldet nun 3 Milliarden Dokumente. Bisher wurden lediglich reine Webseiten gezählt. Google läutet eine neue Phase in der Zählweise ein.

Neben den rund 2 Milliarden Webseiten, sind das 700 Millionen Newsgroup-Nachrichten 330 Millionen Bilder (einschliesslich Grafiken,…) und eine ungezählte Anzahl zusätzlicher Dokumentformen wie PDF, Corel- und Microsoft-Office Dateien.

Etwas mehr als 75% der 2 Milliarden Webseiten, sind tatsächlich als Volltext im Google-Index vorhanden. Weitere Seite sind lediglich über Links erfasst, eine Differenz mit der Google bereits in der Vergangenheit mehr Grösse vorspiegelte.

Je grösser ein Index ist, je mehr relevante Ergebnisse lassen sich ermitteln. Es spielt nicht wirklich eine Rolle ob ein Index gerade 1,5 oder 1,6 Milliarden Webseiten enthält. Der Zugewinn an Relevanz wird mit zunehmender Zahl immer geringer. Einzig und allein für das Publikum, für die Presse sind diese Zahlen wirklich wichtig. Für die normalen Nutzer sind Zahlenunterschiede besser zu fassen, als ein relativer, gar subjektiver Vergleich der, offiziell wenig bekannten, Ranking-Algorithmen.

News – Archiv

Das ehemals unter Deja.com erreichbare Newsarchiv wurde von Google seit dem Erwerb im Februar diesen Jahres mit mehr als 650 Millionen Postings Schritt für Schritt wieder aufgebaut. Bereits seit einigen Monaten sind die Mitteilungen in den öffentlichen Diskusionsforen des Internet bis 1995 zurückverfolgbar.

Heute verkündet Google einen weiteren grossen Schritt. 20 Jahre Usenet lassen sich nun durchsuchen, eine für das Internet schon fast unvorstellbar lange Zeit. 700 Millionen Nachrichten enthält nun das Google-Newsgroup Archiv, zweifellos das weltweit grösste, öffentlich zugängliche Archiv dieser Art.

Zum Jubiläum wurden einige interessante historische Meilensteine herausgefischt. Microsofts Windows wurde im Jahr 1983 erstmals erwähnt, die Raumstation Mir im Jahre 1986.
Die erste Nachricht aus Berlin nach dem Fall der Mauer im November 1989. Im August 1991 gibt das europäische Forschungszentrum den Start des Worl Wide Web Projektes bekannt.

Der Begriff “Search Engine” wurde erstmals im März 1988 erwähnt.

Weitere historische Erwähnungen aus der Welt der Suchmaschinen und Webverzeichnisse:

  • Webcrawler Juni 1994
  • Yahoo! und Lycos werden noch vor deren Gründung als Internetfirmen erwähnt
  • AltaVista’s Start im Dezember 1995
  • Google, erste Erwähnung 1998

Die Erweiterung des Google-Groups Archiv dürfte nicht nur unbegrenzte Freude auslösen. Neben historisch interessanten Informationen lässt sich auch gezielt nach Personen und deren Verhalten recherchieren.

Eine wahre Fundgrube für Personalchefs die mehr Informationen über Bewerber suchen. Vielen Teilnehmern an Diskussionforen ist gar nicht geläufig, dass Ihre Meinung zu bestimmten Themen und ihre gezeigten Verhaltensweisen nach so vielen Jahren noch nachvollziehbar sind.

Es wird immer leichter Menschen, die aktiv im Internet tätig sind, über eine elektronische Spur zu indentifizieren, persönliche Profile zu erstellen.

Nachrichten-Suche

Soweit möglich, werden zu Suchbegriffe aktuelle Nachrichten angezeigt. Das funktioniert derzeit nur auf der englischsprachigen Hauptseite und nur für relativ wenige Begriffe. Die Suche nach “afghanistan” bringt 3 Meldungen der Voice of Amerika, The Mercury News und von Salon.com.

Eine rudimentäre Funktion die weit hinter dem Nachrichtenangebot zurückbleibt welches AllTheWeb (3000 Nachrichtenquellen) bietet. Zweifelsfrei wird Google an der ständigen Verbesserung der Nachrichtensuche arbeiten.

Derzeit werden relevante Newsseiten in kurzen Zyklen gespidert, mehrmals am Tag. Das müssen nicht unbedingt Newssseiten sein. Alle Seiten, die oft neue Inhalte bieten, werden mit der Bezeichnung “Fresh Datum” in der grünen Zeile unter dem Ergebnis gekennzeichnet. Als Datum steht die vorige Indexierung dieser Seite, das ist in der Regel der Vortag.

Auf der deutschsprachigen Google-Seite ist die Nachrichtensuche nicht verfügbar.

Google Pressemitteilung
Information zu 20 Jahre UseNet Archive
Suchmaschine Google


Posted

in

by

Tags: