(04.09.2003) Das Internet-Archiv bewahrt Webseiten seit 1996 auf. Mit
der Volltextsuche ergibt sich eine ganz neue Qualität um den Bereich der
Waybackmachine zu durchsuchen.
Zunächst sind im Index mehr als 11 Milliarden Webseiten erfasst. Die
derzeit grössten Internet-Suchmaschinen wie Google und AllTheWeb bieten hingegen
einen Index der (nur) knapp über 3 Milliarden Webseiten enthält. Dennoch
stellen die 11 Milliarden Webseiten nur einen Teil des gesamten Datenbestandes
der Waybackmachine dar.
Volltextsuche
Bisher konnten Webseiten in der Waybackmachine lediglich durch Aufruf einer
URL aufgespürt werden. Nun finden Sie Webseiten indem Sie wie bei jeder normalen
Suchmaschine, ein oder mehrere Worte in die Suchmaske eingeben.
Mehrere Worte werden als Phrase aufgefasst. Das heisst, es muss genau diese
Zeichenfolge gefunden werden.
Ranking
Das Ranking basiert auf den Inhalten einer Webseite. Allerdings werden nicht
nur die gesuchten Worte berücksichtigt. Das System "versteht" welche
Worte in diesem Zusammenhang ebenfalls als passend gelten können. Dafür
gibt es einen Katalog automatisch generierter Kategorien und Themen. 1,4 Millionen
Begriffe sind in mehr als 50 000 Kategorien aufgeteilt.
Suche verfeinern
Während der Suchanfrage wird eine Auswahl an Kategorien und Themen gebildet,
die zur Verfeinerung der Suche verwendet werden kann. Sie sehen in jeder Ergebnisliste
entsprechende Auswahlfelder am rechten Seitenrand. Wählen Sie dort einen
Begriff wird die Suchanfrage um diesen Begriff erweitert, Sie erhalten präzisere
Treffer.
Durch Auswahl eines Datumsbereiches können Sie die Suche auf einen Zeitraum
Ihrer Wahl einschränken. Beginnend mit Januar 1996 wurden die ersten Webseiten
in das Archiv aufgenommen.
Personalisierung
Alle Treffer erhalten eine Bewertung. Durch die Auswahl eines Treffer auf hinteren
Plätzen geben Sie zu erkennen, dass dieser Treffer einen höheren Wert
für Sie besitzt. Er wird zukünftig für Ihre Anfragen höher
bewertet. Zwei Personen könne die gleiche Suchanfrage stellen und nach einer
gewissen Menge von Anfragen unterschiedliche Ergebnisse erhalten da sie verschiedene
Treffer auswählten.
Technische Daten
Der Index umfasst im September 2003 die Menge von 11 094 942 000 Webseiten
und benötigt 2 Terabyte Speicherplatz. Die erfassten Webseiten belegen einen
Speicherplatz von 0,5 Petabyte im Internet-Archiv.
Insgesamt werden 312 Computer eingesetzt, jeder mit 512 MB RAM (Arbeitsspeicher)
und 2 GB Festplattenplatz. 8 Computer dienen zum Beantworten von Anfragen. Täglich
können bis zu 3 Milliarden neuer Seiten erfasst werden.
Volltextsuche in der Waybackmachine: Recall http://recall.archive.org/
Technische (Power-Point) Präsentation der Entwicklerin Anna Patterson:
Cob Web Search: http://ia00406.archive.org/cobwebsearch.ppt
Das @-web Verzeichnis der wichtigsten Suchmaschinen mit URL zum Anmelden neuer
Webseiten.
Webverzeichnisse und Metasucher: Suchmaschinenverzeichnis
04.09.2003