Das Webarchiv ist keine Suchmaschine im herkömmlichen Sinne. Doppelte
Webseiten, die normalerweise jede Suchmaschine eleminieren möchte, sind ausdrücklich
erwünscht.
Webseiten können 10-, 100 mal oder mehr vorhanden sein. Wichtig ist nur,
dass sie sich im Datum unterscheiden.
Das Webarchiv verspricht eine Zeitreise zu alten Web-Dokumenten. So können
Sie Inhalte und Aussehen von Websites über einen langen Zeitraum verfolgen.
Zurück bis 1996.
Der Sinn des Webarchiv
Das Anliegen des Webarchiv ist genau jenes, welches bereits die Bibliothek
von Alexandria entstehen liess. Dort wird von jedem Buch das auf der Welt erscheint,
ein Exemplar archiviert.
Allerdings erscheint es sehr fraglich, ob im Webarchiv jemals alle Webseiten archiviert
werden können und müssen. Derzeit wächst das Archiv um 12 Terabyte
monatlich.
Umfassende elektronische Dokumentationen fehlen bisher und viele Webseiten des
frühen Internet sind bereits jetzt verschwunden.
Das Webarchiv soll einen umfassenden Eindruck des Internet in seiner jeweiligen
historischen Epoche vermitteln.
Zeitreise in die Vergangenheit
Für eine Zeitreise steht seit dem 24.Oktober 2001 die "Wayback Machine"
dem öffentlichen Publikum zur Verfügung.
In der Suchmaske geben Sie neben der gewünschten URL den Zeitraum an, der
für Ihre Zeitreise interessant ist. Die Suche bleibt immer eine Überraschung,
da nicht im Voraus abzuklären ist, ob die gewünschte Seite wirklich
schon vor einiger Zeit in das Archiv aufgenommen wurde und wenn ja, ab welchem
Zeitraum. Zudem gibt es Darstellungsprobleme mit dynamisch generierten Webseiten.
Nicht immer ist es möglich wirklich historische Dokumente zu sehen. Viele
Websites werden erst seit wenigen Tagen oder Wochen getrackt. Andere lassen sich
nicht ansehen, da die Macher offenbar vom öffentlichen Interesse überrannt
wurden, die Server sind oft völlig überlastet.
Das Webarchiv ist vor allem für Wissenschaftler, Historiker, Webdesigner,
Richter und Journalisten vorgesehen. Doch gibt es Bereiche die für eine breit
interessierte Öffentlichkeit das Web zu spezielle Themen wiedergeben.
Spezialsammlungen
Sammlungen gibt es etwa über die furchtbaren Terroranschläge des
11. September 2001 oder die Präsidentschaftswahlen in den USA im Jahr 2000.
Generell sind es eher US-amerikansiche Seiten die das Archiv dominieren. Das lässt
sich jedoch ändern. Jeder der möchte kann seine Seiten für das
Archiv
anmelden.
Interessant ist der historische Trip in das 1996 zu den Web Pioneers.
So lässt sich mit einem Blick auf die Startseite von Webcrawler feststellen,
dass damals AOL das Copyright für sich verbuchte. Heute gehört die Seite
zu Excite und hat völlig an Bedeutung verloren, da die Ergebnisse identisch
mit denen auf Excite.com sind.
Die Site von Yahoo! hat an ihrem generellen Branding nichts geändert, doch
sah die Startseite damals noch viel einfacher und übersichtlicher aus.
Ein Filmarchiv
im mpeg 2 Format beschreibt mit seinen Beiträgen vor allem das tägliche
Leben im Nordamerika des 20 Jahrhundert.
Ebenfalls in der Sammlung enthalten sind FTP-Dateien und Usenet Postings der Jahre
1996 bis 1998 und ab 2000.
Technische Informationen
Das Webarchiv umfasst derzeit mehr als 10 Milliarden Webseiten, das entspricht
100 TeraByte an Daten. Da sich Laien und selbst Fachleute nur schwer vorstellen
können, was 100 Terabyte bedeuten, gibt es auf dieser Seite einen Vergleich
verschiedener Medien wie etwa der kompletten Encyclopedia Britannica und deren
Anspruch auf Speicherplatz: How Big Is 100
Terabytes?
Für den Betrieb des Archives werden dutzende Webserver (mehr als 300) von
Hewlett Packard mit dem Betriebssystem Free BSD verwendet. Jeder Computer ist
mit 512 MB Arbeitspeicher und rund 300 Gigabytes an Datenspeicher (Festplatten)
bestückt.
Partner der Wayback Machine
Als gemeinnütziges Projekt kommt ein derartiges Vorhaben nicht ohne Unterstützung
renomierter Unternehmen aus. An erster Stelle steht Alexa.
Dort entstand das Archiv und wird von Alexa weiter mit neuen Informationen gespeist.
Die Website Alexa bieten den Besuchern ein Tool das sich in den Internetexplorer
als Toolbar integriert und Websites bewertet. Alexa ist allerdings umstritten,
da persönliche Daten gesammelt werden können.
Weitere Partner sind die US-amerikanische "Library
of Congress" sowie das Unternehmen Open
Text, das frühzeitig dem Internet eine Suchmaschine zur Verfügung
stellte.
Seit Oktober 2002 ist bekannt, dass eine sogenannte Spiegelsite über die
legendäre Bibliothek in Alexandria, Ägypten zur Verfügung steht.
Die Zugriffe auf das Internetarchiv werden aufgeteilt, die Zugriffszeiten minimiert.
(24.10.2002) Die Schnappschüsse der Webseiten werden weiter kontinuierlich
erfasst. Es fehlt jedoch an technischen Möglichkeiten, diese direkt zugänglich
zu machen. Schnappschüsse aus dem Jahr 2002 sind leider noch nicht verfügbar,
es wird daran gearbeitet diese zu veröffentlichen.