Webarchiv – Internet Archive – Wayback Machine

Webarchiv – Suchmaschine für die Vergangenheit. Das Webarchiv ist keine Suchmaschine im herkömmlichen Sinne. Mehrfache Versionen einer Webseite, die normalerweise jede Suchmaschine eleminieren möchte, sind ausdrücklich erwünscht.

Webseiten können 10-, 100 mal oder mehr vorhanden sein. Wichtig ist nur, dass sie sich im Datum unterscheiden.

Das Webarchiv verspricht eine Zeitreise zu alten Web-Dokumenten. So können Sie Inhalte und Aussehen von Websites über einen langen Zeitraum verfolgen. Zurück bis 1996.

Der Sinn des Webarchives

Das Anliegen des Webarchives ist genau jenes, welches bereits die Bibliothek von Alexandria entstehen liess. Dort wird von jedem Buch das auf der Welt erscheint, ein Exemplar archiviert.
Allerdings erscheint es sehr fraglich, ob im Webarchiv jemals alle Webseiten archiviert werden können und müssen. Derzeit wächst das Archiv um 12 Terabyte monatlich.

Umfassende elektronische Dokumentationen fehlen bisher und viele Webseiten des frühen Internets sind bereits jetzt verschwunden.
Das Webarchiv soll einen umfassenden Eindruck des Internet in seiner jeweiligen historischen Epoche vermitteln.

Zeitreise in die Vergangenheit

Für eine Zeitreise steht seit dem 24.Oktober 2001 die “Wayback Machine” dem öffentlichen Publikum zur Verfügung.

In der Suchmaske geben Sie neben der gewünschten URL den Zeitraum an, der für Ihre Zeitreise interessant ist. Die Suche bleibt immer eine Überraschung, da nicht im Voraus abzuklären ist, ob die gewünschte Seite wirklich schon vor einiger Zeit in das Archiv aufgenommen wurde und wenn ja, ab welchem Zeitraum. Zudem gibt es Darstellungsprobleme mit dynamisch generierten Webseiten.

Nicht immer ist es möglich wirklich historische Dokumente zu sehen. Viele Websites werden erst seit wenigen Tagen oder Wochen getrackt. Andere lassen sich nicht ansehen, da die Macher offenbar vom öffentlichen Interesse überrannt wurden, die Server sind oft völlig überlastet.

Das Webarchiv ist vor allem für Wissenschaftler, Historiker, Webdesigner, Richter und Journalisten vorgesehen. Doch gibt es Bereiche die für eine breit interessierte Öffentlichkeit das Web zu spezielle Themen wiedergeben.

Spezialsammlungen

Sammlungen gibt es etwa über die furchtbaren Terroranschläge des 11. September 2001 oder die Präsidentschaftswahlen in den USA im Jahr 2000.
Generell sind es eher US-amerikanische Seiten die das Archiv dominieren. Das lässt sich jedoch ändern. Jeder der möchte kann seine Seiten für das Archiv anmelden.

Interessant ist der historische Trip in das 1996 zu den Web Pioneers.
So lässt sich mit einem Blick auf die Startseite von Webcrawler feststellen, dass damals AOL das Copyright für sich verbuchte. Heute gehört die Seite zu Excite und hat völlig an Bedeutung verloren, da die Ergebnisse identisch mit denen auf Excite.com sind.
Die Site von Yahoo! hat an ihrem generellen Branding nichts geändert, doch sah die Startseite damals noch viel einfacher und übersichtlicher aus.

Ein Filmarchiv  beschreibt mit seinen Beiträgen vor allem das tägliche Leben im Nordamerika des 20 Jahrhundert.

Ebenfalls in der Sammlung enthalten sind FTP-Dateien und Usenet Postings der Jahre 1996 bis 1998 und ab 2000.

Technische Informationen

Das Webarchiv umfasst derzeit mehr als 10 Milliarden Webseiten, das entspricht 100 TeraByte an Daten. Da sich Laien und selbst Fachleute nur schwer vorstellen können, was 100 Terabyte bedeuten, gab es auf einer speziellen Seite einen Vergleich verschiedener Medien, wie etwa der kompletten Encyclopedia Britannica und deren Anspruch auf Speicherplatz:
How Big Is 100 Terabytes?

Für den Betrieb des Archives werden dutzende Webserver (mehr als 300) von Hewlett Packard mit dem Betriebssystem Free BSD verwendet. Jeder Computer ist mit 512 MB Arbeitspeicher und rund 300 Gigabytes an Datenspeicher (Festplatten) bestückt.

Partner der Wayback Machine

Als gemeinnütziges Projekt kommt ein derartiges Vorhaben nicht ohne Unterstützung renomierter Unternehmen aus. An erster Stelle steht Alexa.
Dort entstand das Archiv und wird von Alexa weiter mit neuen Informationen gespeist. Die Website Alexa bieten den Besuchern ein Tool das sich in den Internetexplorer als Toolbar integriert und Websites bewertet. Alexa ist allerdings umstritten, da persönliche Daten gesammelt werden können.

Weitere Partner sind die US-amerikanische “Library of Congress” sowie das Unternehmen Open Text, das frühzeitig dem Internet eine Suchmaschine zur Verfügung stellte.

Seit Oktober 2002 ist bekannt, dass eine sogenannte Spiegelsite über die legendäre Bibliothek in Alexandria, Ägypten zur Verfügung steht. Die Zugriffe auf das Internetarchiv werden aufgeteilt, die Zugriffszeiten minimiert.

Websites: Webarchiv | Wayback Machine | Bibliotheca Alexandrina

Comments

Leave a Reply