10 Petabytes in Archive.org

3. November, 2012 Comments Off on 10 Petabytes in Archive.org Autor:

Archive.org versteht sich als Institution zur Bewahrung des kulturellen Internet-Erbes. Eine gemeinnützige, öffentliche Bibliothek, die keine Bücher sondern Webseiten und Medien archiviert und bereit stellt. Seit 1996 werden Schnappschüsse von Websites abgelegt.
10 Petabyte sind für normale Nutzer kaum fassbar. Im Jahr 2005 bekam die Internet Archive neue Speichertechnik, die bis 1 Petabyte speichern konnte. Das System umfasste 2 500 Festplatten, die in mehr als 600 Clustenr verwaltet wurden. Heute könnte diese Technik, die 2005 zukunftsorientiert ausgelegt war, nur ein Zehntel des jetzigen Archives erfassen. Wir bekommen eine kleine Ahnung wie stark das Internet Archiv wächst.

Umfang der Internet Archive

Die Internet Archive sind heute viel mehr als ein reines Abbild von Webseiten. Es gibt über 1 Mill. Videos, mehr als 108 000 Live-Musik Konzerte, über 1,4 Mill. Audioaufzeichnungen und mehr als 3,6 Mill. Texte.

Neueste Errungenschaft sind die TV-News aus US-amerikanischen Medien. Derzeit enthält die Sammlung 376 000 TV-Nachrichtensendungen, die über einen Zeitraum von mehr als 3 Jahren gesammelt wurden.

 80 Terabyte Crawl-Daten für die Forschung

Die Internet Archive machen für Forschungszwecke einen  Umfang von 80 Terabyte Crawl-Daten verfügbar. Im Rahmen der Waybackmachine werden Websites wiederholt gecrawlt und archiviert. Das Crawlingset umfasst den Datumsbereich vom 09.März bis 23.Dezember 2011. Dabei wurden Daten von 2,27 Milliarden URL gesammelt und rund 29 Millionen Hosts besucht. Ausgangspunkt für den Crawl waren die laut Alexa  1 Mill. meistbesuchten Websites . Die Verteilung der gecrawlten Hosts in der nachfolgenden Darstellung zu entnehmen:

Crawling Hosts Archive.org

Open Library

Hier muss ich es doch richtig stellen. Archive.org befasst sich sehr wohl mit Büchern.  Es gibt 30 Millionen Datensätze. Rund 20 Mill. Datensätze sind offen zugänglich. Rund eine Million eingescannte Bücher sind im Volltext vorhanden. Wie in einer richtigen Bibliothek kann man als Mitglied diese Bücher ausleihen. Erreichbar ist das Bücherprojekt von Archive.org über die Website der Open Library.

Auch interessant:


Tags: , , , , Kategorie: Recherche
Kommentare sind geschlossen