Internet Archiv wird verklagt – @-web Suchmaschinen Magazin und Blog

Das Internet Archiv stellt eine gute Unterstützung dar, wenn es darum geht, Webseiten anzuschauen, die es entweder nicht mehr gibt oder die früher andere Inhalte präsentierten. Das ist nützlich für eine Vielzahl von Erkundungen und Nachforschungen. Momentan enthält das Internetarchiv rund ein PetaByte an Daten, gesammelt seit 1996, und wächst ständig.

Laut einem Bericht der New York Times wird das Internet Archiv verklagt, weil es den Zugriff auf Webseiten gewährt, die durch eine robots.txt Datei “geschützt” seien. Einige davon sind aus dem Jahr 1999. Von einem Schutz durch die robots.txt kann aber gar nicht die Rede sein. Die Angaben in einer robots.txt sind lediglich Empfehlungen und habe absolut keine Rechtsverbindlichkeit. Daten die wirklich geschützt werden sollen, sollten serverseitige Schutzmassnahmen bevorzugen oder noch besser, gar nicht im Internet verfügbar sein.

Ein Anwaltsunternehmen aus Philadephia, USA, ist nun der Meinung, der Zugriff auf die durch die robots.txt ausgeschlossenen Seiten stellten einen Verstoss gegen den Digital Millennium Copyright Act und den Computer Fraud und Abuse Act dar. Laut Logfiles hat das verklagte Unternehmen hunderte von Versuchen unternommen über das Internet Archiv auf alte Inhalte zuzugreifen. In 92 Fällen, seien alte Versionen aufgerufen worden, auf die eigentlich durch die robots.txt nicht zugegriffen werden sollte.

Die robots.txt und Robots-Angaben in Webseiten basieren auf völliger Freiwilligkeit und sind für Crawler von Suchmaschinen nicht verbindlich. Die wichtigen Suchmaschinen halten sich an die Vorgaben der robots.txt. Meistens! Denn immer wieder werden Fälle bekannt, in denen die Inhalte der robots.txt nicht beachtet wurden und Webseiten in den Index von Suchmaschinen gelangten , die dort nicht erfasst werden sollten. Es ist beim heutigen Stande der Technik nicht zu gewährleisten, dass die robots.txt ausnahmlos befolgt wird. Deshalb müssen Website-Betreiber in wichtigen Fällen andere Massnahmen ergreifen um Inhalte vor der Archivierung zu schützen.
Siehe Beitrag der New York Times:
Keeper of Expired Web Pages Is Sued Because Archive Was Used in Another Suit – New York Times

Internet Archiv