Deep Web

Führende Suchmaschinen indexieren wahnsinnig viele Webseiten. Dennoch werden längst nicht alle Webseiten im Internet. erfasst. Dafür gibt es technische, rechtliche und ökonomische Gründe. Inhalte, die Suchmaschinen nicht erfassen können, werden Deep Web oder Invisible Web genannt.

Wie groß ist das Deep Web?

Schätzungen aus dem Jahr 2001 gehen davon aus, dass im Deep Web, dem "tiefen Web" oder unsichtbaren Web, ca.500 mal mehr Informationen zu finden sind, als im Surface Web, dem Teil des Internets, der von Suchmaschinen indexiert wird. Wie groß dieses Verhältnis heute ist, lässt sich schwer beantworten. Suchmaschinen sind im Laufe der Jahre deutlich besser darin geworden Inhalte aufzuspüren. Andererseits sind viele Inhalte in das Web gekommen, die dem Zugriff der Suchmaschinen bewusst versperrt werden.

Was gehört zum Deep Web?

– Frei zugängliche Datenbanken, deren Inhalte nur nach einer Eingabe sichtbar werden

Das sind beispielsweise Bibliothekskataloge, oder andere Seiten, die erst nach einer Anfrage Eingabe Ergebnisse liefern.

Auch die Trefferlisten von Suchmaschinen gehören zum Deep Web. Die Listen werden erst nach Eingabe eines oder mehrerer Begriffe zusammengestellt und ausgeliefert. Jede neue Anfrage mit dem gleichen Begriff kann theoretisch andere Treffer liefern. Die Trefferlisten von Suchmaschinen sollen aber da bleiben wo sie sind. Im Deep Web 😉 Weil Antworten auf Suchanfragen immer aktuell sein sollen macht es Sinn, dass diese immer zur gestellten Anfrage generiert werden.

Deep Web Quellen wären beispielsweise Fahrpläne öffentlicher Verkehrsbetriebe, der Bahn usw.. Die Datenbank des DENIC, Verwaltungsinstitution deutscher Internet-Domains, liegt im Deep Web. Über die Suchmaske des DENIC lassen sich zu jeder .de-Domain, Inhaber und Ansprechpartner, einschließlich Kontaktdaten abrufen. Diese Daten werden erst nach Eingabe eines Domain-Namens und Akzeptierung der Nutzungsbedingungen angezeigt.

Rein technisch gesehen, gibt es fast immer Möglichkeiten, Inhalte von Datenbanken für Suchmaschinen erreichbar zu machen. Anbieter wie der DENIC werden durch rechtliche Gründe gehindert, die Datenbank für Suchmaschinen frei indexierbar zu machen.

Kostenpflichtige Angebote im Deep Web

Informationen sind Geld wert. Insbesondere dann, wenn sie einen finanziellen Vorteil für deren Besitzer bringen, oder finanzielle Schäden abwenden. Viele Firmen in Deutschland informieren sich vor der Auftragsvergabe gerne darüber, ob der Auftragnehmer finanziell auf sicheren Beinen steht. Dafür stehen u.a. Wirtschaftsdatenbanken bereit, die ihre Informationen nur kostenpflichtig weitergeben. Creditreform ist beispielsweise ein Betreiber von Wirtschaftsdatenbanken, es gibt zahlreiche andere.

Online-Ausgaben von Zeitungen und Zeitschriften versuchen die Monatarisierung des Online-Angebotes mittels kostenpflichtiger Abos in den Griff zu bekommen. Andere Websites haben Finanzierungsmodelle entwickelt, wo zunächst die Inhalte einige Tage kostenfrei zugänglich sind, später nur noch kostenpflichtig aufgerufen werden können.

Webseiten sollen nicht in Suchmaschinen erscheinen

Es gibt Webseiten, die sollen gar nicht in Suchmaschinen erscheinen. Dazu gehören Webseiten sozialer Netzwerke. Insbesondere dann, wenn persönliche Daten enthalten sind. Facebook macht zwar das persönliche Profil der Nutzer teilweise sichtbar, doch werden viele andere Daten nur für Facebook-Freunde sichtbar.

Seiten technisch schlecht oder nicht erreichbar

Suchmaschinen finden andere Seiten über Verweise. Wer eine Website im Internet publiziert, sollte für mindestens einen Verweis auf jede Seite sorgen, damit die Seiten der Webpräsenz erfasst werden können. Seiten die sehr viele Links von der Startseite der Webpräsenz entfernt sind, werden eventuell nicht erfasst. Sehr lange URL mit sehr vielen Parametern können Suchmaschinen davon abhalten, über die URL ausgelieferte Inhalte zu erfassen.

Inhalte die ausschliesslich per Flash oder JavaScript ausgeliefert werden, könnten verhindern, dass die Inhalte in den Index von Suchmaschinen gelangen.

Anmerkung: Das Deep Web ist einem ständigen Wandel ausgeliefert. Quellen die bislang nicht als erfassbar galten, können schon bald durch technische Neuerungen ihren Weg in den Index von Suchmaschinen finden.

Spezialisierte Suchmaschinen für das Deep Web haben schlechte Chancen

Der Trend zeigt, spezialisierte Suchmaschinen für das Deep Web können oder wollen nicht im Suchmaschinenmarkt zu überleben. Mitunter gibt es interessantere Wege, die Technologie zu finanzieren. Die Technologien der Deep Web Suche wurden bereits mehrfach in kostenpflichtige Lösungen für Firmen umgewandelt. So geschehen mit dem Lexibot von Brigtplanet. Lexibot wurde als Desktop-Lösung angeboten, später in eine kommerzielle Lösung von Brightplanet integriert.

Kosmix, trat an, das Deep Web mittels semantischer Analyse durschsuchbar zu machen. Kosmix wurde im Mai 2011 in die WalmartLabs integriert, der Betrieb von Kosmix eingestellt.

Es gibt Versuche, Datenbanken über die Eingabeformulare auszulesen. Dafür werden Testfragen gesandt und anhand der Treffer wirrd ermittelt, wie gut die Frage zielte. Die Formular-Suchmaschine DeepPeep will anhand dieser Methode bis zu 90% der Inhalte einer Datenbank herausbekommen.

Die wissenschaftliche Suchmaschine BASE (Bielefeld Acamdemic Serach Engine) kann als erfolgreiche Suchmaschine für das Deep Web bezeichnet werden. Einige der rund 2000 abgefragten Datenbanken stellen ihre Inhalte frei im Internet zur Verfügung. Dennoch ist die direkte Abfrage der Datenbanken per BASE der optimalste Weg, um wirklich alle Inhalte aus den Datenbanken aktuell in den Trefferlisten zeigen zu können.

Comments

Leave a Reply