LexiBot - persönliche Suchmaschine für das Deep Web
(31.07.2000) Was macht das Deep Web so interessant? Es ist vor allem die
Erkennnis dass im Deep
Web ein sehr bedeutsamer Informationschatz ruht, der von herkömmlichen
Suchmaschinen nicht erreicht wird.
Mehrere Hundert-Milliarden Dokumente mit äusserst nützlichem Inhalt
lagern dort und werden immer mehr.
Die Abfrage zig-tausender Datenbanken die alle frei zugänglich sind, bringt
ein enormes Potential erschliessbarer Wissensresourcen.
Nur ein kleiner Teil des Internet wird von Suchmaschinen indexiert. Besonders
die globalen Player wie Google, AltaVista oder FAST möchten
das nicht gerne zugeben. Ihr erklärtes Ziel ist, das Web umfassend zu indexieren.
Praktisch ergeben sich Probleme schon im Bereich des Visible
Web, also die Webseiten, die für jederman erreichbar sind.
Im Juli 2000 wurde durch das Unternehmen Cyveillance
eine Studie erstellt,
die ca. 2,1 Milliarden Webseiten ermittelte. Zum gleichen Zeitraum konnte Google den
bisher grössten Index von 1,06 Milliarden Webseiten verkünden, also
rund die Hälfte aller Seiten.
In Wirklichkeit gibt es aber beträchtlich mehr Webseiten.
Sehr viele Webseiten werden ins Web gestellt und nur einem bestimmten Personenkreis
zugänglich gemacht.
Das sind beispielsweise firmeninterne Webseiten oder Angebote die nur gegen Bezahlung
zugänglich sind.
Ein weiterer Teil des Web, der nicht von Suchmaschinen indexiert wird, sind Datenbanken aller
Art.
Die Inhalte können sich ständig ändern, der Umfang einer Datenbank
ist nicht abschätzbar. Deshalb machen Suchmaschinen einen
grossen Bogen um Webseiten die aus Datenbanken generiert werden. Man kann Webseiten
aus Datenbanken in der Regel an Sonderzeichen in der URL (Internetadresse) erkennen:
?, &, !,=
BrightPlanet, eine Internet Content Firma, hat sich entschieden diesem
Trend entgegenzuwirken. Mit dem Desktop-Tool LexiBot soll die Recherche in viel
mehr Datenquellen möglich sein, als sie mit Suchmaschinen erreichbar sind.
Man spricht von 400 bis 550 Milliarden Webseiten die recherchierbar sind. Im Deep
Web verbergen sich 7 500 Terabyte an Informationen, im Gegensatz zu 19 Terabyte
im Surface Web.
Beim Betrachten der von Lexibot abgefragten Datenquellen wird ziemlich schnell
klar, dass im wesentlichen amerikanische Datenquellen oder Dienste, die in den
USA ihre Wurzeln haben, nach Daten befragt werden. Viele, viele länderspezifische
Quellen, wie Wörtebücher, Lexika, Almanache,... sind gar nicht enthalten.
Das tatsächliche, für den normalen Nutzer erreichbare Web wird also
weitaus grösser sein.
In einer von BrightPlanet durchgeführten Studie ergaben sich interessante
Erkenntnisse:
- Es existieren mehr als 100 000 Deep Websites
- 60 der grössten Deep Websites enthalten zusammen mehr als 750 Terabyte
an Informationen, eine Menge die das visible Web um mehr als 40 mal übersteigt
- Das Deep Web ist die am schnellsten wachsende Kategorie im Web.
- Die gesamte Qualität des Deep Web ist 1000 bis 2000 mal grösser als
der Durschnitt normaler Webseiten.
- Mehr als die Hälfte des Deep Web hat
den Inhalt in themenspezifischen Datenbanken angesiedelt.
- Über 95% des Deep Web sind für die Öffentlichkeit zugänglich
ohne dass Gebühren entrichtet werden müssten.
BrightPlanet hat eine Meta-Suchtechnik zur Direktabfrage entwickelt, die 22 000
Websites, mit Datenbanken als Informationsbasis, abfragen kann. Der Umfang ist
vermutlich bis zu 100 000 Datenbanken ausbaufähig.
Das komplette Verzeichnis der Datenbanken ist bei Complete
Planet durchsuchbar.
Der auf Basis dieser Erkenntnisse entwickelte Suchagent für den PC wird
LexiBot genannt und kann rund 600 Datenquellen zeitgleich abfragen.
Mehr Infos und Downloadhinweis: LexiBot
Das @-web Verzeichnis der wichtigsten Suchmaschinen mit URL zum Anmelden neuer
Webseiten.
Webverzeichnisse und Metasucher: Suchmaschinenverzeichnis
31.07.2000
Letzte Änderung:
22.12.2003
Seitenbeginn