Web Information Retrieval - Technologien zur Informationssuche im Internet
Das Buch von Dirk Lewandowski untersucht die Informationsgewinnung der Suchmaschinen aus wissenschaftlicher Sicht.
Suchmaschinen im Internet unterscheiden sich von gängigen Systemen zur Informationsgewinnung. Auf die Besonderheiten wird im Buch eingegangen. Es werden die Algorithmen und Rankingsysteme der Suchmaschinen untersucht und beschrieben. Dabei werden Schwachstellen aufgedeckt und Lösungen vorgeschlagen. Das Buch ist verständlich geschrieben, so dass auch Nicht-Wissenschaftler ein besseres Verständnis für die Wirkungsweise von Suchmaschinen bekommen können.
Einleitend werden grundlegende Beschreibungen zum Forschungsumfeld einschliesslich Nutzerstudien geliefert. Dirk Lewandowski stellt Betrachtungen zur Grösse des Internets und dem von Suchmaschinen abdeckbaren Bereich an. In den Betrachtungen zu Strukturinformationen wird deutlich, dass Webredakteure längst nicht alle Möglichkeiten nutzen um strukturierte Informationen in Web-Dokumenten auszuzeichnen. Zitate, Definitionen, Beispiele usw. lassen sich mit HTML auszeichen, sind aber sehr selten in Dokumenten zu finden.
Es werden die Unterschiede zwischen klassischem Informationsretrieval, das es bereits vor dem Internet gab und dem Web Information Retrieval dargestellt. Im Internet spielen z.B.doppelte Inhalte, Spam und die leichte Bedienbarkeit der Suchfunktion für Laien-Nutzer eine Rolle.
Zunächst werden als Rankingkriterien für Suchmaschinen im Internet die klassische Wortgewichtung im Dokument, Klickhäufigkeit, Linkpopularität, Aktualität usw. erläutert. Zu den informationslinguistischen Verfahren gehören das Stemming, Phrasenerkennung, Synonyme ( und andere -nyme) und Rechtschreibkontrolle. Unter den linktopologischen Verfahren finden PageRank einschliesslich Reranking, HITS und Hilltop Erwähnung. Lewandowski schlägt vor, dass das Ranking nur als unterstützendes Verfahren angesehen werden sollte dem Nutzer zu helfen, die passenden Dokumente zu finden, diesen Weg aber nicht bestimmt.
Der Kritik an Retrivaltests folgen Verfahren der intuitiven Nutzerführung, die das Nutzerverhalten erleichtern können. Dazu gehört das Relevance Feedback. Nutzer können durch eigene Auswahl die Gewichtung der Ergebnisse beeinflussen, wie z.B. bei der MSN Suchmaschine mit Hilfe von Schiebereglern, Verfeinerung der Anfrage bei Teoma und AltaVista. Andere Unterstützungen der Nutzer sind Clusterverfahren und die Visualisierung von Suchergebnissen.
In Auswertung der beschriebenen Verfahren kommt Dirk Lewandowski zu dem Schluss, dass Nutzer eine stärkere Kontrolle über die Treffermengen erhalten müssen.
Zudem sollen die Suchmaschinen die Bedürfnisse für Profi-Rechercheure gleichgut wie für laienhafte Nutzer berücksichtigen. Dazu gehören die Bestimmung von Aktualität und Qualität.
Mit einem Blick auf die bessere Präsentation von Dokumenten schliesst der letzte Abschnitt dieses lesenswerten Buches. Es werden Anstösse gegeben, wie das Web Information Retrival weiter entwickelt werden kann und sollte.
Der Leserkreis für das Buch wird wie folgt angegeben: Informatiker, Informationswissenschaftler, Information Broker, Wissensmanager, Medienfachleute, Bibliothekare, Content Anbieter, Webmaster, Studenten.
Buchbestellung direkt beim Autor (hier auch kostenfreie HTML-Version)
Peer-to Peer - Detlef Schoder, Kai Fischbach, Renè Teichmann (Hrsg.)
Das @-web Verzeichnis der wichtigsten Suchmaschinen mit URL zum Anmelden neuer
Webseiten.
Webverzeichnisse und Metasucher: Suchmaschinenverzeichnis
23.09.2005
Letzte Änderung: 02.11.2007