Modellstudie für bessere Ergebnisse in Suchmaschinen
Google und Yahoo! sind effektive Suchmaschinen für normale Internet-Nutzer.
Es besteht jedoch ein Bedarf, Seiten zu finden, die sich auf gleiche Interessensgebiete
beziehen.
Filippo Menczer ist assistierender Professor für Management Wisenschaften
an der Universität von Iowa (USA).
In einer Modellstudie untersuchte er die Beziehungen zwischen Webseiten.
Anhand von 150 134 Webseiten (aus 47 174 Kategorien), die nach dem Zufallsprinzip
aus dem ODP (Open Directory Project) ausgewählt
wurden, untersuchte Filippo Menczer den Zusammenhang von Text, Links und Bedeutung.
Er analysierte annähernd 4 Milliarden Paare gleichartiger Seiten. Mit seinen
Untersuchungen ermittelte Menczer mathematische Gesetzmässigkeiten für
die Beziehungen zwischen der Link-Wahrscheinlichkeit und thematischer Gleichheit.
Mit seinem Modell, das sich auf das Potenzgesetz stützt, sind erstmals präzise
Vorhersagen möglich. Wachstum und Link-Struktur des Web können auf Basis
des Inhalts der Webseiten berechnet werden.
Webautoren verlinken zu den besten und populärsten Web-Seiten innerhalb einer
Kategorie. Menczers Modell entspricht weitgehend den Realitäten im Internet.
Das Modell kann Internet-Entwicklern helfen, die Entwicklungsstruktur des Web
sowie des kognitiven und sozialen Unterbaus zu erkennen. Das sollte zu effektiveren
Richtlinien für die Erstellung von Webseiten führen. Ausserdem auch
zu verbessertem Ranking sowie Klassifikation und Cluster-Algorithmen in Suchmaschinen
für das Web.
Mit diesem mathematischen Modell können wirkungsvoll unbekannte Webseiten
eines Interessensgebietes lokalisiert werden. Die Wahrscheinlichkeit, dass ein
Autor auf andere Seiten verlinkt, sinkt mit zunehmender semantischer und lexikalischer
Distanz.
Menczer sieht die Möglichkeit, mit empirischen Methoden, die derzeit begrenzte
Skalierbarkeit von Suchmaschinen zu erweitern. Besonders für die Gestaltung
von Suchmaschinen mit dezentralen Webcrawlern sieht er einen grossen Einfluss.
Durch die Analyse der Beziehungen zwischen den Bedeutungen, Links und Worten einer
Seite, werden wir bestimmen können, wie diese Zeichen zu nutzen sind um bessere
Suchresultate zu finden, sagt Menczer.
Filippo Menczer und seine Studenten entwickelten MySpiders, ein System das in
Echtzeit mit adaptiven, lernenden Agenten das Internet durchsucht. @-web berichtete:
MySpiders.
Studien:
Burst Dedection - Trends an häufig
zeitbezogenen Worten erkennen
Das @-web Verzeichnis der wichtigsten Suchmaschinen mit URL zum Anmelden neuer
Webseiten.
Webverzeichnisse und Metasucher: Suchmaschinenverzeichnis
15.01.2003
Seitenbeginn