(24.01.2003) Suchmaschinen sollen Anfragen genau und präzise beantworten.
Wissenschaftler erforschten einen Algorithmus der auf Expertendokumenten basiert
und eine hohe Trefferquote erzielt.
In der experimentellen Suchmaschine Hilltop, bewiesen die Wissenschaftler, dass
relativ wenige Rankingkriterien genügen, um für allgemeine Anfragen
gute Ergebnisse zu liefern.
Hilltop
Es genügt nicht den Inhalt einer Webseite zu analysieren um deren Qualität
zu ermitteln. Die Anzahl und Qualität der Quellen, die auf eine Seite weiterleiten
sind ein gutes Mass für deren Qualität. Zusätzlich müssen
die verweisenden Seiten als Experten identifiziert werden.
Experten und Autoritäten
Experten: Expertenseiten werden definiert als Quellen, die
speziell dafür
geschaffen wurden, Besucher zu hochwertigen Ressourcen weiterzuleiten. Ein Expertenseite
verfügt über viele (mindestens 5) Verweise zu unabhängigen Seiten dieses Themas.
Zwei Seiten sind unabhängig voneinander, wenn diese von Autoren unabhängiger
Organisationen geschaffen wurden.
Die Anzahl der Expertenseiten mag thematisch variieren. In der Basisarbeit
zum Hilltop Algorithmus wurden 2,5 Mill. von 140 Millionen Dokumente als Experten
klassifiziert. Das entspricht einer Grössenordnung kleiner als 2% aller Dokumente.
Im Umkehrschluss heisst das, mehr als 98% aller Webseiten sind keine Experten!
Autorität: Eine Webseite ist eine Autorität, wenn die
besten, wirklich nur die besten, Experten zu dieser Fragestellung darauf verweisen.
Hier findet also noch einmal eine extreme Auswahl statt, da eine Webseite nur
von thematisch passenden Experten zur Autorität bestimmt werden kann.
Für
eine Anfrage wird zunächst eine Liste der relevantesten Experten erstellt.
Aus dieser Expertenliste werden die relevantesten Verweisziele ermittelt. Diese
Webseiten werden nach Anzahl und Relevanz der Verweise von unabhängigen
Experten gerankt. Damit wird die gemeinsame Meinung der besten unabhängigen
Experten ermittelt. Das mag erklären, warum Hilltop vor allem für allgemeine
Fragen brauchbare Ergebnisse liefert. Sind keine Experten vorhanden, liefert
Hilltop keine Ergebnisse. Um einen Treffer zu liefern müssen
mindestens zwei unabhängige
Experten auf ein Dokument verweisen. An dieser Stelle lässt sich schlussfolgern,
dass Hilltop niemals als einziger Rankingmechanismus angewandt wird. Es müssens
stest weitere Rankingkriterien vorhanden sein, die auch dann Treffer liefern,
wenn die Auswahlkriterien von Hilltop nicht zutreffen. Das dürfte bei sehr vielen
speziellen Anfragen der Fall sein.
Ermittlung von Experten
Feststellung der Unabhängigkeit der Experten:
Die ersten drei Blöcke der IP-Nummer dürfen nicht identisch sein.
Der am meisten rechts liegende, nicht generische Teil des Domain-Namen muss
sich unterscheiden.
So werden die Kürzel für Länder-Domains und Sub-Domains in den
Länder-Domains nicht berücksichtigt. ibm.de, ibm.com und ibm.co.uk werden
als zusammengehörig identifiziert.
Beziehungen zwischen Seiten werden temporär auf weitere Seiten übertragen.
Verweisen drei Seiten A, B und C auf ein Ziel und A hat Beziehungen mit B, sowie
B mit C, dann wird unterstellt, dass auch C mit A Beziehungen unterhält.
In der Praxis werden damit hin und wieder "unschuldige" Seiten als
Experten ausgeschlossen, das wird jedoch in Kauf genommen.
Alle Seiten die diese Bedingungen erfüllen und in der Bewertung einen
bestimmten Schwellwert überschreiten, werden als Experten klassifiziert.
Zusätzliche Bewertungen berücksichtigen die Zugehörigkeit der ausgewähten
Seiten zu einem bestimmten Hauptthema (Wissenschaft, Kunst, Sport,...)
Indexieren der Experten
Um Expertenseiten zu erfassen wird ein invertierter (umgekehrter) Index geschaffen,
in den nur bestimmte Schlüsselformulierungen aufgenommen werden. Dazu gehören
Seitentitel, Überschrift (H1) und Ankertext eines Verweises. Der Inhalt des
Seitentitel wird massgebend mit den folgenden Inhalten des gesamten Dokument verknüpft,
während die Überschrift nur im Bereich bis zur nächsten Überschrift
gilt und der Ankertext nur für den jeweiligen Verweis (URL). Zusätzlich
wird im invertierten Index die Position jeden Wortes innerhalb der Schlüsselformulierung
(Titel, Überschrift, Ankertext) festgehalten.
Diese Wertung wurde benutzt:
Titel: 16 Punkte
Überschrift: 6 Punkte
Ankertext: 1 Punkt
Für jeden Experten wird eine Liste sämtlicher Verweise innerhalb seiner
Dokumente erstellt. Die Länge der Schlüsselformulierungen wird (z.B.
auf max. 32 Worte) begrenzt, um längeren Formulierungen kein zu hohes Gewicht
beizumessen.
Nach Angaben der Hilltop-Entwickler erreicht der Algorithmus eine hohe Relevanz
zur Nutzeranfrage und bietet Ergebnisse von hoher Qualität, die mit der
Trefferqualität
grosser Suchmaschinen wie Google und AltaVista vergleichbar sind. Hilltop eignet
sich besonders für das gute Ranking allgemeiner Fragen die eine grosse thematische
Breite aufweisen.
Entwickler des Hilltop-Algorithmus sind Krishna Bharat und George A. Mihaila.
Bharat arbeitet jetzt in der Google-Forschungsabteilung. George A. Mihaila, der
ehemalige Student an der Universität Toronto, arbeitet nun im IBM "Thomas
J. Watson" Research Center.
Ein kommerzieller Versuch das PageRank
Verfahren zu untergraben
Das @-web Verzeichnis der wichtigsten Suchmaschinen mit URL zum Anmelden neuer
Webseiten.
Webverzeichnisse und Metasucher: Suchmaschinenverzeichnis
24.01.2003
Letzte Änderung: (15.02.2004)