Die Mechanismen zur Platzierung von Webseiten in den Ergebnislisten guter Suchmaschinen
werden immer komplexer.
Wenn mathematische Modelle und Berechnungsgrundlagen eine Rolle spielen, wird
das System für den normalen Nutzer schnell undurchsichtig.
Nachfolgend gibt es zwei Erklärungen für die Verwendung von Term Vectoren.
Eine kurze, sehr allgemeine und eine tiefergehende Beschreibung.
Term Vector, allgemeine Erläuterung
Suchbegriffe werden in Bezug zum Dokument und zur gesamten Website gewertet.
Webseiten, die sich in ihrer Gesamtheit einem bestimmten Thema widmen, haben bei
diesem Verfahren bessere Chancen auf eine hervorragende Listung.
Die Begründung hierfür scheint ziemlich klar. Websites die sich auf
ein bestimmtes Thema festlegen sind die Spezialisten. Deshalb sind sie (aus Sicht
der Suchmaschinen) würdig, auf vorderen Plätzen gelistet zu werden.
Was können Websitegestalter tun, damit ihre Site in diesen Verfahren berücksichtigt
werden ?
Bei der Gestaltung oder Überarbeitung einer Webseite sollten Sie darauf achten,
dass sie vorrangig auf ein Thema fokussieren.
Haben Sie das Bedürfnis oder die Notwendigkeit über viele Themen zu
berichten, so ist es sinnvoll diese zu klassifizieren und auf mehrere Domains
aufzuteilen.
Wie wichtig ist die Beurteilung nach dem Term Vector Verfahren für Suchmaschinen
?
Das Term Vector Verfahren ist nur eine von vielen Methoden, den Nutzern von Suchmaschinen
brauchbare Ergebnisse zu liefern. Die Dokumente werden nicht nur einzeln sondern
in ihrer Gesamtheit beurteilt. Nur Suchmaschinen mit grossem technischen Know-How
verwenden diese Methode. Das Verfahren wurde in englischsprachigen Ländern
entwickelt und arbeitet vor allem für englischsprachige Seiten zuverlässig.
Die Term Vector Relevanz wird in Zukunft an Bedeutung gewinnen. Themenbasierte
Sites erhalten eine höhere Bedeutung. Suchmaschinen b.z.w. Indizies bei denen
das Term Vector Modell eine Rolle spielt sind AltaVista, Google, Inktomi, AllTheWeb
und natürlich alle Angebote die deren Datenbasis verwenden.
Term Vector, erweiterte Erläuterung
Begriffsdefinitionen:
Terms - sind abgeleitet von Wörtern und Phrasen im Dokument. Sie
werden nach ihrer Wichtigkeit im Dokument sowie im Corpus (Gesamtheit der Dokumente)
bewertet.
Terms sind Sequenzen von Zeichenketten, die nicht durch Leerzeichen unterbrochen
sind. Sie befinden sich ausserhalb von HTML-Tags, innerhalb von Meta-Tags und
nicht in Script-Tags.
Vektoren - Dokumente, also die einzelnen Seiten sind als Vektor gestaltet.
Sie werden in der Term Vector Datenbank mit einer eindeutigen ID (Identifikationsnummer)
versehen.
Term Vector - ist eine Sequenz (Serie) von Paaren, welche die Wichigkeit
der Worte beschreiben.
Term Frequenz - Berücksichtigt Häfigkeit des Termes im Dokument
und die Länge des Dokumentes ( in Bytes und Terms)
Term Selection - Gibt an, wie oft der Term auf einer Seite und wie oft
er in der Gesamtzahl einer Webpräsenz vorkommt.
Die Datenbank
Die Erfassung und Berechnung der Term Vectoren erfolgt in einer Datenbank,
die zusätzlich zum Suchmaschinen-Index existiert. Dort werden nicht wie in
herkömmlichen Datenbanken Worte gespeichert, sondern die Bewertungsdaten
für Terme und Vectoren. Das hat den Vorteil, dass die Term Vector Datenbank
um ein Vielfaches kleiner ist als der eigentliche Suchmaschinen-Index.
Term Lexikon und -Normalisierung
Die Menge aller Terme basiert auf einem gefilterten Lexikon. Dort sind alle
Worte auf die Schreibweise mit Kleinbuchstaben normalisiert und auf Wortstämme
zurückgeführt.
Das Lexikon entstand aus dem Index der Suchmaschine. Es ist um alle Worte bereinigt,
die als Stoppworte gelten.
Beispiele für deutschsprachige Stoppworte:
der, die, das, mit über, bei, oder, falls, wenn, ...
Anschliessend erfolgt eine weitere Normalisierung des Lexikon. Diesmal wird auf
Basis der Suchfrequenz ein relevantes Drittel herausgeschnitten.
1/3 meistfrequentiert
1/3 normal
1/3 wenig frequentiert.
Nur das normal frequentierte Drittel wird in das Lexikon aufgenommen.
Auch die Länge einer Seite wird normalisiert, damit sehr lange Seiten nicht
überproportional gewichtet werden.
Themenbasierter Vector
Alle Dokumente werden miteinander auf ihre thematische Ähnlichkeit verglichen.
Es werden alle Themen ermittelt, die eine hohe Relevanz in dieser Site aufweisen.
Anhand eines themenspezifischen Vector können darufhin zu einer Anfrage selbst
dann zutreffende Seiten geliefert werden, wenn der Suchbegriff nicht direkt in
der Seite vorkommt. Eine Variante die bisher noch nicht in öffentlich zugänglichen
Suchmaschinen zu beobachten ist, aber in Zukunft durchaus Chancen zur Anwendung
besitzt.
Es bleibt jeder Suchmaschine vorbehalten, wie sie einzelne Bestandteile der Term
Vector Ermittlung in ihre komplexen Rankingalgorithmen integriert. Selbst die
obigen Begriffsdefinitionen können in einzelnen Suchmaschinen abgeändert
werden.
Ein interessantes Buch von Mathias
Schmitz, ehemaliger AltaVista-Manager
Das @-web Verzeichnis der wichtigsten Suchmaschinen mit URL zum Anmelden neuer
Webseiten.
Webverzeichnisse und Metasucher: Suchmaschinenverzeichnis
02.11.2001
Seitenbeginn