Term Vector – Ein Rankingfaktor für Suchmaschinen

Die Mechanismen zur Platzierung von Webseiten in den Ergebnislisten guter Suchmaschinen werden immer komplexer.

Wenn mathematische Modelle und Berechnungsgrundlagen eine Rolle spielen, wird das System für den normalen Nutzer schnell undurchsichtig.

Nachfolgend gibt es zwei Erklärungen für die Verwendung von Term Vectoren. Eine kurze, sehr allgemeine und eine tiefergehende Beschreibung.

Term Vector, allgemeine Erläuterung

Suchbegriffe werden in Bezug zum Dokument und zur gesamten Website gewertet.

Webseiten, die sich in ihrer Gesamtheit einem bestimmten Thema widmen, haben bei diesem Verfahren bessere Chancen auf eine hervorragende Listung.

Die Begründung hierfür scheint ziemlich klar. Websites die sich auf ein bestimmtes Thema festlegen sind die Spezialisten. Deshalb sind sie (aus Sicht der Suchmaschinen) würdig, auf vorderen Plätzen gelistet zu werden.

Was können Websitegestalter tun, damit ihre Site in diesen Verfahren berücksichtigt werden ?

Bei der Gestaltung oder Überarbeitung einer Webseite sollten Sie darauf achten, dass sie vorrangig auf ein Thema fokussieren.
Haben Sie das Bedürfnis oder die Notwendigkeit über viele Themen zu berichten, so ist es sinnvoll diese zu klassifizieren und auf mehrere Domains aufzuteilen.

Wie wichtig ist die Beurteilung nach dem Term Vector Verfahren für Suchmaschinen ?

Das Term Vector Verfahren ist nur eine von vielen Methoden, den Nutzern von Suchmaschinen brauchbare Ergebnisse zu liefern. Die Dokumente werden nicht nur einzeln sondern in ihrer Gesamtheit beurteilt. Nur Suchmaschinen mit grossem technischen Know-How verwenden diese Methode. Das Verfahren wurde in englischsprachigen Ländern entwickelt und arbeitet vor allem für englischsprachige Seiten zuverlässig.

Die Term Vector Relevanz wird in Zukunft an Bedeutung gewinnen. Themenbasierte Sites erhalten eine höhere Bedeutung. Suchmaschinen b.z.w. Indizies bei denen das Term Vector Modell eine Rolle spielt sind AltaVista, Google, Inktomi, AllTheWeb und natürlich alle Angebote die deren Datenbasis verwenden.

Term Vector, erweiterte Erläuterung

Begriffsdefinitionen:

Terms – sind abgeleitet von Wörtern und Phrasen im Dokument. Sie werden nach ihrer Wichtigkeit im Dokument sowie im Corpus (Gesamtheit der Dokumente) bewertet.
Terms sind Sequenzen von Zeichenketten, die nicht durch Leerzeichen unterbrochen sind. Sie befinden sich ausserhalb von HTML-Tags, innerhalb von Meta-Tags und nicht in Script-Tags.

Vektoren – Dokumente, also die einzelnen Seiten sind als Vektor gestaltet. Sie werden in der Term Vector Datenbank mit einer eindeutigen ID (Identifikationsnummer) versehen.

Term Vector – ist eine Sequenz (Serie) von Paaren, welche die Wichigkeit der Worte beschreiben.

Term Frequenz – Berücksichtigt Häfigkeit des Termes im Dokument und die Länge des Dokumentes ( in Bytes und Terms)

Term Selection – Gibt an, wie oft der Term auf einer Seite und wie oft er in der Gesamtzahl einer Webpräsenz vorkommt.

Die Datenbank

Die Erfassung und Berechnung der Term Vectoren erfolgt in einer Datenbank, die zusätzlich zum Suchmaschinen-Index existiert. Dort werden nicht wie in herkömmlichen Datenbanken Worte gespeichert, sondern die Bewertungsdaten für Terme und Vectoren. Das hat den Vorteil, dass die Term Vector Datenbank um ein Vielfaches kleiner ist als der eigentliche Suchmaschinen-Index.

Term Lexikon und -Normalisierung

Die Menge aller Terme basiert auf einem gefilterten Lexikon. Dort sind alle Worte auf die Schreibweise mit Kleinbuchstaben normalisiert und auf Wortstämme zurückgeführt.

Das Lexikon entstand aus dem Index der Suchmaschine. Es ist um alle Worte bereinigt, die als Stoppworte gelten.
Beispiele für deutschsprachige Stoppworte:

der, die, das, mit über, bei, oder, falls, wenn, …

Anschliessend erfolgt eine weitere Normalisierung des Lexikon. Diesmal wird auf Basis der Suchfrequenz ein relevantes Drittel herausgeschnitten.

1/3 meistfrequentiert
1/3 normal
1/3 wenig frequentiert.

Nur das normal frequentierte Drittel wird in das Lexikon aufgenommen.

Auch die Länge einer Seite wird normalisiert, damit sehr lange Seiten nicht überproportional gewichtet werden.

Themenbasierter Vector

Alle Dokumente werden miteinander auf ihre thematische Ähnlichkeit verglichen. Es werden alle Themen ermittelt, die eine hohe Relevanz in dieser Site aufweisen.

Anhand eines themenspezifischen Vector können darufhin zu einer Anfrage selbst dann zutreffende Seiten geliefert werden, wenn der Suchbegriff nicht direkt in der Seite vorkommt. Eine Variante die bisher noch nicht in öffentlich zugänglichen Suchmaschinen zu beobachten ist, aber in Zukunft durchaus Chancen zur Anwendung besitzt.

Es bleibt jeder Suchmaschine vorbehalten, wie sie einzelne Bestandteile der Term Vector Ermittlung in ihre komplexen Rankingalgorithmen integriert. Selbst die obigen Begriffsdefinitionen können in einzelnen Suchmaschinen abgeändert werden.

Weiterführende Informationen:
The Term Vector Database

Comments

Leave a Reply