Kategorien als Rankingsignal

Passt eine Webseite in die gleiche Kategorie wie die Suchanfrage, könnte dies ein Signal dafür sein, dass die Webseite zur Suchanfrage passt. Seiten aus der gleichen Kategorie werden somit besser bewertet als Seiten aus einer thematisch weiter entfernten Kategorie.

Ziel der Kategoriesierung durch Suchmaschinen ist es, mehrdeutige Suchbegriffe besser zu definieren. Das uralte Problem zu lösen ob der gesuchte Jaguar ein Auto oder ein Tier ist.

Generell soll eine höhere Qualität der Treffer in der Ergebnisliste erreicht werden. Die Suche nach 35mm Kamera soll beispielsweise nur Treffer zeigen, die wirklich entsprechende Kameras beschreiben, nicht Seiten mit Zubehör, Ersatzteilen oder Filmmaterial.

Klassifizierung mit Google Image Swirl

Wenn also die Webseite auf welcher der Begriff Jaguar vorkommt, vorrangig Begriffe aus der Tierwelt enthält, dann wird die Seite der Tierkategorie für Jaguar zugeordnet.

Wie gut die Einteilung in Kategorien funktioniert, lässt sich mit dem Google Image Swirl verfolgen. Am Beispiel des Tigers wird ahnbar, wie die Kategorien gesetzt werden. Dargestellt wird nur ein Teil der Kategorien, an der linken Bildschirmseite befinden sich die berühmten 3 Fortsetzungspunkte…

Google Image Swirl klassifiziert Tiger

Google Image Swirl ist nur das Werkzeug, welches vielleicht veranschaulichen kann, wie gut Google bereits mit der Kategoriesierung vorangekommen ist. Anlass dieses Beitrages ist ein Google Patent zur Kategorisierung.

Ranking mit Kategorien, Kurzbeschreibung:

  • Eine Bewertung für den Text eines Dokumentes wird vergeben um dessen Qualität zu bestimmen.
  • Es wird eine Bewertung möglicher passender Kategorien im Kategoriensystem vorgenommen.
  • Es wird eine Dokument-Kategorie Bewertung vergeben, die aussagt wie gut das Dokument zu einer oder mehreren Kategorien passt.
  • Eine Bewertung zwischen Suchkriterien und Kategorien ermittelt wie hoch die Übereinstimmung zwischen Suchkriterien und Kategorien ausfällt
  • Die Gesamtbewertung basiert auf der Textbewertung und der Kategoriebewertung.

Wie ermittelt Google Kategorien?

Das Patent erklärt: Kategorien können manuell, automatisch oder in einem kombinierten Prozess ermittelt werden. Die Kategorien können als Liste, hierarchisch oder auf andere Weise definiert werden. Dokumente können einer oder mehreren Kategorien zugeordnet werden.

Okay, das sind Allgemeinplätze, die uns per Patent vermittelt werden. Die beste Möglichkeit zur Erkundung der Kategorien scheint wirklich der Google Image Swirl zu sein. Damit bekommen wir kein perfektes Werzeug um die Kategorien aufzuschlüsseln, bekommen aber einen guten Eindruck über den Stand der Klassifizierung. Über den Image Swirl, der mit Google Suggest an der Suchmaske arbeitet, wird leicht ersichtlich, dass viele Klassifizierungen im englischsprachigen Bereich laufen. Andere Sprachen wie Deutsch, Niederländisch, Portugiesisch werden berücksichtigt, jedoch nicht so intensiv. Selbst Amharisch und Pandschabisch sind vertreten. Google könnte sicherlich Quellen wie Freebase, Wikipedia und das ODP als Basis für die Klassifizierung heranziehen, mit eigenen Kriterien für Kategorisierung bereichern.

Im Erläuterungstext des Patentes finden wir den interessanten Hinweis auf die hierarchische Struktur der Newsgroups, welche eine relativ gute Suche in Beiträgen ermöglicht. Also eine weitere mögliche Klassifizierungsquelle, zumal die Newsgroups schon sehr lange unter Google Obhut als Google Groups laufen.

Ergänzung: Das Blogpost: Explore Images with Google Image Swirl nennt für die Klasifizierung WordNet, eine lexikalische Datenbank für die englische Sprache, als Quelle für kategoriebasierte Beziehungen zwischen Keywords.

Das Patent wurde am 26.Februar 2004 von Google eingereicht und am 12.Oktober 2010 bewilligt.

United States Patent:
System and method for determining a composite score for categorized search results
Google Labs:
Google Image Swirl
SEO by the Sea:
How Google May Use Categories as a Search Ranking Factor


Posted

in

,

by