BrowseRank – Nutzer bestimmen die Wichtigkeit von Webseiten

Was ist wenn die Relevanzbestimmung von Webseiten aus dem Nutzerverhalten abgeleitet wird? Wissenschaftler von Microsoft-China haben sich einem Algorithmus gewidmet, der Aufrufhäufigkeit von Webseiten und Verweildauer durch die Besucher berücksichtigt. Also BrowseRank statt PageRank?


Zur 31. Konferenz SIGIR stellte Microsoft Research u.a. die Beschreibung einer Berechnungsmethode zum Ranking vor, welche BrowseRank genannt wurde. “BrowseRank: Lasst Webnutzer für die Wichtigkeit einer Webseite stimmen” heisst der Titel des 8-seitigen Papiers.
Die Autoren erklären den PageRank für unvollkommen, weil “leicht” Verweise zu einer Webseite hinzugefügt oder entfernt werden können. Der Browsing Graph bringt nach Ansicht der Autoren bessere Ergebnisse als der Link Graph, wie er u.a im PageRank verwendet wird.

BrowseRank übertrifft die Berechnungsmethoden für das Ranking von PageRank und TrustRank an mehreren Stellen lautet die Schlussfolgerung. Dazu zählen die Anfälligkeit gegen Spam, finden wichtiger Seiten und Relevanz Ranking.

PageRank ist gegen Linkfarmen und andere künstliche Beeinflussungen wie gekaufte Links anfällig, (weshalb Google erzieherisch gegen solche Einflüsse vorgeht). Die Kalkulation von Linkgraphen ist extrem aufwendig und speziell in Anbetracht des dynamisch expandierenden Web, eine immer grössere Herausforderung an die notwendige Rechenleistung.

Die Nützlichkeit des PageRank wird durchaus anerkannt aber auch auf seine Schwächen hingewiesen:
– PageRank ist durch Linkfarmen und bezahlte Links manipiulierbar
– PageRank basiert auf einer zufälligen Wanderung duch den Linkgraph. Dabei wird nicht die Verweildauer berücksichtigt, die laut der Autoren des Papiers ein guter Indikator für die Qualität der Webseite sein kann.

Nutzerdaten können von Webbrowsern (Toolbars) und Nutzerclients aufgezeichnet werden. Für die Auswertung kommen folgende anonyme Daten in Betracht: URL, Zeit und Methode des Besuches. Methode heisst Eingabe der URL oder über Verweis von einer anderen Webseite. Aus der Zeitdifferenz zweier nacheinander folgenden Seitenaufrufe wird die Verweildauer ermittelt.

Die Autoren verweisen darauf, dass die Daten von einer extrem grossen Nutzergruppe mit deren legalem Einverständnis gesammelt wurden. Das Verhalten von Hunderten von Millionen Nutzer kann dazu genutzt werden für Webseiten zu stimmen. Es wurden keine Daten erhoben, welche auf die Identität der Nutzer zurückzuführen wären.

Auf das mathematische Berechnungsverfahren welches im vorgestellten Dokument nachzulesen ist, wird hier nicht eingegangen.

Zum ersten Verständnis genügt die relativ einfache Schlussfolgerung für den BrowseRank: Je mehr Besucher eine Website anschauen und je länger die Zeit des Anschauens der Seite, je höher ist die Wahrscheinlichkeit, dass es sich um eine wichtige Seite handelt. Nutzer stimmen mit ihrem uneingeschränktem Verhalten für Webseiten.

BrowseRank gibt sehr häufig besuchten Seiten einen hohen Wert. Dazu gehören MySpace, Youtube.com, und Facebook, die nach heutigem allgemeinen Verständnis unter dem Begriff Web 2.0. betrachtet werden. PageRank hingegen gibt Seiten einen hohen Wert, die sehr viele Verweise auf sich vereinen. Dazu gehören Adobe.com und Apple.com, weil z.B.auf diesen Seiten vielgenutzte Software zum Download angeboten wird.

Auf folgende Probleme zur Berechnung des BrowseRank wird hingewiesen:
– Daten über das Nutzerverhalten sind spärlich.
– Daten über das Nutzerverhalten können eine bessere Einschätzung für Webseiten bringen, die häufig frequentiert werden. Seiten die in Auswertung der Nutzerdaten wenig oder gar nicht frequentiert werden, lassen sich damit nicht zuverlässig einschätzen.

Für die Untersuchung wurden ausschliesslich die erwähnten Nutzerdaten ausgewertet. Informationen über Inhalte und “Metadaten” einer Webseite (z.b. Grösse der Webseite) wurden nicht betrachtet, sollen in eine spätere Untersuchung einfliessen.

Fazit: Aus den vorliegenden Informationen lässt sich einschätzen, dass der BrowserRank als alleiniger Algorithmus zur Beurteilung von Webseiten völlig unzureichend ist. Es können lediglich die gut besuchten Seiten vernünftig beurteilt werden. Das hiesse aber, nur die Spitze vom Eisberg zu betrachten. Dennoch wird es einen verstärkten Trend geben, mehr Nutzerdaten zu bekommen um mehr Nutzerverhalten einfliessen zu lassen. BrowseRank kann ein zusätzlicher Indikator für die Wichtigkeit einer Webseite sein. Natürlich lässt sich auch der BrowseRank manipulieren, was in dem Papier jedoch keine Erwähnung findet. Besonders effektiv wäre die Manipulation über Botnetze.

Nutzerdaten als Ausgangspunkt für das Ranking zu verwenden ist übrigens keine neue Idee. Im neueren Patent zum PageRank von 2006 , welches 2001 eingereicht wurde, ist bereits von echten Nutzerdaten die Rede, welche für das Ranking berücksichtigt werden.

BrowseRank: Letting User Vote for Page Importance


Posted

in

,

by

Comments

2 responses to “BrowseRank – Nutzer bestimmen die Wichtigkeit von Webseiten”

  1. Vergin Avatar

    Ist eigentlich schonmal etwas darüber bekannt geworden, ob Google solche Daten nicht insgeheim seit längerem heranzieht (z.B. via Google Analytics). Google wird dies sicher nicht an die große Glocke hängen, aber denkbar wäre es…

  2. collection23 Avatar

    Die perfekte, unbetrügbare Suchmaschine wird es wohl nie geben. Beim BrowseRank werden, statt Links, Klicks + Dauer gezählt. Aber falls das einmal ein wichtiger Rankingfaktor werden sollte, wird es dafür auch Anbieter und Bots geben, die das Klicken übernehmen.

    Ideal wäre es wirklich nur, wenn die Sumas tatsächlich die Qualität und Relevanz der Website zu verschiedenen Keys erkennen könnten. Aber sowas ist natürlich, für die automatisierten Maschinen, wesentlich schwerer als Links oder Klicks zu zählen.