Kalkulation des PageRank, angewandt in der Suchmaschine Google
Die Suchmaschine Google ist bekannt für die hohe Qualität ihrer Ergebnisse.
Eine wichtige Rolle spielt das PageRank Verfahren, dessen Kalkulation nachfolgend
erklärt wird.
Besucher, die kein Interesse für mathematische Berechnungen aufbringen, sollten
diese Erläuterung meiden :-)
Kalkulation des PageRank
Als Google noch ein Forschungsobjekt an der Stanford-Universität war wurde
eine Beschreibung
der Suchmaschine Google einschliesslich dem PageRank Verfahren veröffentlicht.
Grundlage für den PageRank ist folgende Formel:
PR(A)= (1-d)+d (PR(T1)/C(T1)+...+ PR(Tn/C(Tn))
PR(A) ist der PageRank der Seite A
d - Dämpfungsfaktor, normalerweise auf 0,85 gesetzt.
PR(T1) - PageRank einer Seite die auf Seite A verweist
C(T1) Die Anzahl der Links von dieser Seite
PR(Tn)/C(Tn) - Bedeutet, der PageRank wird für jede einzelne Seite ermittelt
Halt, halt, bevor es jetzt noch technsicher wird eine plausible Erklärung, die für Laien und Fachleute gleichermassen verständlich ist. die erklärung kommt von keiner geringeren Person als Googles Forschungschefin, Monika Henzinger:
"Stellen Sie sich vor, Pr() sei ein Arzt. Je mehr Leute ihn empfehlen, desto besser wird er sein. Je mehr Leute auf eine Webseite verweisen, desto höher wird sie von uns gerankt. Aber die Qualität des Arztes hängt ja auch von der Qualität des Empfehlenden ab. Es ist ein Unterschied, ob ihn ein Kollege empfiehlt oder ein Pharmavertreter. Wird er von einem anderen Arzt weiterempfohlen, geben wir ihm den Faktor 1, einer Sprechstundenhilfe, die keine umfassende medizinische Fachausbildung hat, der geben wir den Faktor 0,6, ein Patient bekommt nur 0,2 und ein Pharmavertreter, der einfach ganz und gar andere Interessen als der Arzt verfolgt, hat den Faktor Null. Pharmavertreter sind bei Google alle Spam-Seiten. Interessant wäre potenziell ein Algorithmus, der auch negative Faktoren berechnet. Um im Bild zu bleiben: der Bestattungsunternehmer, der einen Arzt weiterempfiehlt".
Die Erklärung entstammt einem Beitrag aus der Technology Review vom Mai 2005: Tanz der Algorithmen
Um den PageRank einer Seite zu ermitteln, muss der PageRank aller anderen Seiten
bekannt sein, die auf diese Seite verweisen. Da sich die PageRanks gegenseitig
beeinflussen, ist die Ermittlung des PageRank ein iteratives Verfahren, das durch
ständiges Wiederholen solange durchgeführt wird, bis eine ausreichende
Genauigkeit erzielt wurde.
Iteration (lateinisch) - Mathematisches Verfahren zur Verbesserung von
Näherungslösungen.
Definitionen
1. Der PageRank-Wert mit dem Seite B den PageRank an Seite A übergibt,
wird mit jedem zusätzlichen Link der auf Seite B existiert, herabgesetzt.
2. Der PageRank (PR) einer Seite ist die Messung ihrer Wertung durch andere
Seiten. Die Wertung die eine Seite über Links verteilt bleibt immer gleich,
wird jedoch aufgeteilt, je mehr Links von dieser Seite ausgehen.
Beipiele:
- Eine Seite mit PR 9 verweist auf drei weitere Seiten, also teilt sich sich der
PR-Wert pro Verweis auf 3.
- Eine Seite mit PR 6 und 2 Links, gibt ebenfalls den Wert 3 weiter.
- Eine Seite mit PR 4 und 1 Link, gibt den Wert 4 weiter.
Der MiniRank
Da im Verhältnis zum riesigen Google-Index nur eine sehr kleine Zahl
von Seiten für diese Erläuterung betrachtet wird, nennen wir den PageRank
hier MiniRank.
Zunächst ist der MiniRank völlig unbekannt.
Zur Vereinfachung wird der MiniRank für jede Seite mit 1 angenommen.
O.K., nun erinnern Sie sich bitte an den Dämpfungsfaktor der obigen Formel.
Dieser besagt, dass eine Seite eine andere Seite nicht höher bewerten kann
als sich selbst, sondern etwas niedriger.
Der MinRank (PageRank) jeder Seite wird mit dem Dämpfungsfaktor multipiziert.
Dieser Wert wird durch die Anzahl der Links auf dieser Seite dividiert.
Das heisst für Seite A: 1*0,85= 0,85 geteilt durch zwei abgehende Links:
0,85/2=0,425.
A gibt jeweils einen MiniRank mit dem Wert von 0,425 an B und C weiter. Deren
MiniRanks erhöhen sich um 0,425. Doch zunächst müssen alle Links
kalkuliert werden.
Seite B verweist auf Seite C mit einem Linkwert von 1*0,85=0,85, da der PR für
den einen Link nicht geteilt werden muss.
Seite C verweist auf A, ebenfalls mit 0,85
Seite D verweist auf C, ebenfalls mit 0,85
Nun sieht das Resultat folgendermassen aus:
Das neue MiniRank zeigt Seite C als wichtigste Seite mit dem höchsten PR.
Der MinRank zeigt wie bedeutend Seite C ist. An dieser Stelle haben wir aber nur
die Linkpopularität kalkuliert. Der PageRank besagt jedoch, dass besser verlinkte
Seiten eine höhere Wertung bekommen. Deshalb müssen wir nun die Kalkulation
wiederholt werden.
Der MiniRank von Seite A ist nun 1,85. Dieser muss nun wieder mit dem Dämpfungsfaktor
multipliziert werden und durch die Anzahl der Links geteilt: 1,85*0,85/2=0,78625.
Diesen Wert erhalten die beiden Links von A nach B, und A nach C.
Seite B besitzt nur einen abgehenden Link, so dass der aktuelle Wert lediglich
mit dem Dämpfungsfaktor zu multiplizieren ist. 1,425*0,85=1,21125
Seite C verfügt ebenfalls nur über einen abgehenden Link, der wie folgt
bewertet wird:
3,125*0,85=2,65625
Für den abgehenden Link von Seite D gilt wieder:
1*0,85=0,85
Nun werden die neu ermittelten Werte der abgehenden Links zu den MiniRanks der
Seiten addiert:
Wir sehen, was zu erwarten war, Seite C hat wieder den höchsten MiniRank.
Der Wertungsabstand zu A hat sich verringert. Diese Berechnungsprozedur muss nun
etwa 50 bis 100 mal durchgeführt werden, um eine ausreichend genaue Annäherung
an die tatsächlichen Werte zu erreichen. Je mehr Seiten im Index sind, je
öfter muss die Berechnung wiederholt werden.
Ein kommerzieller Versuch das PageRank
Verfahren zu untergraben
Die Erläuterung des PageRank basiert auf einer Untersuchung von Chris Ridings,
Betreiber von
http://www.searchenginesystems.net/
Es gibt ein Tool das Ihnen ermöglicht,
eine Modellierung des PageRank für eine Webpräsenz vorzunehmen. PageRank Calculator
Das @-web Verzeichnis der wichtigsten Suchmaschinen mit URL zum Anmelden neuer
Webseiten.
Webverzeichnisse und Metasucher: Suchmaschinenverzeichnis
25.01.2002
Letzte Änderung: 09.09.2006