Als Larry Page, Mitbegründer der Suchmaschine Google, an der Stanford
Universität studierte, veröffentlichte er eine grundlegende Beschreibung
des PageRank System.
Nachfolgend erhalten Sie eine Zusammenfassung der grundlegenden Betrachtung des
PageRank Verfahren, basierend auf der Veröffentlichung einer Power-Point
Präsentation von Larry Pages an der Stanford Universität.
Sie lesen hier eine Zusammenfassung der Veröffentlichung. Die wesentlichsten
Grundsätze dürften noch heute Gültigkeit haben. Im Laufe der Zeit
sind sicher einige zusätzliche Modifikationen eingeflossen, die hier noch
nicht erwähnt wurden. Alle Hinweise in Klammern wurden von mir zum besseren
Verständnis hinzugefügt.
Der PageRank (PR) basiert auf der Zahl der rückwärtigen Links zu
einer Webseite.
Die Verweise der Seiten B und C sind Rücklinks auf Seite A.
Damit wird annähernd die Wichtigkeit einer Seite bestimmt, zu Vergleichen
mit Zitaten in der Literatur. Webseiten variieren allerdings extrem in Qualität
und Bedeutung.
Ein grosser Datenbestand erlaubt die Vererbung der Wichtigkeit darzustellen.
Der PageRank wird mit iterativen Methoden ermittelt (Anmerkung: Der PageRank muss
in einer Vielzahl von Durchläufen immer wieder neu berechnet, angenähert
werden).
URL's ohne "Kinder" werden im Laufe des Iterationsverfahren entfernt.
Larry Page stellt aus Nutzersicht (mit einem gewissen Unterton) die Frage, warum
Anfragen verfeinert werden müssten, es könnte schliessliche www.meine-suchbegriffe.de
eingegeben werden. Ich interpretiere daraus eine ablehnende Haltung gegenüber
der Bewertung von Suchbegriffen in der URL.
PageRank ist unabhängig von der Formulierung der Anfragen durch die Nutzer.
Warum PageRank funktioniert
Yahoos Website ist nicht das selbe wie meine (Larry Pages) Website
- Sie wird besser betreut und ist nützlich
- Die Links sind wesentlich bedeutender
Gute Seiten haben oft zunächst wenige Rücklinks
Deren Verbreitung (in wichtigen Seiten wie Yahoo) betrügt (verkürzt)
die Zeit (zum bekannt werden)
Nur ein Link muss sich ändern
Vermischung von hirarchischen Strukturen und auseinanderlaufenden Links
Nutzer möchten oft Informationen aus "vertrauenswürdigen"
Quellen
PageRank ermittelt Seiten mit dürftiger Qualität
PR ist relativ Spam resistent
PR zu spammen kostet wirklich Geld
Jede Seite hat ein Mindestmass an Bedeutung
Themen die zu bedenken sind:
Verschiedene Namen für eine URL
Nicht-HTML Links
Weiterleitungen (Redirects)
Unvollständige Crawl-Vorgänge
robots.txt
Inkonsistenter Zustand des Web
CGI's, Datenbanken
Unendliche Seiten
Frames
Mögliche Erweiterungen
Startpunkt: wichtige Seiten (Yahoo!)
Verwandte (related) Seiten
Messen der aktuellen Pfadlänge
Link Entfernung als zusätzlichen Faktor hinzufügen
Verbreitung der Zitate als ein Faktor
Abschliessend wurden noch einige Basics zum Index b.z.w. zur Bewertung von Webseiten
erwähnt:
Volltext
Nähe (der Suchworte)
Phrasensuche
PageRank
Ankertext -Verbreitung
Wichtigkeit des Textes
Anmerkung: Die im Dokument erwähnte Darstellung des PageRank, in einem
Balkendiagramm mit logarithmischer Einteilung in Bezug auf den Maximalwert, wird
jetzt in der Google-Toolbar verwendet.
Der PageRank wird ebenfalls im Google Verzeichnis verwendet. Nachfolgende
Erläuterung in englischer Sprache zeigt den Unterschied zum PageRank der Toolbar. The Handy Dandy Google Page Rank Figurin' Guide
Ein kommerzieller Versuch das PageRank
Verfahren zu untergraben
Das @-web Verzeichnis der wichtigsten Suchmaschinen mit URL zum Anmelden neuer
Webseiten.
Webverzeichnisse und Metasucher: Suchmaschinenverzeichnis
25.01.2002
Letzte Änderung: 08.11.2004
Seitenbeginn