Eines der grössten Probleme für Suchmaschinenbetreiber ist die künstliche Verlinkung von Webseiten um deren Position in den Ergebnislisten von Suchmaschinen künstlich zu stärken. Ein Mittel gegen Link Spam könnte das Konzept zur Massenschätzung künstlicher Links sein. Seiten die erheblich von Link Spam profitieren sollen damit identifiziert werden können.
Der technische Report “Link Spam Dedection Based on Mass Estimation” wurde am 10. März 2006 veröffentlicht. Die Autoren sind:
– Zoltan Gyöngyi und Hector Garcia Molina – beide tätig im Bereich der Computerwissenschaften der Stanford Universität, Kalifornien
– Pavel Berkhin und Jan Pedersen – beide tätig für Yahoo!
Die Verfasser erklären, erfolgreich zehntausende Fälle schwergewichtigen Link Spams aufgedeckt zu haben. Der Schwerpunkt der Untersuchungen lag auf Link Spam der den PageRank beinflusst. Damit wurden sehr viele Seiten mit hohem PageRank aufgedeckt, die deutlich von Spam-Sites profitieren.
Die Link Spam Erkennung ergänzt frühere Arbeiten zum TrustRank. TrustRank basiert auf der Erkenntnis, dass anerkannte Webseiten selten auf minderwertige Seiten verweisen. Relativ wenige, handverlesene Webseites genügen bereits, um aus einer Basis vertrauenswürdiger Sites andere vertrauenswürdige Sites zu erkennen und reichlich Spam auszuschliessen.
Die Idee der “”Link Spam Erkennung” basiert darauf, die Menge der Spam-Links mathematisch zu schätzen, welche als relativer Faktor zur Bildung des PageRank angesehen werden können. Der Unterschied welcher sich aus der PageRank-Ermittlung für den “Guten Kern” verglichen mit dem PageRank für alle vorhandenen Knoten ergibt, wird zur Spam-Erkennung genutzt. Die Definition der der Knoten basiert auf einem Abstraktionsmodell, welches sich von gängigen Betrachtungen des Webs unterscheiden. Demnach kann ein Knoten (Node) eine einzelne Seite, eine Website oder ein Webhost sein. Die Links werden zu gerichteten Links, sogenannten Spitzen zusammengefasst. Links erhalten keine Gewichtung, Eigen-Links werden ausgeschlossen. Untersucht wurden die eingehenden und ausgehenden Links der Knoten. Die Berechnung des PageRank wird von den Verfassern als ein Konzept angesehen, das für verschiedene mathematische Formulierungen geeignet ist. Dem entsprechend wurde für die Ermittlung des PageRank eine mathematische Formel aufgestellt, welche das vorher beschriebene Modell der Knoten berücksichtigt. Hier ist vom linearen PageRank die Rede.
Um den PageRank zu beinflussen werden folgende 2 Methoden angewandt. Ein zahlenmässig bedeutsamer Zuwachs an Links von Seiten mit geringem PageRank und/oder einige wenige (schwer zu bekommende) Links von von populären Websites wie der New York Times. Die Verfasser gehen von der Annahme aus, dass Suchmaschinen “White Lists” für vertrauenswürdige Sites und “Black Lists” für Spam-Sites führen. Diese Listen können manuell von Redakteuren und/oder von Algorithmen erstellt worden sein. Die Seiten der “White List” bilden praktisch den “guten Kern”. Ein guter Kern sei nicht so schwer zu konstruieren, da vertrauenswürdige Sites im Verlauf der Zeit sehr stabil bleiben. Spam-Sites hingegen kommen und gehen. Die Ermittlung des “gute Kerns” scheint hier dem Verfahren des TrustRank identisch. Praktisch ist es jedoch wichtig, das Set vertrauenswürdiger Seiten so gross wie möglich zu wählen, mit einer Menge die um Grössenordnungen das für den TrustRank benötigte Start-Set ( ca. 200 Sites) übersteigt. Der gute Kern wurde aus einem absichtlich nicht genannten Webverzeichnis generiert. Hinzugefügt wurden Hosts der US-Verwaltung sowie weltweite Bildungseinrichtungen. Insgesamt bestand der “Gute Kern” aus rund 504 000 Hosts. Insgesamt wurden 73,3 Millionen Webhosts untersucht.
Mit der beschriebenen Methode werden vor allem bedeutende Spam-Seiten mit hohem PageRank erkannt. Die Verfasser gehen davon aus, dass ihre Methode nicht manipulierbar ist, selbst wenn Spammer sich damit auseinandersetzen.
Der technische Report (Achtung, PDF Datei):
Link Spam Dedection Based on Mass