Suchmaschinen jagen böse Links – @-web Suchmaschinen Magazin und Blog

Künstlich gesetzte Verweise unterlaufen die Algorithmen von Google & Co. zur Bestimmung der Relevanz von Webseiten.
Die Berechnung der Relevanz beruht zu einem wesentlichen Teil auf der Bewertung der Verlinkung einer Seite.
Deshalb sieht Google z.B. bezahlte Links ungerne und geht aktiv gegen bezahlte Links vor. Bezahlte Links können u.a. über die Bedienkonsole der Webmaster Tools gemeldet werden. Was können Suchmaschinen tun, ausser auf gegenseitige Denunzierung der Nutzer setzen?
Einige Algorithmen beschäftigen sich speziell mit dem Auffinden von Links die das Ranking künstlich beeinflussen sollen.

Marie-Claire Jenkins (Kurz: CJ) studierte Natural Language Processing und Artificial Intelligence. Nebenbei beschäftigt Sie sich seit 6 Jahren mit SEO. Auf ihrem Weblog gibt es Beiträge die wissenscchaftliche Arbeitne beleuchten, welche relevant zu SEO und Online-Marketing sind. In einem Gastbeitrag auf Huomah.com beschreibt sie die Jagd nach Spam-Links auf technischer Basis.

Bezahlte Links können das Ranking unterstützen ohne weiteren Wert für die Besucher, oder aber einen zusätzlichen Nutzen bieten, weil sie etwas interessantes für die Besucher anbieten. CJ glaubt deshalb, dass bezahlte Links differenziert zu bewerten sind. Google benutze zwar Methoden um Keyword-Spam zu entdecken sei aber verwundbar für Linkspam.

Vetternwirtschaft der Verweise

Brian Davison von der Rutgers Universität (New Jersey, USA) erklärt in Recognizing Nepotistic Links on the Web erklärt, Links werden häufig eher als Geschenk vergeben, unter Berücksichtigung von Beziehungen, nicht unbedingt als Verdienst. Folgende Methoden werden erwogen um diese Links aufzuspüren:

Blacklist bezahlter Links
Heuristische Methoden zur Erkennung bezahlter Links (Wiktionary: Das Ergebnis einer heuristischen Suche ist selten optimal, aber meistens ist es gut und wird in akzeptabler Zeit gefunden.)
Herausfinden ob Suchergebnisse spammig sind, durch vorherige Verabeitung der Daten

All diese Methoden werden als unzuverlässig eingestuft. Eine Blacklist muss zunächst erstellt werden. Der Schwachpunkt der Heuristik ist im zweiten Punkt angeführt.

Die Erkennung, ob Ergebnisse spammig sind, ist nicht so einfach, weil zunächst von einem Datensatz ausgegangen werden muss, der (weitgehend) frei von Spam ist. Dieser Umstand könnte übrigens erklären, warum bei Google immer wieder mal sehr alte Resultate auftauchen, die aktuell gar nicht mehr vorhanden sind. Von einem früheren Datum aufbauend werden mehrere zeitlich differierende Indizies zusammengeführt. Dieser Vorgang erstreckt sich erfahrungsmässig über mehrere Monate. Insider erkennen diesen Prozess z.B. an den teilweise historischen Daten in der Ergebnisliste und an einer stark erhöhten Trefferzahl, die zu jeder Suchanfrage geliefert wird.

Bessere Ergebnisse sollen mit diesen Methoden erzielt werden:

Maschinenbasiertes Lernen

Maschinenbasiertes Lernen kann entweder unkontrolliert oder kontrolliert geschehen. Wird dem Lernvorgang kontrolliert ein Set bezahlter Links vorgegeben, dann kann auf dieser Basis erfolgreiches Lernen erfolgen. In einem Experiment arbeitete Brian Davison mit einem C 4.5 genannten Algorithmus. In einem Datenset wurde alle Vetternlinks als solche gekennzeichnet und anschliessend mit einem neuen Datensatz gearbeitet. Dort wurden 75 Merkmale der Vetternlinks automatisch herausgearbeitet. Z.B. waren Domainnamen identisch, Domains hatten keinen Domain-Namen (nur IP-Adresse), Seiten teilte eine gewisse Anzahl ausgehender Links, IP-Adressen stimmten überein usw. Maschinenbasiertes Lernen wird von CJ als sehr nützlich zum Erkennen von Vettern-Links eingeschätzt.

Unstimmigkeiten im Sprachmodell

Die ungarischen Verfasser AndrÃ¡s A. BenczÃºr, IstvÃ¡n BÃrÃ³, KÃ¡roly CsalogÃ¡ny ünd MÃ¡tÃ© Uher beschäftigten sich an der Universität von Budapest mit Unstimmigkeiten im Sprachmodell.
Detecting Nepotistic Links by Language Model Disagreement

Es wurde nach Links gesucht, die keine inhaltliche Beziehung zwischen verweisender Seite und Zielseite herstellen.

Das berechnete Ergebnis fliesst als negatives Ergebnis in die Berechnung des PageRanks ein. Die Links erfahren also eine Abwertung. Bewertet wurden u.a. Kommentarspam in Weblogs und Gästebüchern, Linktausch, allgemeine Unterstützunglinks, Anzeigen, Affiliate-Links und (zur Verlinkung) missbrauchte Affiliate-Programme.

Gleichzeitig wird inhaltlicher Spam erkannt, wenn z.B. die Zielseiten nicht gleichzeitig von anderen vertrauenswürdigen Quellen Verweise erhalten.

Links zwischen Seiten die inhaltlich keine Beziehung zueinander aufweisen werden zwar nicht zwangsläufig als schädlich eingestuft, stellen nach Ansicht der Verfasser aber auch keinen Mehrwert für die Besucher dar. Für eine sinnvolle Verarbeitung per Computer wurden Verweistexte und einige Worte um den Verweistext herum mit dem Text der Zieelseite verglichen. Das zugrundeliegende Experiment wurde anhand eines Satzes von 31,4 Millionen Seiten aus der .de-Domain vorgenommen. Überschreiten die Diskrepanzen im Sprachmodell eine gewisse Schwelle, so werden die Links als Spam abgewertet.

Qualifizierte Links

Xiaoguang Qi, Lan Nie and Brian D. Davison (Lehigh University) beschäftigten sich nicht mit den schlechten Verweisen sondern bewerteten qualifizierte Links. Measuring Similarity to Detect Qualified Links
Ähnlichkeitspunkte wurden im Vergleich zwischen Quelle und Ziel kalkuliert und und klassifiziert. Nur die quailifizierten Links verbleiben im Datensatz zur Linkanalyse und zur Berechnung des Autoritätsrankes. Die Berechnung beruht auf dem HITS -Algorithmus von Joe Kleinberg, zur Ermittlung von Autoritäten im Web. Die Autoren erklären, die Exaktheit der Ergebnisse mit dem Verfahren um 9% steigern zu können, im Vergleich zur HITS-Variante von Bharat und Henzinger.

Linkfarmen und Linktausch erkennen

Baoning Wu (Lehigh University) und Kumar Chellapilla (Microsoft Live Labs) setzen einen Datensatz, der mit Linkspam durchsetzt ist, voraus.
Extracting link spam using biased random walks from spam seed sets

Ein Zufallslauf durch den Webgraph erkundet die Nachbarschaft zwischen Webseiten. Die autoren erläutern dass es relativ einfach sei, manuell oder automatisch einige Sites von Linkfarmen zu identifizieren. Wesentlich schwieriger ist es alle Teilnehmer einer Linkfarm oder Linktauschgemeinschaft zu identifizieren. Ziel der Arbeit ist es, Suchmaschinen die Erstellung von Blacklists zu erleichtern, ausgehend von einigen wenigen bekannt gewordenen Spamseiten.

In Kombination mit manuell gekennzeichnetem Linkspam wird eine Erfolgsquote von 95,12% für die Entdeckung grosser Linkfarmen und 80,46% zur Entdeckung der Kernseiten (Zentren) für Linktausch benannt.

Fazit

Alle beschriebenen Methoden sind in wissenschaftlichen Arbeiten beschrieben. Das bedeutet nicht zwangsläufig, dass die Algorithmen in allen führenden Suchmaschinen implemetiert sind. Es ist jedoch nicht unwahrscheinlich, dass eine oder mehrere der beschriebenen Methoden (oder ähnliche) angewandt werden.

Weitere Beiträge zu Verlinkung und Ranking:

Linkarchitektur mit eigehenden und ausgehenden Links
Die Wichtigkeit von Links und Linktexten
BrowseRank – Nutzer bestimmen die wichtigkeit von Webseiten

Der Gastbeitrag von Marie-Claire Jenkins (CJ):
Hunting for paid links; a technical review

Website von CJ:
Science for SEO

Comments

4 responses to “Suchmaschinen jagen böse Links”

Lucien

12. February, 2009

Ein extrem spannendes Thema von dem du da sprichst. Fest steht, dass Suchmaschinenoptimierer in Zukunft vor immer neue Herausforderungen gestellt werden. Insbesondere was das Linkbuilding angeht.
Mo

18. February, 2009

Diese Spammer sind eine Pest.
Peter

23. February, 2009

Maschinell wird man das Problem mit bezahlten Links wohl niemals gänzlich aus der Welt schaffen können.
Google Abwertung durch Trigami Blog-Marketing? Â« Abstrafung,Blogs,Content,Linkkauf,Links,Paidlink,Penalty,Trigami Â« SEO Scene

9. March, 2009

[…] kommen, Google hat grundsätzlich etwas gegen Kauflinks. Nur sind solche Kauflinks aus Russland besonders leicht zu identifizieren und lagen im Trend. Ähnlich ist es mit Trigami. Wenn vor einem Artikel mit ausgehenden Links […]