(05.12.2003) hat das natürlich Auswirkungen auf die Ergebnislisten
der Suchmaschine. Die Karten werden neu gemischt. In den vergangenen Monaten fand
der Google-Dance eher gleitend statt. Es wurden neue Seiten aufgenommen und andere
fielen heraus. Daran haben sich viele Websitebetreiber gewöhnt.
Der jüngste Google-Dance wurde in den Foren der Webmasterworld
auf den Namen "Florida" getauft. Er ist anders, wird intensiver
empfunden. Am lautesten schreien natürlich wieder diejenigen, die glaubten,
den Google-Algorithmus längst geknackt und damit einen Platz auf der ersten
Ergebnisseite praktisch gepachtet zu haben, nun aber auf hintere Plätze verwiesen
wurden.
Die Foren sind voller Spekulationen, doch niemand kann genau sagen, welche
technischen Änderungen vorgenommen wurden. Die Spekulationen wachsen wie
Unkraut. Schnell und ungepflegt. Die meisten dieser Spekulationen bleiben unbewiesen
und somit wertlos. So sollen etwa Wortlisten-Filter, speziell für kommerzielle
Produkte erstellt worden sein, um diese Seiten zur Nutzung der Textanzeigen in
Google-Adwords zu bewegen. Andere sprechen davon, dass überoptimierte Seiten
bestraft werden. Hmm, warum eigentlich nicht?
Vermutet werden aber auch interessante Theorien.
Word Stemming
Seit November 2003 arbeitet Google öffentlich mit dem Word Stemming.
Worte werden auf Ihren Wortstamm zurückgeführt, andere Worte des Wortstammes
für die Anfrage berücksichtigt. Wie das funktioniert sehen Sie ganz
praktisch, mit dem Suchbegriff cert advisories
In der Ergebnisliste ist cert advisory
ebenfalls fett markiert.
Klar also, dass die Ergebnisliste unter Berücksichtigung des Stemming anders
aussieht.
Mehr Infos zum: Word Stemming
Bayes'sche Netzwerke
Die Theoreme des englischen Mathematikers Thomas Bayes sind die Grundlage für
selbstlernde Netzwerke. Sie werden erfolgreich angewandt, um E-Mail Spam zu bekämpfen.
Entsprechende Filter sind nicht perfekt, doch sie sind selbstlernend. Sie werden
trainiert und erkennen immer mehr Spam. Im
Newsletter 103 (Mai 2003) berichtete @-web bereits, dass unter anderem Google
und Amazon derartige selbstlernende Netzwerke einsetzt. Intel entwickelte neue
Software-Bibliotheken damit Anwender bessere maschinenlernende Systeme einsetzen
können.
Es gibt aber noch weitere Betrachtungen:
Siehe auch Beitrag von Seth Finkelstein: Google
Spam Filtering Gone Bad
Hilltop Algorithmus
Nicht nur die Qualität einer Webseite wird ermittelt. Die verweisenden
Seiten müssen Experten sein. Man geht davon aus, dass Experten besser als
"normale" Webseiten in der Lage sind, andere Seiten zu beurteilen.
Es werden nur unabhängige Seiten Experten. Technisch heisst das:
Die ersten drei Blöcke der IP-Nummer dürfen nicht identisch sein.
Der am meisten rechts liegende, nicht generische Teil des Domain-Namen muss
sich unterscheiden.
So werden die Kürzel für Länder-Domains und Sub-Domains in den
Länder-Domains nicht berücksichtigt. ibm.de, ibm.com und ibm.co.uk werden
als zusammengehörig identifiziert.
- Beziehungen zwischen Seiten werden temporär auf weitere Seiten übertragen.
Verweisen drei Seiten A, B und C auf ein Ziel und A hat Beziehungen mit B, sowie
B mit C, dann wird unterstellt, dass auch C mit A Beziehungen unterhält.
In der Praxis werden damit hin und wieder "unschuldige" Seiten als Experten
ausgeschlossen, das wird jedoch in Kauf genommen.
Alle Seiten die diese Bedingungen erfüllen und in der Bewertung einen
bestimmten Schwellwert überschreiten, werden als Experten klassifiziert.
Zusätzliche Bewertungen berücksichtigen die Zugehörigkeit der ausgewähten
Seiten zu einem bestimmten Hauptthema (Wissenschaft, Kunst, Sport,...)
Krishna Barat, einer der Hilltop-Entwickler, arbeitet nun in der Google Forschungsabteilung.
Siehe auch @-web Beitrag: Hilltop
Was Google sagt
Man sollte bei allen Spekualtionen darauf hören, was Vertreter der Suchmaschine
Google zu sagen haben.
Andrew Goodman von Traffic.com veröffentlichte einige Äusserungen von
Peter Norvig, Google-Direktor für Qualität.
Norvig erklärt, Google misst vor und nach Änderungen die Qualität
der Ergebnisse.
Peter Norvig sagte:"Die kürzlichen Änderungen versuchen einer Seite
ihren tatsächlichen Wert zu geben. Bisher schauten wir nur nach Keywords
und Links. Doch nun berücksichtigen wir viele andere Dinge...Schauen mehr
und mehr nach Signalen und Informationen, die versuchen herauszubekommen, was
eine Seite wirklich ausdrücken will."
Siehe auch: Traffic
Während Sie nun grübeln, welche dieser Erklärungen zutreffen könnte,
halten Sie kurz inne. Warum sollte Google nur einen neuen Algorithmus einführen?
Um die Qualität der einzelnen Algorithmen in der Praxis prüfen zu können?
Okay, das ist ein Argument. Wenn aber alle neuen Algorithmen zusammen passable
Ergebnisse liefern, kann doch das Feintuning in aller Öffentlichkeit passieren.
Oder?
Eins ist wohl gewiss: Niemand sollte den Erfolg seiner eigenen Geschäfte
auf die Abhängigkeit zu einem einzigen anderen Unternehmen setzen. Es gibt
zu viele Faktoren die diese Beziehung unterlaufen können.
Das @-web Verzeichnis der wichtigsten Suchmaschinen mit URL zum Anmelden neuer
Webseiten.
Webverzeichnisse und Metasucher: Suchmaschinenverzeichnis
05.12.2003
Seitenbeginn