Semantische Suche von Google speit Fakten und Antworten – @-web Suchmaschinen Magazin und Blog

Die “nächste Generation der Suche” kündigt Google an. Man arbeitet bei Google hart an dieser Vision. Bereits in den kommenden Monaten sollen semantische Treffer die Ergebnislisten von Google bevölkern. Mehr direkte Antworten und Fakten sollen die Antwortseiten von Google ergänzen.

Die neue semantische Technologie wird mit der bestehenden Technologie vermischt. Auch wenn Amit Singhal von der nächsten Generation der Suche spricht, ist das keine plötzliche Revolution. In kleinen Schritten wird die Ergebnisliste von Google mit Treffern ergänzt, die eine neue Datenqualität aufweisen.

Durch die semantische Verknüpfung der Treffer können deutlich mehr gesicherte Informationen zu einer “Sache”, einem “Ding”, geliefert werden. Google ist nicht mehr vollständig darauf angewiesen, extrahierte, ungeprüfte Daten aus Webseiten anzubieten, in der Hoffnung dass die richtige Anwort dabei ist und die Nutzer zufrieden stellt. In den nächsten Monaten will Google laut Wall Street Journal damit beginnen, sematische Treffer der regulären Trefferliste voran zu stellen.

Die semantische Suche ersetzt nicht die Treffer aus dem Web

Damit gleich zu den SEO-Sorgen die sich mit der neuen Technologie verbinden. Gute Inhalte, gepaart mit qualitativ hochwertigen Links, bleiben weiterhin die beste Strategie für die Optimierung von Webseiten.

Die neuen semantischen Ergebnisse werden nicht mehr als 10 bis 20% aller Trefferlisten umfassen. Dieser prozentuale Anteil lässt keine Aussage über den Traffic zu, der damit verbunden ist. Den Traffic könnte man nur einschätzen wenn klar wäre, ob und welche leistungsstarken Begriffe damit verbunden sind. Die Erfahrung mit dem Start anderer Google Produkte zeigt, zunächst starten neue Technologien nur für US-Nutzer auf Google.com.

Für andere englischsprachige Portale muss semantisch sicherlich schon ein wenig differenziert werden, je nachdem welche Bedeutung ein Begriff in einem bestimmten Land hat. Nicht-englische Sprachversionen benötigen häufig deutlich mehr Zeit bis zur Produktreife. Eher wird es an der englischsprachigen Version zunächst Anpassungen, Verbesserungen geben, bevor weitere Sprachversionen in das Rennen geschickt werden.

In der semantischen Bedeutung unterscheiden sich Sprachen deutlich, so dass eine einfache Übertragung von Englisch auf Deutsch (und andere Sprachen) nicht ohne weiteres möglich ist.

Semantische Treffer bringen präzisere Antworten. Der Zusammenhang zwischen Begriffen gestattet umfassende Antworten. Der Deutsche Bundeskanzler wird beispielsweise eindeutig mit Angela Merkel verknüpft. Genau das will Google in den kommenden Monaten zeigen. Treffer die mehr zeigen als nur einen Link mit einer Beschreibung. Die Treffer sollen zeigen “wie Menschen die Welt verstehen”.

Der Semantische Kern der neuen Google Suche

Im Jahr 2010 erwarb Google Metaweb, den Betreiber der offenen Datenbasis Freebase. Damals enthielt die Datenbasis von Freebase 12 Millionen Einträge, heute sind es 22 Millionen Einträge.

Freebase verknüpft mit Hilfe von freiwilligen Helfern Begriffe mit deren Bedeutungen. Boston heisst beispielsweise eine Stadt in den USA, eine Stadt in Großbritannien, eine bekannte Musikband. Mit den Verknüpfungen bei Freebase werden diese Eigenschaften dem Begriff zugeordnet. Es entstehen mehrere Datenbankeinträge für das gleiche Wort. Unverwechselbar wird definiert, was sich mit dem Wort verbindet.

Das folgende Video zeigt recht gut, wie in Freebase die semantischen Verknüpfungen betrachtet werden.

Jeder Eintrag in Freebase ist ein “Ding”. Das kann eine Person sein, ein Ort, Buch, Film, Firmen, Behörden usw.. Jedes Ding wird mit Graphen verbunden die eindeutig das Ding als Einheit beschreiben. Damit wird die Stadt Boston unverwechselbar zur Musikband Boston.

Mit Google Refine 2.0 hat Google ein Werkzeug geschaffen um die Datenbank von Freeweb auf Inkonsistenz zu prüfen, Formate zu transformieren und mit Daten von externen Webservices oder Datenbanken zu ergänzen.

Scheinbar speist Google nur einen Bruchteil der mit Refine 2.0 (und anderen Werkzeugen?) beschafften Daten in die Freeweb Datenbank. Der deutlich grössere Teil an Daten scheint abgeschlossen von der Aussenwelt in eine Google-interne Datenbank zu fliessen.

Eine Team von 50 Software-Ingenieuren hat eine auf Freeweb basierte Datenbank geschaffen, die rund 200 Millionen Einträge enthält, erklärt das Wall Street Journal.

Mit der semantischen Technologie wird Google in der Lage sein, vermehrt Treffer zu liefern, die inhaltlich eine gewisse Ähnlichkeit den Treffern von Wolfram Alpha haben. Faktenbasierte Antworten. Da Google eine allgemeine Suchmaschine ist, geht es sicherlich nicht so tief in den technischen Bereich wie bei Wolfram Alpha. Googles Aufgabe besteht ja eher darin, die Allgemeinheit der Suchgemeinde zufrieden zu stellen.

Wenn statt bzw. zusätzlich zu langen Ergebnislisten konkrete Antworten auf der Ergebnisseite erscheinen, dann müssen diese Antworten vorher redaktionell geprüft sein. In Freebase wird das realisiert.

Eine erstaunlich hohe Genauigkeit von 99,9% wurde bei Freebase realisiert. Das erklärte damals Metaweb anlässlich der Übernahme durch Google. Der Wert dieser Daten ist also deutlich höher als Daten die einfach nur aus Webseiten extrahiert werden. Für die extrahierten Daten müssen die Nutzer selbst entscheiden wie genau, wie glaubhaft die Daten sind. Die semantischen Daten wurden bereits vor der Ausgabe auf Unstimmigkeiten überprüft.

Für Google muss ein eigener redaktioneller Prozess dafür sorgen, die Daten korrekt zu ermitteln. Extraktions-Algorithmen stellen später die Daten für die Beantwortung der Suchanfrage zusammen.

Wird beispielsweise nach einem See gesucht, können gleichzeitig seine “Attribute” angeboten werden. Ort, Höhe über dem Meeresspiegel, durchschnittliche Wasser und Lufttemperaturen usw.

Quellen für Freebase sind u.a. Wikipedia (englisch), Ellerdale, MySpace, Facebook, New York Times, Twitter, Hulu, Netflix. Wir können davon ausgehen, dass Google möglichst viele weitere Daten heranziehen wird, die aus öffentlich zugänglichen Datenbanken bereit gestellt werden. Das können beispielsweise Datenbanken von Behörden und Regierungsstellen sein.

Statt sich auf die semantische Auszeichnung von Webinhalten durch die Autoren der Inhalte zu verlassen, baut Google sich praktisch ein eigenes semantisches Abbild der Dinge.

Für Nutzer von Google verspricht die neue Technologie eine deutlich höhere Trefferqualität. Die Anzahl der semantisch aufbereiteten Treffer wird im Laufe der kommenden Jahre ganz gewiss zunehmen.