Unser vielfältiger Sprachschatz bringt es mit sich, dass mitunter für eine Sache mehrere Worte als Bezeichnung dienen. Die unterschiedlichen Worte weisen jedoch (fast) immer Bedeutungsnuancen auf. Gerade das macht es für Technologien unheimlich schwer, die menschliche Sprache richtig zu interpretieren. Synonyme beeinflussen rund 70% aller Nutzeranfragen, in mehr als 100 von Google unterstützen Sprachen.
Das jetzige System zur Nutzung von Synonymen ist das Ergebnis 5-jähriger Forschungsarbeit, teilt uns Google mit.
Die Qualität der Synonymarbeit wird ständig überprüft. Während einer kürzlichen Prüfung der Zuverlässigkeit der Synonyme wurde bei jeder 50 Anfrage ein unkorrektes Synonym festgestellt (entspricht 2% aller Anfragen). Das ist keinesfalls perfekt, doch die Forscher bei Google zeigen deutlich ihren Stolz über dieses Ergebnis. Sprache zu verstehen bleibt eine der grössten Herausforderungen des Forschungsgebietes der künstlichen Intelligenz.
Beachtenswert ist, dass die Arbeit an der Synonymerkennung für die mehr als 100 Sprachen, welche von Google bedient werden, erfolgt.
Zunächst wurde bei Google alles das als Synonym angesehen, was sich auf den gleichen Wortstamm zurückführen lässt. Selbst dieses Verfahren birgt Schwierigkeiten in sich. Postamt, Postkarte und Posteingang haben einen gemeinsamen Bezug auf Sendungen die als Post bezeichnet werden.
Andere Worte die ebenfalls den Wortstamm “post” enthalten, lassens ich jedoch nicht darauf beziehen. Etwa Posten, Poster, Postskriptum oder Postulat. Für Menschen ist das ziemlich einfach, die Unterscheidungen richtig zu treffen. Wobei Poster nur dann eindeutig zu indentifizieren ist, wenn das Wort in einen entprechenden Bezug gesetzt wird. In der modernen deutschen Sprache, die insbesondere im technischen Bereich viele englische Begriffe enthält, kann ein Poster der Absender einer (in der Regel elektronischen) Nachricht (Posting) sein, aber auch das Poster, die plakatförmige bildliche Darstellung, welche oft ohne Bilderrahmen einfach an die Wand geheftet wird.
Zunächst wurden Synonyme bei Google manuell eingestellt, aus Wörterbüchern abgeleitet. Ein Job, der für mehr als 100 Sprachen wahnsinnig aufwendig ist. Deshalb wurden eine Bearbeitungsmöglichkeit entwickelt, die automatisch Synonyme erkennt. PetaByte von Webdokumenten sowie die maximal mögliche Anzahl historischer Suchanfragen (Webprotokolle) der Google-Nutzer wurden ausgewertet. Aus dem Suchverhalten der Nutzer lässt sich beobachten wie Nutzer die Anfragen verfeinern, ähnliche Worte verwenden, grammatische Feinheiten und Tippfehler korrigieren.
Im offizellen Google Blog sind nur Beispiele für die Nutzung von Synonymen in einglischer Sprache zu finden. Deshalb erscheint es müssig, diese Beispiele aufzuführen. Interessant ist jedoch ein Beipspiel, in dem die Abkürzung “bb” für sehr unterschiedliche Bedeutungen erkannt wird. Wird die Abkürzung in einer Suchanfrage mit mehreren Worte verwendet, ist die Wahrscheinlichkeit der richtigen Zuordnung hoch. “bb” kann demnach u.a. für Blackberry oder Bodybuilding stehen.
Falls Sie für eine ‘Suchanfrage unzufrieden mit dem Einsatz der Synonyme sind, können Sie deren Einsatz unterbinden.
Setzen Sie ein Pluszeichen (ohne Lerzeichen) vor ein Wort, oder den Suchbegriff in Anführungszeichen. Alternativ haben Sie die Möglichkeit, Ihre Unzufriedenheit und evtl. Korrekturvorschläge im Forum der Google Websuche (englisch) anzubringen.
Im Web:
Offizielles Google Blog: Helping Computers understand Language
Google Public Policy Blog: Making search better in Catalonia, Estonia, and everywhere else
Matt Cutts: More info about synonyms at Google
SEO by the Sea: Google Synonyms Update Dabei sind laut Google bei etwa 70% aller Nutzeranfragen Synonyme prädestiniert, eine Antwort zu geben.
SEO by the Sea: Google Synonyms Update