Moderne Suchmaschinen benötigen moderne Technologien. Es geht längst
nicht mehr nur darum das Suchwort haargenau in dieser Form wiederzufinden. Oft
wird der gesuchte Begriff umschrieben. Der linguistische Server tritt genau an
dieser Stelle an, um Suchende zu unterstützen.
Das Problem der Wortvarianten bei der Suche
In Dokumenten nach Begriffen suchen ist eine häufige Aufgabe in verschiedenen
Anwendungen, etwa Dokumentsammlungen, Archive, Kataloge oder im Internet. Ein
Problem besteht darin, dass der Suchbegriff auch in einer anderen Variante vorkommen
kann. Je nach Sprache ist die Anzahl der möglichen Varianten unterschiedlich:
Das Englische hat relativ wenige Wortvarianten, wohingegen das Deutsche sehr viele
Wortvarianten besitzt: zum englischen „car“ gibt es nur die Pluralform
„cars“, zu „city“ nur „cities“, zu „bird“
nur „birds“; deutsch: „Auto“ und „Autos“,
aber „Stadt“, „Städte“, „Städten“
und „Vogel“, „Vogels“, „Vögel“ und „Vögeln“.
Es sind also Varianten, die durch Anhängen von einem oder mehreren Buchstaben
entstehen, und Varianten, die auch im Innern eines Wortes bestehen. Während
der erste Typ noch relativ leicht durch Regeln erfasst und für die Suche
abgedeckt werden kann, muß im zweiten Fall der anderswertige Buchstabe (etwa
„ä“ and der Stelle des „a“) erkannt werden, was etwas
schwieriger zu bewerkstelligen ist.
Im Deutschen und in anderen Sprachen kommt zu der genannten Schwierigkeit noch
das Problem der Komposita hinzu, die sich gegenüber anderen Sprachen dadurch
auszeichnen, daß sie ohne Zwischenraum aneinandergeschrieben werden. Also
könnte in der Überschrift anstelle von „Wortvarianten“ auch
stehen: „die Varianten eines Wortes“. – Eine effektive Suche
sollte aber beide Vorkommen finden und als Resultat einer Suche nach „Wortvariante“
liefern können.
Das Gegenstück zu den zusammengeschriebenen Komposita sind die Mehrwortbegriffe,
die zwar aus einzelnen Wörtern bestehen, aber als ein einziges Wort aufzufassen
sind, etwa im Französischen „pomme de terre“ (Kartoffel). Eine
Suche nach dem Wort „pomme“ (Apfel) sollte nicht den Treffer „pomme
de terre“ liefern und umgekehrt. Für eine Übersetzung ist es unabdingbar,
Mehrwortkonstruktionen zu erkennen, denn sonst würde eine falsche Übersetzung
geliefert werden. Deshalb muss eine Mehrworterkennung derartige sprachliche Phänomene
identifizieren und korrekt zusammenführen.
Im Deutschen (und auch im Niederländischen) existiert eine neue Rechtschreibung
und eine alte Rechtschreibung. Die Menge der Dokumente, die nach der alten Rechtschreibung
verfasst sind, ist sicherlich noch größer als die Menge, die nach der
neuen Orthographie geschrieben sind. Zumindest ist eine große Tageszeitung
zur alten Rechtschreibung zurückgekehrt, so dass auch aktuelle Dokumente
sich nicht per Datum zu dieser oder jener Schreibart sortieren lassen. Doch eine
Suche in Dokumenten sollte unabhängig Treffer nach alter und neuer Orthographie
finden, gleich wie der Suchbegriff formuliert wurde: Soll man nach „Delfin“
oder „Delphin“ suchen, nach „Schiffahrt“ oder nach „Schifffahrt“.
Aber auch früher gab es bereits nebeneinander bestehende Varianten, etwa
„Telefon“ und „Telephon“. Weiterhin gibt es immer noch
Bestände, in denen etwa die deutschen Umlaute in expandierter Form notiert
sind („ae“ für „ä“, usw.). Und im Schweizerdeutschen
gibt es kein „ß“ und schon immer die Schreibung mit drei „s“.
Holen wir noch ein wenig weiter aus, so stossen wir auf die Synonyme, die Wortfamilien
und die assoziierten Begriffe. Dies sind Beziehungen zwischen einzelnen Begriffen,
wie „Abbau“ / „Abbruch“ / „Demontage“ (Synonyme)
, „Gehalt“ / „Lohn“ (assoziierte Begriffe) und „Entwickler“
/ „entwickeln“ / „Entwicklung“ (Wortfamilie).
Denkt man an Datenbestände, die sich typischerweise in Bibliothekskatalogen
befinden, so muss auch eine mehrsprachige Suche ins Auge gefasst werden, denn
in den meisten Bibliotheken bestehen die Titel nicht nur aus einer einzigen Sprache,
sondern auch aus anderen Sprachen, deren Sprachmischung je nach Bibliothek unterschiedlich
ist. Manchmal muss auch für einen Titel zunächst festgestellt werden,
in welcher Sprache der Titel verfasst ist, um später die richtigen Varianten
feststellen zu können.
EXTRAKT stützt sich im wesentlichen auf sehr grosse Wörterbücher
(bis zu einer Million Wortformen), und zusätzlich auf algorithmische Verfahren,
die sowohl aus der Computerlinguistik als auch aus der Statistik herrühren.
Es werden Resultate aus zum Teil jahrzehntelanger Forschung und Entwicklung in
nationalen (deutschen) und internationalen (europäischen) Projekten genutzt.
Der Linguistic Server EXTRAKT
Im Allgemeinen dient die Grundform eines Wortes als zentrale Einheit, über
die die oben genannten verschiedenen Beziehungen aufgebaut werden können.
Eine Grundform ist eine Wortform, die für die unterschiedlichen Formen desselben
Wortes steht. Beispielsweise ist Haus die Grundform für Haus, Hauses, Hause,
Häuser und Häusern. Gehen ist die Grundform für alle Formen dieses
Tätigkeitsworts, gehen steht also für gehe, gehst, geht, ging, gegangen,
etc.
In EXTRAKT werden diese Beziehungen im Falle einsprachiger Daten in sog. Vollformenwörterbüchern
verwaltet. Alle Formen müssen im Wörterbuch stehen und brauchen nicht
über einen Regelapparat abgeleitet oder erzeugt werden. Die Wörterbücher
werden zwar sehr gross, die Verarbeitung ist jedoch schneller, da keine Regeln
abgearbeitet werden müssen, um beispielsweise eine Form über Stamm,
Endung und Kompatiblitätsinformationen zu analysieren.
Die Eingabedaten für die Wörterbücher werden durch ein Programm
in einen kompakte Form gebracht, die in den Arbeitsspeicher geladen wird. Diese
Wörterbuchform bedingt, dass der Zugriff auf eine Wortform nicht von der
Anzahl der Einträge im Wörterbuch abhängt, sondern nur von der
Länge des untersuchten Wortes. Dadurch wird also die Anzahl der Wörterbucheinträge
für die Zugriffsgeschwindigkeit irrelevant.
EXTRAKT deckt folgende Sprachen ab:
Deutsch, Englisch, Französisch, Italienisch, Niederländisch, Portugiesisch
und Spanisch.
Die Grösse der dazugehörenden Wörterbücher schwankt zwischen
ca. 110.000 für Niederländisch (im Aufbau) und 2 Millionen (fürs
Deutsche).
Zweisprachige Wörterbücher, die eine mehrsprachige Suche ermöglichen,
gibt es für verschiedene Sprachpaare, die jeweils 32.000 bis 135.000 Einträge
enthalten. Die Sprachpaare sind jeweils die o.g. Sprachen als Quellsprache und
Englisch als Zielsprache. Weiterhin sind die Sprachpaare Deutsch-Französisch
und Deutsch-Italienisch vorhanden. Für Niederländisch und Portugiesisch
sind die Übersetzungswörterbücher erst im Aufbau.
Weitere Sprachen in Planung: Polnisch, Türkisch, Tagalog. Für Latein
und Griechisch gibt es Kooperationen mit Partnern.
Als Spezialwörterbücher sind lexikographische Bestände aus
den Bereichen Wirtschaft, Umwelt und Psychologie verfügbar. Für das
Deutsche gibt es ein Wörterbuch mit 16.000 Begriffen aus Wortfamilien und
ca. 50.000 Synonymen. Ein Thesaurus ergänzt das Angebot. Weitere Synonym-Wörterbücher
gibt es für Englisch und Französisch.
Private Wörterbücher können vom Kunden selbst angelegt und in das
System eingefügt werden.
EXTRAKT wurde mit der (sehr schnellen) Generierungsfunktion GENERATE ausgestattet,
es wird eine Suche mit den Varianten eines gegebenen Wortes möglich. Also
kann das Wort "Hauses" (Genitiv Singular) eingegeben werden und GENERATE
erzeugt daraus die Grundform Haus sowie die flektierten Formen Hause, Hauses,
Häuser und Häusern, sowie die Umlautformen Haeuser und Haeusern. Für
jede der von EXTRAKT abgedeckten Sprachen kann diese Funktion eingesetzt werden,
da alle notwendigen Informationen in den Wörterbüchern enthalten sind.
Der Nutzen der GENERATE-Funktion besteht darin, dass der Index der Daten, in denen
gesucht wird, nicht durch die Grundformen angereichert werden muss, um die gewünschten
Such-Resultate zu erhalten.
Extrakt in der Suchmaschine Scoutmaster
Die Suchmaschine Scoutmaster.de enthält die o.g. EXTRAKT-Funktion GENERATE,
mit der zu einer Wortform alle dazugehörigen Wortvarianten hinzugefügt
und in der Recherche berücksichtigt werden. So wird bei der Eingabe von "Hand"
auch "Hände" gesucht… Diese Funktion ist bei Scoutmaster
in der Online-Version unter dem Menüpunkt Linguistische Verwandschaft mit
den Optionen Wortanalyse, Wortformen, Phonetik zu finden.
Das @-web Verzeichnis der wichtigsten Suchmaschinen mit URL zum Anmelden neuer
Webseiten.
Webverzeichnisse und Metasucher: Suchmaschinenverzeichnis
27.06.2003
Seitenbeginn