Suchmaschine, Webverzeichnisse, Wissensportale, Meta-Suchmaschinen
 
 
 
 

   Suchmaschinen
   Startseite

   Suchmaschinen
   Weblog



 Suchmaschinen:
  deutschsprachig
  international
  Meta-
   Suchdienste

  Spezialisten
  Pay-Search
 Webverzeichnisse:
  Webverzeichnisse

 Weitere Suchquellen:
  Bildersuche
  Deep Web
   Lexika
   communities
   human-answer
   Such-Hilfen
   Touren durchs
   Web


 Basics:
  Grundlagen
  Suchmaschinen -
   Optimierung

  tricky
  Such-
   Technologien

  Domain-Namen

 Informationen:
  Archiv
  Bücher
  Informationen
  Live-Suche
  Recherche

 Hilfsmittel:
  Desktop-
   Suchmaschinen

  Suchagenten
  Suchboard
  Suchdienste-
   Verzeichnis

  Toolbars
  Website- Suche
 Spezial:
  Downloads

  Kontakt

Seitenbeginn








Linguistischer Server - EXTRAKT


Moderne Suchmaschinen benötigen moderne Technologien. Es geht längst nicht mehr nur darum das Suchwort haargenau in dieser Form wiederzufinden. Oft wird der gesuchte Begriff umschrieben. Der linguistische Server tritt genau an dieser Stelle an, um Suchende zu unterstützen.

Das Problem der Wortvarianten bei der Suche

In Dokumenten nach Begriffen suchen ist eine häufige Aufgabe in verschiedenen Anwendungen, etwa Dokumentsammlungen, Archive, Kataloge oder im Internet. Ein Problem besteht darin, dass der Suchbegriff auch in einer anderen Variante vorkommen kann. Je nach Sprache ist die Anzahl der möglichen Varianten unterschiedlich: Das Englische hat relativ wenige Wortvarianten, wohingegen das Deutsche sehr viele Wortvarianten besitzt: zum englischen „car“ gibt es nur die Pluralform „cars“, zu „city“ nur „cities“, zu „bird“ nur „birds“; deutsch: „Auto“ und „Autos“, aber „Stadt“, „Städte“, „Städten“ und „Vogel“, „Vogels“, „Vögel“ und „Vögeln“.

Es sind also Varianten, die durch Anhängen von einem oder mehreren Buchstaben entstehen, und Varianten, die auch im Innern eines Wortes bestehen. Während der erste Typ noch relativ leicht durch Regeln erfasst und für die Suche abgedeckt werden kann, muß im zweiten Fall der anderswertige Buchstabe (etwa „ä“ and der Stelle des „a“) erkannt werden, was etwas schwieriger zu bewerkstelligen ist.

Im Deutschen und in anderen Sprachen kommt zu der genannten Schwierigkeit noch das Problem der Komposita hinzu, die sich gegenüber anderen Sprachen dadurch auszeichnen, daß sie ohne Zwischenraum aneinandergeschrieben werden. Also könnte in der Überschrift anstelle von „Wortvarianten“ auch stehen: „die Varianten eines Wortes“. – Eine effektive Suche sollte aber beide Vorkommen finden und als Resultat einer Suche nach „Wortvariante“ liefern können.

Das Gegenstück zu den zusammengeschriebenen Komposita sind die Mehrwortbegriffe, die zwar aus einzelnen Wörtern bestehen, aber als ein einziges Wort aufzufassen sind, etwa im Französischen „pomme de terre“ (Kartoffel). Eine Suche nach dem Wort „pomme“ (Apfel) sollte nicht den Treffer „pomme de terre“ liefern und umgekehrt. Für eine Übersetzung ist es unabdingbar, Mehrwortkonstruktionen zu erkennen, denn sonst würde eine falsche Übersetzung geliefert werden. Deshalb muss eine Mehrworterkennung derartige sprachliche Phänomene identifizieren und korrekt zusammenführen.

Im Deutschen (und auch im Niederländischen) existiert eine neue Rechtschreibung und eine alte Rechtschreibung. Die Menge der Dokumente, die nach der alten Rechtschreibung verfasst sind, ist sicherlich noch größer als die Menge, die nach der neuen Orthographie geschrieben sind. Zumindest ist eine große Tageszeitung zur alten Rechtschreibung zurückgekehrt, so dass auch aktuelle Dokumente sich nicht per Datum zu dieser oder jener Schreibart sortieren lassen. Doch eine Suche in Dokumenten sollte unabhängig Treffer nach alter und neuer Orthographie finden, gleich wie der Suchbegriff formuliert wurde: Soll man nach „Delfin“ oder „Delphin“ suchen, nach „Schiffahrt“ oder nach „Schifffahrt“. Aber auch früher gab es bereits nebeneinander bestehende Varianten, etwa „Telefon“ und „Telephon“. Weiterhin gibt es immer noch Bestände, in denen etwa die deutschen Umlaute in expandierter Form notiert sind („ae“ für „ä“, usw.). Und im Schweizerdeutschen gibt es kein „ß“ und schon immer die Schreibung mit drei „s“.

Holen wir noch ein wenig weiter aus, so stossen wir auf die Synonyme, die Wortfamilien und die assoziierten Begriffe. Dies sind Beziehungen zwischen einzelnen Begriffen, wie „Abbau“ / „Abbruch“ / „Demontage“ (Synonyme) , „Gehalt“ / „Lohn“ (assoziierte Begriffe) und „Entwickler“ / „entwickeln“ / „Entwicklung“ (Wortfamilie).

Denkt man an Datenbestände, die sich typischerweise in Bibliothekskatalogen befinden, so muss auch eine mehrsprachige Suche ins Auge gefasst werden, denn in den meisten Bibliotheken bestehen die Titel nicht nur aus einer einzigen Sprache, sondern auch aus anderen Sprachen, deren Sprachmischung je nach Bibliothek unterschiedlich ist. Manchmal muss auch für einen Titel zunächst festgestellt werden, in welcher Sprache der Titel verfasst ist, um später die richtigen Varianten feststellen zu können.

EXTRAKT stützt sich im wesentlichen auf sehr grosse Wörterbücher (bis zu einer Million Wortformen), und zusätzlich auf algorithmische Verfahren, die sowohl aus der Computerlinguistik als auch aus der Statistik herrühren. Es werden Resultate aus zum Teil jahrzehntelanger Forschung und Entwicklung in nationalen (deutschen) und internationalen (europäischen) Projekten genutzt.

Der Linguistic Server EXTRAKT

Im Allgemeinen dient die Grundform eines Wortes als zentrale Einheit, über die die oben genannten verschiedenen Beziehungen aufgebaut werden können.
Eine Grundform ist eine Wortform, die für die unterschiedlichen Formen desselben Wortes steht. Beispielsweise ist Haus die Grundform für Haus, Hauses, Hause, Häuser und Häusern. Gehen ist die Grundform für alle Formen dieses Tätigkeitsworts, gehen steht also für gehe, gehst, geht, ging, gegangen, etc.

In EXTRAKT werden diese Beziehungen im Falle einsprachiger Daten in sog. Vollformenwörterbüchern verwaltet. Alle Formen müssen im Wörterbuch stehen und brauchen nicht über einen Regelapparat abgeleitet oder erzeugt werden. Die Wörterbücher werden zwar sehr gross, die Verarbeitung ist jedoch schneller, da keine Regeln abgearbeitet werden müssen, um beispielsweise eine Form über Stamm, Endung und Kompatiblitätsinformationen zu analysieren.

Die Eingabedaten für die Wörterbücher werden durch ein Programm in einen kompakte Form gebracht, die in den Arbeitsspeicher geladen wird. Diese Wörterbuchform bedingt, dass der Zugriff auf eine Wortform nicht von der Anzahl der Einträge im Wörterbuch abhängt, sondern nur von der Länge des untersuchten Wortes. Dadurch wird also die Anzahl der Wörterbucheinträge für die Zugriffsgeschwindigkeit irrelevant.
EXTRAKT deckt folgende Sprachen ab:
Deutsch, Englisch, Französisch, Italienisch, Niederländisch, Portugiesisch und Spanisch.

Die Grösse der dazugehörenden Wörterbücher schwankt zwischen ca. 110.000 für Niederländisch (im Aufbau) und 2 Millionen (fürs Deutsche).
Zweisprachige Wörterbücher, die eine mehrsprachige Suche ermöglichen, gibt es für verschiedene Sprachpaare, die jeweils 32.000 bis 135.000 Einträge enthalten. Die Sprachpaare sind jeweils die o.g. Sprachen als Quellsprache und Englisch als Zielsprache. Weiterhin sind die Sprachpaare Deutsch-Französisch und Deutsch-Italienisch vorhanden. Für Niederländisch und Portugiesisch sind die Übersetzungswörterbücher erst im Aufbau.
Weitere Sprachen in Planung: Polnisch, Türkisch, Tagalog. Für Latein und Griechisch gibt es Kooperationen mit Partnern.

Als Spezialwörterbücher sind lexikographische Bestände aus den Bereichen Wirtschaft, Umwelt und Psychologie verfügbar. Für das Deutsche gibt es ein Wörterbuch mit 16.000 Begriffen aus Wortfamilien und ca. 50.000 Synonymen. Ein Thesaurus ergänzt das Angebot. Weitere Synonym-Wörterbücher gibt es für Englisch und Französisch.
Private Wörterbücher können vom Kunden selbst angelegt und in das System eingefügt werden.

EXTRAKT wurde mit der (sehr schnellen) Generierungsfunktion GENERATE ausgestattet, es wird eine Suche mit den Varianten eines gegebenen Wortes möglich. Also kann das Wort "Hauses" (Genitiv Singular) eingegeben werden und GENERATE erzeugt daraus die Grundform Haus sowie die flektierten Formen Hause, Hauses, Häuser und Häusern, sowie die Umlautformen Haeuser und Haeusern. Für jede der von EXTRAKT abgedeckten Sprachen kann diese Funktion eingesetzt werden, da alle notwendigen Informationen in den Wörterbüchern enthalten sind.
Der Nutzen der GENERATE-Funktion besteht darin, dass der Index der Daten, in denen gesucht wird, nicht durch die Grundformen angereichert werden muss, um die gewünschten Such-Resultate zu erhalten.

Extrakt in der Suchmaschine Scoutmaster

Die Suchmaschine Scoutmaster.de enthält die o.g. EXTRAKT-Funktion GENERATE, mit der zu einer Wortform alle dazugehörigen Wortvarianten hinzugefügt und in der Recherche berücksichtigt werden. So wird bei der Eingabe von "Hand" auch "Hände" gesucht… Diese Funktion ist bei Scoutmaster in der Online-Version unter dem Menüpunkt Linguistische Verwandschaft mit den Optionen Wortanalyse, Wortformen, Phonetik zu finden.

Mehr Infos zu Extrakt: Textect Software

Suchmaschine: Scoutmaster


Alle Beiträge zu Suchtechnologien:
360 Powered Tagesaktueller Index des gesamten Web
Alert - Project Suche in Internet, TV, Hörfunk, Printmedien
Anacubis Visualisierung der Google Suche und andere, wie Amazon
AudioMining Macht Audio- und Videotexte durchsuchbar
EXTRAKT Suche mit Wortvarianten, linguistischer Server
Fact®Finder Unscharfe Suche
GFS Versteht Zusammenhänge, hinterfragt
Gridpatrol Monitoring des gesamten Internet
Grub Weltweiter, tagesaktueller Index
Guidebeam Echtzeitverzeichnis zur Begriffsfindung
Inktomi Weltweiter Datenbestand für viele Suchdienste
iFinder MPEG-7 für Multimedia Suchmaschinen
iLOR SEARCH Ergänzt Suchmaschinenergebnisse mit zusätzlichen Features
iPhrase Produkt Such-Technologie
Kartoo Eingängige Visualiserung der Ergebnisse im Kartenformat
LexiBot Abfrage riesiger Datenbestände im Deep Web
Music Genome Project Findet Musikmuster nach persönlichen Vorlieben
MySpiders Echtzeit Suchmaschine
Notify! Musiksuchmaschine, findet Töne
Oingo Suchbegriffe präzisieren
OptiQu Visualisierung der Ergebnisse als Thumbnail in Echtzeit
P@noptic Intranet Suchmaschine
Peoplefinder Menschen finden und treffen
Robocast Slideshow durch das Web
SmartSpell Fehlertolerantes Suchen
Singingfish Multimedia Suche
Thebrain Visualisierung von Datenstrukturen
TurboSearch Natural language - Modul
web-lookup Echtzeitvorschau der Suchergebnisse
With1Click Eine Innovation ?
   
Netvention Ein E-Mail Grabber, nennt sich Suchmaschine
miner3D Dreidimensionale Ergebnisanzeige




Das @-web Verzeichnis der wichtigsten Suchmaschinen mit URL zum Anmelden neuer Webseiten.
Webverzeichnisse und Metasucher:
Suchmaschinenverzeichnis

27.06.2003


Ihre Meinung, Hinweise, Anregungen:
(Für Antwort E-Mail Adresse angeben !)



Seitenbeginn






© copyright @-web 1999-2012
Impressum
@-web



 



Translate
this
page

Hier den kostenlosen
Suchmaschinen
Newsletter
bestellen!