Nun schickt sich die Suchmaschine Google offenbar an, in das "unsichtbare
Web" einzusteigen.
PDF-Dateien sind bis heute nur durch wenige Suchdienste zugänglich. (PDF
- portable document format)
Seit längerer Zeit kann bei Adobe
nach diesem Dokumenttyp gesucht werden (@-web berichtete im Mai
2000). Adobe's Testplattform basierte auf der Technik von Altavista.
Altavista hat auf dem Gebiet der PDF-Indexierung einen Vorsprung, von dem sogar
die deutschsprachige Suchmaschine Fireball profitiert.
Mit der neuen Technologie "Altavista Search Engine 3.0" kann
Fireball Wissen neben HTML, Text, Word, RTF und Postscript-Dateien, nach PDF-Dateien
suchen.
Google indexiert schon seit einiger Zeit PDF-Dateien und kann nun einen Bestand
von weltweit mehr als 13 Mill. PDF-Dateien vorweisen.
Um PDF-Dateien im Volltext erfassen zu können, ist neben einer aufwendigeren
Technik ein grösserer Index erforderlich. PDF-Dateien werden gerne für
Produktbeschreibungen und wissenschaftliche Veröffentlichungen verwendet.
Diese Publikationen sind viele Seiten lang. Sie beinhalten pro Dokument im Schnitt
wesentlich mehr Informationen als eine HTML-Seite, mitunter mehrere hundert Seiten.
Derzeitige Ergebnisse weisen noch einen Mangel auf. Titelbeschreibungen der PDF-Datei
sind meistens nicht vorhanden. Bei Google wird an diesem Problem gearbeitet.
Wenn Sie "suchmaschinen pdf" in die Suchmaske eingeben, beginnt die
Ergebnisliste wie folgt:
Die Suche nach PDF-Dateien wird erleichtert, wenn Sie den Suchbegriff mit ".PDF"
ergänzen. dann finden Sie ganz gezielt PDF-Dateien.
Suchen Sie beispielsweise nach Rezepten überlegen Sie sich bitte vorher welcher
Rezepttyp es sein soll. Suchen Sie beispielsweise nach Kochrezepten Geben Sie
bitte (ohne Anführungszeichen) ein:
"Kochrezepte .pdf"
Nun gut, Sie werden kaum komplette Kochbücher finden. Kochrezept wird ebend
oft als Synonym für "Anleitung"
verwendet.
Sie können zusätzlich Textversionen der Dateien einsehen. Mit den Textversionen
kann Google die Ergebnisse wie gewohnt Kontextbezogen anzeigen. Das heisst es
werden einige Worter vor und hinter dem gesuchten Wort eingeblendet. Die Suchenden
können somit gut entscheiden, ob sich die Seite wirklich mit dem Suchbegriff
beschäftigt.
Grafische Elemente und sogenannte Steuerzeichen der PDF-Datei gehen bei der Konvertierung
in die Textform verloren.
Anwendungen mit der Google Suchfunktion
programmieren
Weitere Google-Beiträge:
Das @-web Verzeichnis der wichtigsten Suchmaschinen mit URL zum Anmelden neuer
Webseiten.
Webverzeichnisse und Metasucher: Suchmaschinenverzeichnis
14.03.2001