PDF-Suche – Suchmaschine für PDF-Dateien

Suchmaschine für PDF- Dateien. PDF – heisst Portable Document Format und ist Quasi-Standard für ein Dateiformat das unabhängig von Betriebssystemen verwendet werden kann.

PDF-Dateien werden beispielsweise für Handbücher, Forschungs- und Firmenberichte, Produkt und Marketingberichte verwendet.

Mit einem kostenlos erhältlichen Zusatzprogramm dem Acrobat-Reader können diese Dateien betrachtet werden.

Das Programm Ghostscript fällt unter die Free Public License es kann deshalb kostenfrei benutzt werden. Mit diesem Programm können PDF-Dokumente erstellt werden.
Doch wie findet man diese Dateien, wie kann man deren Inhalte durchsuchen ?

Viele normale Suchmaschinen versagen bisher bei diesem Anspruch. Da hilft nur ein Spezialist. Adobe als “Erfinder” der PDF-Dateien bietet einen Suchdienst der die weltweite Suche in über 1 Mill. PDF-Dokumenten ermöglicht.
Adobe erklärt zwar, dass dieser Service nur für Demonstrationszwecke zur Verfügung steht, die Ergebnisse können sich durchaus sehen lassen. Wie bei normalen Suchmaschinen erscheint eine Ergebnisliste mit Titel, URL und einer Beschreibungszeile.
Bevor man das gefundene PDF-Dokument herunterlädt gibt es auf einer separaten Seite folgende Informationen:

– URL zum Download der Datei
– Titel der Datei
– Erstellungsdatum
– Seitenanzahl
– Download-Dauer (für ein 56k Modem)
– Gesamtgrösse der Datei in Byte
– Summary – Zusammenfassung des Textinhaltes
Ein Auszug der mehrere Sätze umfasst gibt Einblick in die Thematik der PDF-Datei.
Probleme gibt es bei der Darstellung von Umlauten.
– Keywords- Es ist nicht ganz klar wie diese extrahiert werden.
Die Schlüsselworte sind nicht sehr hilfreich da auch allgemeine Worte wie “die, und, von,…” herangezogen werden.

Die zu jedem indexierten PDF-Dokument vorhandene Beschreibungsseite liegt als HTML-Datei vor und ist für kommerzielle Suchmaschinen lesbar. Es ist jedoch fraglich ob dieser grosse Datenbestand von den Suchmaschinen in Ihren Index eingepflegt wird.

Mit dieser Einrichtung wird ein Problem gelöst um PDF-Dateien im WWW zu durchsuchen und dort enthaltene Informationen zu finden.
Die Suchtechnik stammt von AltaVista so dass zu erwarten ist, dass dort die Suche nach PDF-Dokumenten bald möglich sein wird.

Zur PDF-Suchmaschine:
Search Adobe PDF Online http://searchpdf.adobe.com/

Weitere Suchmaschinen, die PDF-Dateien finden:
Fireball-Wissen, Google, Scirus

PDF online, ehemals “goBCL”
Ein Service der die direkte Umwandlung von HTML-Dateien bis zu 5 MB Grösse über das Webinterface kostenlos ermöglicht. Die Anzahl der umzuwandelnden Dateien ist unbegrenzt:
PDF online

Comments

Leave a Reply