PDF - heisst Portable Document Format und ist Quasi-Standard für ein
Dateiformat das unabhängig von Betriebssystemen verwendet werden kann.
PDF-Dateien werden beispielsweise für Handbücher, Forschungs- und Firmenberichte,
Produkt und Marketingberichte verwendet.
Mit einem kostenlos erhältlichen Zusatzprogramm dem Acrobat-Reader
können diese Dateien betrachtet werden.
Das Programm Ghostscript
fällt unter die Free Public License es kann deshalb kostenfrei benutzt werden.
Mit diesem Programm können PDF-Dokumente erstellt werden.
Doch wie findet man diese Dateien, wie kann man deren Inhalte durchsuchen ?
Viele normale Suchmaschinen versagen bisher bei diesem Anspruch. Da hilft nur
ein Spezialist. Adobe als "Erfinder" der PDF-Dateien bietet einen Suchdienst
der die weltweite Suche in über 1 Mill. PDF-Dokumenten ermöglicht.
Adobe erklärt zwar, dass dieser Service nur für Demonstrationszwecke
zur Verfügung steht, die Ergebnisse können sich durchaus sehen lassen.
Wie bei normalen Suchmaschinen erscheint eine Ergebnisliste mit Titel, URL und
einer Beschreibungszeile.
Bevor man das gefundene PDF-Dokument herunterlädt gibt es auf einer separaten
Seite folgende Informationen:
- URL zum Download der Datei
- Titel der Datei
- Erstellungsdatum
- Seitenanzahl
- Download-Dauer (für ein 56k Modem)
- Gesamtgrösse der Datei in Byte
- Summary - Zusammenfassung des Textinhaltes
Ein Auszug der mehrere Sätze umfasst gibt Einblick in die Thematik der PDF-Datei.
Probleme gibt es bei der Darstellung von Umlauten.
- Keywords- Es ist nicht ganz klar wie diese extrahiert werden.
Die Schlüsselworte sind nicht sehr hilfreich da auch allgemeine Worte wie
"die, und, von,..." herangezogen werden.
Die zu jedem indexierten PDF-Dokument vorhandene Beschreibungsseite liegt als
HTML-Datei vor und ist für kommerzielle Suchmaschinen lesbar. Es ist jedoch
fraglich ob dieser grosse Datenbestand von den Suchmaschinen in Ihren Index eingepflegt
wird.
Mit dieser Einrichtung wird ein Problem gelöst um PDF-Dateien im WWW zu durchsuchen
und dort enthaltene Informationen zu finden.
Die Suchtechnik stammt von AltaVista
so dass zu erwarten ist, dass dort die Suche nach PDF-Dokumenten bald möglich
sein wird.
goBCL
Ein Service der die direkte Umwandlung von HTML-Dateien bis zu 5 MB Grösse
über das Webinterface kostenlos ermöglicht. Die Anzahl der umzuwandelnden
Dateien ist unbegrenzt: goBCL
Spywarecheck - Listet
PC-Programme mit spionierender Bannersoftware
Das @-web Verzeichnis der wichtigsten Suchmaschinen mit URL zum Anmelden neuer
Webseiten.
Webverzeichnisse und Metasucher: Suchmaschinenverzeichnis
Letzte Änderung: 11.05.2001