Texte aus Bildern extrahieren

Google beginnt an der eingefleischten Vorstellung zu rütteln, dass Bilder mit textlichen Inhalte für Suchmaschinen nicht lesbar sind. Texte in Bildern, die in PDF-Dateien im Internet veröffentlicht wurden, sind nicht mehr unsichtbar für Google. Die Technologie dafür ist altbekannt, aber selbst heute noch nicht fehlerfrei.

Optical Character Recognition (OCR) kennen viele Käufer von Scannern seit Jahren, denn vielen Scannern wurde eine Version der OCR Software hinzugefügt. Für den Hausgebrauch ist es durchaus zu verkraften, wenn die Erkennungsrate um die 90% liegt. Einem Anbieter wie Google, verzeihen die Nutzer kaum 10% Ungenauigkeit. Das mag ein Grund dafür sein, warum Google viele Jahre benötigte um die Technik in der Praxis einzusetzen. OCR liest ein bisschen ähnlich wie das menschliche Auge. Konturen von Buchstaben und Zahlen werden erkannt und in Text umgewandelt.
Für die Software ist es jedoch schwierig ähnliche Zeichen wie 0 und O zu unterscheiden. Für PDF-Dateien in englischer Sprache scheint nun ein Durchbruch erreicht. Erste Dokumente sind in den Google Ergebnislisten zu finden. Schaut man sich den HTML-Quelltext der PDF-Dateien an, wird deutlich, die Beschriftung in grafischen Darstellungen wurde berücksichtigt, ist sichtbar.
Zunächst werden US-Regierungsveröffentlichungen und akademische Werke erwähnt, denen die OCR-Erkennung zu mehr Sichtbarkeit im Web verhilft.

Offizielles Google Weblog: A picture of a thousands words?


Posted

in

by

Tags:

Comments

2 responses to “Texte aus Bildern extrahieren”

  1. Tekka Avatar

    Ankit hat dazu einige Beispiele gebracht, die aber nicht eindeutig sein. Informationen könnten auch aus den Eigenschaften des PDFs extrahiert wurden sein. Ich mache dazu gerade mal einen kleinen Test, aber ich denke, in Deutschland wird das Verfahren noch nicht im Einsatz sein.

  2. Klaus Avatar
    Klaus

    Ja gewiss können auch Infos aus dem PDF gewonnen werden. Ähnlich wie das Google mit HTML-Seiten tut. Das beschriebene OCR-Verfahren wandelt aber tatsächlich die Buchstaben im Bild in elektronischen Text um. Einfach mal die HTML-Version der PDF-Dateien ansehen. Dort ist der umgewandelte Text zu sehen. Bisher werden lediglich Bilder in PDF-Dateien ausgelesen. Bis diese Technik allgemein für alle im Internet veröffentlichten Texte in Bildern angewandt wird, dürfte noch einige Zeit vergehen.