Wie funktioniert OCR in Ubuntu?

Wenn Sie Dokumente in Ihren Computer einscannen, stellen Sie möglicherweise fest, dass einige der grundlegenden Funktionen von PDF-Readern - z. B. Suchen oder Hervorheben - für die gescannten Dokumente nicht funktionieren. Das bedeutet, dass Sie ein OCR-Programm (Optical Character Recognition) benötigen, das den eigentlichen Text - im Gegensatz zu einem Bild des Texts - in den Computer einlesen kann. Das Ubuntu-Betriebssystem bietet einige Programme zur Erleichterung von OCR-Vorgängen, die alle in den Ubuntu-Repositorys verfügbar sind.

Optische Zeichenerkennung

Die optische Zeichenerkennung ist die Software, mit der Text aus Bildern erkannt und in ein Dokument eingefügt wird. Wenn Sie Objekte wie Bücher in einen Computer scannen, speichert der Scanner den gescannten Inhalt als Bild. Die OCR-Software scannt das Buch und erkennt den Unterschied zwischen Zeichen und Bildern sowie zwischen den Zeichen selbst, so dass aus Büchern gescannte Dokumente aus Text und nicht aus einem Bild des Textes bestehen. Dadurch kann die PDF-Software den gescannten Text durchsuchen und kommentieren.

Ubuntu OCR-Pakete

In der Ubuntu-Distribution von Linux sind viele OCR-Pakete verfügbar. Sie können Pakete wie Tessaract und Cuneiform entweder über das Ubuntu-Repository oder andere OCR-Softwarepakete installieren. Beachten Sie, dass OCR-Programme wie Tessaract und CuneiForm keine grafischen Benutzeroberflächen (GUIs) enthalten. OCRFeeder verfügt zwar über eine grafische Benutzeroberfläche, es fehlt jedoch die Genauigkeit der Tessaract- und CuneiForm-OCR-Programme.

Tessarakt und Keilschrift

Tessaract wurde 1985 von HP Labs entwickelt und 2005 als Open Source-Code veröffentlicht. Tessaract erkennt Layout und Design (z. B. mehrspaltige Dokumente) und Zeichen aus etwa 40 Sprachen. CuneiForm wurde von Cognitive Technologies entwickelt und bietet sowohl Windows- als auch Linux-Versionen. CuneiForm hat keine grafische Schnittstellenkomponente, kann jedoch in anderen GUIs wie OCRFeeder ausgeführt werden. Tessaract verwendet unkomprimierte TIFF-Dateien als Eingabe und wird wie im folgenden Beispiel von der Befehlszeile aus ausgeführt:

$> tessaract testpdf.tif output.txt

OCRFeeder

OCRFeeder erledigt die OCR-Aufgaben nicht selbst, sondern setzt dazu sogenannte OCR-Engines ein. Dies bedeutet, dass Sie OCRFeeder für die Verwendung von Tessaract, CuneiForm oder anderen OCR-Programmen aktivieren können. Auf diese Weise können Sie ein OCR-Programm über das Ubuntu-Repository installieren. Anschließend können Sie OCRFeeder auf die gleiche Art und Weise installieren, um dieses OCR-Programm zu lokalisieren und seine Befehle über die grafische Benutzeroberfläche von OCRFeeder auszuführen.