Gscan2pdf erreicht 1.8.5 – ein OCR-Test

Das letzte Gscan2pdf-Update machte mich neugierig, da steht was von OCR, also dem automatisierten Erkennen von gescann­ten Texten. Dieses grafische Frontend (es gibt es unter Linux nicht so viele) habe ich gleich ausgetestet. Die Fähig­kei­ten zum Scannen und der Verarbeitung zu PDF (Gscan2pdf bietet eine Menge nützlicher Optionen an) bespreche ich hier nicht.

Installation per PPA

Wie immer bevorzuge ich die Installation per PPA, um an die aktuelle Version zu gelangen, denn die offiziellen Linux(-Mint) Repositories hängen hinterher. Die PPA des Developers hält Packages für Ubuntu-Versionen 12.04 bis 17.10 bereit. Also Terminal auf und nach­einander eingeben:
sudo add-apt-repository ppa:jeffreyratcliffe/ppa
sudo apt-get update
sudo apt-get install gscan2pdf

Basisprogramm und Extra

Eine Grundlage (es gibt noch andere Optionen) von Gscan2pdf Texterkennung ist u.a. Tesseract-ocr. Voraussetzung für eine vernünftige Textanalyse durch das Programm ist die Installation von passenden Sprachdateien, etwa -eng, -fra oder -deu-frak = Fraktur-Erkennung ;-). Wir installieren das Deutschpaket nach, da die von Gscan2pdf mit­ge­lieferte Englisch­version nicht ausreicht (z.B. würden bei einer OCR Umlaute nicht erkannt):
sudo apt-get install tesseract-ocr-deu

Anwendung

Motivation für OCR war mein Vorhaben, alte C’t Artikel zu scannen und platzsparend textlich abzulegen. Vorweg: der Bottleneck eines OCR-Scans ist die Geschwindigkeit deines Scanners. Ich musste in sehr hoher Auflösung (1200 dpi) scannen, um fehlerlose OCR-Verarbeitung zu erreichen. Das hat mit einem Canon LIDE200 pro A4-Seite ein paar Minuten gedauert. Besser wäre für diese Auflösung eine Zeit < 1 Minute gewesen.

Vorgehen

1.Scan

Nach dem Start des Programms und dem Anschluss des Scanners nebst Auflage einer C’t-Probeseite startet man unter dem Menupunkt Datei > Scannen. Es erscheint zunächst ein Voreinstellungen-Fenster, was man unbedingt beachten sollte, denn sonst kommt es zu Fehlbedienung. Man geht die einzelnen Reiter durch. Zum Abschluss (siehe rechts oben bei Nummer 3) kann man alle Einstellungen unter einem entsprechenden Namen speichern – sehr gut! Einstellung Nummer 1 legt die Scanengine fest. Nach meinen Versuchen funktioniert Tesseract am besten, deswegen einstellen. Punkt 2 – unbedingt einzuhalten – ist die Wahl einer korrekten Sprache, die im Sprach-Pulldown zur Wahl steht, sofern man diese wie oben beschrieben installiert hat.
Im Tab ›Scanmodus‹ finden sich weitere wichtige Voreinstellungen. Ich habe soweit mit Graustufeneinstellungen gearbeitet, obwohl ein Scan mit mehr Informationen, also zum Beispiel Farbe, besser zu bearbeiten geht, aber länger braucht. Die Bittiefe liegt auf ›8‹ – höher geht bei mir nicht. Die Scanauflösung lege ich auf sehr feine 1200 DPI. Alle Werte darunter, auch wenn diese zum Beispiel im Druckbereich (z.B. 150 DPI) oder für Fotos dicke ausreichen, brachten unbrauchbare OCR-Ergebnisse.

2. Scanvorgang und Texterkennung

Scannen dauert bei der gewählten hohen Auflösung recht lange, kann sein, dass ein moderner Scanner nur müde lächelt über meine Zeiten… Nach dem Scan erscheint im Hauptfenster eine Vorschau. Hier sollte man mit Extra-Werkzeug einen Bereich auf­ziehen & beschneiden, der zur Texterkennung dient, damit es schneller geht.

3. OCR

Der Vorgang der Texterkennung läuft je nach Rechen­power recht schnell durch. Man kann in einem Extrafenster den erkannten Text begutachten, und sich über das Ergebnis freuen. Die Qualität der Text­erkennung ist proportinal abhängig von der Höhe der gewählten DPI-Auflösung. Bei 300 dpi Auflösung gibt es eine Fehlerquote, wo man die Fehlerkorrekturzeit mit Abschreiben gleichsetzen könnte.

Ich zeige Euch den eingescannten Text durch OCR-Erkennung aus Copyright-Gründen nicht, aber vorweg, die OCR ist sehr gut. Cool: beim Speichervorgang (als Text) werden die Blöcke des Spaltensatzes automatisch & folgerichtig von links nach rechts zusammengefügt. Wort­trennungen müssen manuell nachgearbeitet werden. Tipp: Text in LibreOffice importieren. Dort mit aktivierter Rechtschreibkorrektur schneller Fehler finden.

Insgesamt ist das OCR-Ergebnis mehr als befriedigend. Allerdings ist der Zeitaufwand recht hoch, sodass sich die Frage stellt, ob er sich für mich weiter erhöht, je »moderner« die C’t wird. Vor kurzem hat die Zeitung auf eine Antiqua­schrift umgestellt. Typographisch gesehen ist das toll, weil angenehmer lesbar, aber schlechter für OCR. Teste ich demnächst.

Leave a Reply

XHTML: You can use these tags: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>