colinardo
Goto Top

OpenSource Toolbox für die Texterkennung (OCR) um PDF Dokumente durchsuchbar zu machen

Die Toolbox mit dem Namen OCRmyPDF erledigt mit OpenSource-Tools wie tesseract, ghostscript etc. die Texterkennung und Umwandlung von PDF-Dateien in PDF/A zuverlässig und kostenlos. Es ist ein normales Shell-Script welches nach dem Herunterladen nur noch ausführbar gemacht werden muss (chmod +x OCRmyPDF.sh).

Folgende Pakete sind jedoch Voraussetzung für das Funktionieren des Script's:
Parallel, Poppler-Utils, Imagemagick, Unpaper, Tesseract, Python 2, Ghostscript, Java
Diese lassen sich über die Paketverwaltung des eigenen Systems installieren. Mehr zu den Abhängigkeiten steht in den Release-Notes.

Für die Texterkennung reicht dann z.B. folgender Befehl (Erkennungssprache: Deutsch):
./OCRmyPDF.sh -l deu input.pdf output.pdf
Grüße Uwe

Content-ID: 249156

Url: https://administrator.de/contentid/249156

Ausgedruckt am: 23.11.2024 um 09:11 Uhr

DerWoWusste
DerWoWusste 14.09.2014 um 23:35:38 Uhr
Goto Top
Moin.
Danke für den Tipp.
Wie bewertest Du die Qualität, verglichen mit Kommerz wie Acrobat 11 oder aktuellem Abby Fine reader?
colinardo
colinardo 15.09.2014 aktualisiert um 09:44:07 Uhr
Goto Top
Hi DWW,
genau verglichen habe ich das noch nicht, aber wie so oft ist das Ergebnis natürlich von der Vorlagenqualität abhängig. Hier sind die kommerziellen Tools noch etwas im Vorteil da sie Verzerrungen etc. automatisch korrigieren können. Aber wenn die Qualität stimmt ist auch die Texterkennung bei der OpenSource-Variante fast fehlerfrei.

Grüße Uwe
DerWoWusste
DerWoWusste 03.11.2014 aktualisiert um 15:40:57 Uhr
Goto Top
Moin.
Ein Feedback: es wurde nun von uns getestet. Resultate sind laut meinem Kollegen "erschreckend". Kein Vergleich zu Acrobat. Die Qualität der Eingangsdaten stimmte, es wurden Screenshots von Textseiten herangezogen.
colinardo
colinardo 03.11.2014 aktualisiert um 16:02:48 Uhr
Goto Top
OK. Ich kann nur sagen das Realworld-Scans mit 300dpi aus einem Magazin hier ordentliche Ergebnisse erzielt haben. Wie hoch aufgelöst waren denn die Screenshots, und wie groß die Schrift?
Acrobat hatte bei meiner Testseite 1 Fehler und OpenSource 2.
DerWoWusste
DerWoWusste 04.11.2014 aktualisiert um 16:51:18 Uhr
Goto Top
Screenshot über Windows (Text in Bild und um ein Bild herum, also durchaus schwierig), dann rein in Paint, und als JPG abgespeichert. Dann von AcrobatXI in ein nicht-OCR-PDF wandeln lassen (DPI? Default).
Ergebnisse bei der OCR:
OCRmyPDF-2.1-37.1

Installaticn und Einrichtung
Llgsman installieren
Einstellungen am UPS Manager [UPSMAM
I UPE Manager stsrten
I klick auflfildsrärbced User" um alle Menüs sichtbar au machen
I UPS-Tw] auswählen: „ML-IEIIII”, da unsere nicht unterstütct wird
Da: s cumman icckniwm; clsussms
Scibatcrjrhcalhlcirdhlc ‘llIl «-
Elcvics:
m: mm
fiddacc: Lintcrl Fcut: 57'539
L-‚Cfiifllflcw: lTHLlL-IiHÜE-‘lll 214l T „P5 m: [1
Ü ‘lElIElIEu-Elllfl Gemeine: 5111H. HHFÜIII], Gewinn-
I Im Heiter „System“ fblgendes einstellen:
D Häkchen bei „Enable Lbcal Shutdbwn" setzen
- Fährt den UHU-Server bei Strbrnäusfäll herunter
c: Häkchen bei „lnitiate Shutdbwn alsuayjs sfter ..." und den wert auf„1"setsen
- wenn ein Strcmausfall länger äls eine Minute dauert wird der


Adobe Acrobat XI

Installation und Einrichtung
Upsman installieren
Einstellungen am UPS Manager (UPSMAN)
• UPS Manager starten
• Klick auf „ Advanced User" um alle Menüs sichtbar zu machen
• UPS-Typ auswählen: „ ML-1500", da unsere nicht unterstützt wird
UPSMAN ~
Device 1 System ( Re$ 1 Mai Server 1 Events I
Model:
!Search UPS: l IML-1500 • 11 Serial ·I
Location: AdposMioro·S 1500
Power (VA): 1500 Hold time 1-nl: 7 •
Load (VA): 1500 Rediarge time lh ): 8
Date of Bat!Of)' lnstaßation (00.MM.YYYY): 07.02.2013
Set battef)' health level in % 10 •
Device:
Port: ICOM1 ·I Baudrate: 12400 ·I
Address: L 1 Usten Port: 5769
--
Licencel<ey: 17MUL4X034121 417 UPSIO: 0
1
Reset to FactO<Y ~ 1
@ 1995-2013Generex GmbH. Harnbug. Germany.
V 5.8.95
1 Advanoed User 1 1 OK 11 Pllbreehen 1
• 1 m Reit er „ System" folgendes einst ellen:
o Häkchen bei „~ Local Shutdown" setzen
• Fährt den USV-Server bei Stromausfall herunter
o Häkchen bei „ lnit iate Shutdown always after .„" und den Wert auf „1" setzen
• Wenn ein Stromausfall länger als eine Minute dauert wird der

--
[Licensekey verfälscht]