colinardo
Goto Top

OpenSource Toolbox für die Texterkennung (OCR) um PDF Dokumente durchsuchbar zu machen

Die Toolbox mit dem Namen OCRmyPDF erledigt mit OpenSource-Tools wie tesseract, ghostscript etc. die Texterkennung und Umwandlung von PDF-Dateien in PDF/A zuverlässig und kostenlos. Es ist ein normales Shell-Script welches nach dem Herunterladen nur noch ausführbar gemacht werden muss (chmod +x OCRmyPDF.sh).

Folgende Pakete sind jedoch Voraussetzung für das Funktionieren des Script's:
Parallel, Poppler-Utils, Imagemagick, Unpaper, Tesseract, Python 2, Ghostscript, Java
Diese lassen sich über die Paketverwaltung des eigenen Systems installieren. Mehr zu den Abhängigkeiten steht in den Release-Notes.

Für die Texterkennung reicht dann z.B. folgender Befehl (Erkennungssprache: Deutsch):
./OCRmyPDF.sh -l deu input.pdf output.pdf
Grüße Uwe

Content-Key: 249156

Url: https://administrator.de/contentid/249156

Printed on: June 22, 2024 at 23:06 o'clock

Member: DerWoWusste
DerWoWusste Sep 14, 2014 at 21:35:38 (UTC)
Goto Top
Moin.
Danke für den Tipp.
Wie bewertest Du die Qualität, verglichen mit Kommerz wie Acrobat 11 oder aktuellem Abby Fine reader?
Member: colinardo
colinardo Sep 15, 2014 updated at 07:44:07 (UTC)
Goto Top
Hi DWW,
genau verglichen habe ich das noch nicht, aber wie so oft ist das Ergebnis natürlich von der Vorlagenqualität abhängig. Hier sind die kommerziellen Tools noch etwas im Vorteil da sie Verzerrungen etc. automatisch korrigieren können. Aber wenn die Qualität stimmt ist auch die Texterkennung bei der OpenSource-Variante fast fehlerfrei.

Grüße Uwe
Member: DerWoWusste
DerWoWusste Nov 03, 2014 updated at 14:40:57 (UTC)
Goto Top
Moin.
Ein Feedback: es wurde nun von uns getestet. Resultate sind laut meinem Kollegen "erschreckend". Kein Vergleich zu Acrobat. Die Qualität der Eingangsdaten stimmte, es wurden Screenshots von Textseiten herangezogen.
Member: colinardo
colinardo Nov 03, 2014 updated at 15:02:48 (UTC)
Goto Top
OK. Ich kann nur sagen das Realworld-Scans mit 300dpi aus einem Magazin hier ordentliche Ergebnisse erzielt haben. Wie hoch aufgelöst waren denn die Screenshots, und wie groß die Schrift?
Acrobat hatte bei meiner Testseite 1 Fehler und OpenSource 2.
Member: DerWoWusste
DerWoWusste Nov 04, 2014 updated at 15:51:18 (UTC)
Goto Top
Screenshot über Windows (Text in Bild und um ein Bild herum, also durchaus schwierig), dann rein in Paint, und als JPG abgespeichert. Dann von AcrobatXI in ein nicht-OCR-PDF wandeln lassen (DPI? Default).
Ergebnisse bei der OCR:
OCRmyPDF-2.1-37.1

Installaticn und Einrichtung
Llgsman installieren
Einstellungen am UPS Manager [UPSMAM
I UPE Manager stsrten
I klick auflfildsrärbced User" um alle Menüs sichtbar au machen
I UPS-Tw] auswählen: „ML-IEIIII”, da unsere nicht unterstütct wird
Da: s cumman icckniwm; clsussms
Scibatcrjrhcalhlcirdhlc ‘llIl «-
Elcvics:
m: mm
fiddacc: Lintcrl Fcut: 57'539
L-‚Cfiifllflcw: lTHLlL-IiHÜE-‘lll 214l T „P5 m: [1
Ü ‘lElIElIEu-Elllfl Gemeine: 5111H. HHFÜIII], Gewinn-
I Im Heiter „System“ fblgendes einstellen:
D Häkchen bei „Enable Lbcal Shutdbwn" setzen
- Fährt den UHU-Server bei Strbrnäusfäll herunter
c: Häkchen bei „lnitiate Shutdbwn alsuayjs sfter ..." und den wert auf„1"setsen
- wenn ein Strcmausfall länger äls eine Minute dauert wird der


Adobe Acrobat XI

Installation und Einrichtung
Upsman installieren
Einstellungen am UPS Manager (UPSMAN)
• UPS Manager starten
• Klick auf „ Advanced User" um alle Menüs sichtbar zu machen
• UPS-Typ auswählen: „ ML-1500", da unsere nicht unterstützt wird
UPSMAN ~
Device 1 System ( Re$ 1 Mai Server 1 Events I
Model:
!Search UPS: l IML-1500 • 11 Serial ·I
Location: AdposMioro·S 1500
Power (VA): 1500 Hold time 1-nl: 7 •
Load (VA): 1500 Rediarge time lh ): 8
Date of Bat!Of)' lnstaßation (00.MM.YYYY): 07.02.2013
Set battef)' health level in % 10 •
Device:
Port: ICOM1 ·I Baudrate: 12400 ·I
Address: L 1 Usten Port: 5769
--
Licencel<ey: 17MUL4X034121 417 UPSIO: 0
1
Reset to FactO<Y ~ 1
@ 1995-2013Generex GmbH. Harnbug. Germany.
V 5.8.95
1 Advanoed User 1 1 OK 11 Pllbreehen 1
• 1 m Reit er „ System" folgendes einst ellen:
o Häkchen bei „~ Local Shutdown" setzen
• Fährt den USV-Server bei Stromausfall herunter
o Häkchen bei „ lnit iate Shutdown always after .„" und den Wert auf „1" setzen
• Wenn ein Stromausfall länger als eine Minute dauert wird der

--
[Licensekey verfälscht]