der-phil
Goto Top

Texterkennung in gescannten PDFs

Hallo,

wir nutzen hier recht intensiv das Scannen über Multifunktionsgeräte (Kyocera 1128 MFP).

Grundsätzlich funktioniert das auch sehr gut. Das Dokument wird gescannt und per PDF verschickt.

Das Problem ist jedoch, dass die Geräte keine Texterkennung beherrschen und dementsprechend die PDFs nicht durchsuchbar sind. Nutze ich meinen billigen Epson-Scanner mit seiner Windows-Software, funktioniert das.


Kennt ihr eine Software, durch die ich die gesamte, mehrseitige PDF durchschicken kann und dabei eine Texterkennung ausgeführt wird?

Vielen Dank für euere Tipps.

Phil

Content-ID: 142682

Url: https://administrator.de/contentid/142682

Ausgedruckt am: 22.11.2024 um 08:11 Uhr

StefanKittel
StefanKittel 12.05.2010 um 09:24:52 Uhr
Goto Top
Moin,
das kann inzwischen eingentlich jeder OCR Software. Batchverwaltung und Qualität machen den Preis.
Stefan
Vile-Gangster
Vile-Gangster 12.05.2010 um 09:40:16 Uhr
Goto Top
Moin

Wie mein Vorposter shcon sagte sollte das jedewede OCR Software auf die Reihe bekommen.

Sollte bei euch eine Acrobat Lizenz vorhanden sein kann man auch dort die OCR Erkennung
starten. Je nach dem was halt an Software schon im Unternehmen schon vorhanden ist.
Ich habe erst anch Wochen kapiert dass der Acrobat das kann ^^.


Gruß
Vile Gangster
Der-Phil
Der-Phil 12.05.2010 um 10:08:54 Uhr
Goto Top
Hallo,

könnt ihr mir außer Acrobat noch eine Software empfehlen?

Sie muss sonst keinerlei Funktionen haben.

Ich möchte einfach nur Eingabe-PDF --> Ausgabe-PDF durchsuchbar.

Phil
Connor1980
Connor1980 12.05.2010 um 10:33:34 Uhr
Goto Top
ABBYY FineReader und Omnipage hatte ich selber mal in früheren Versionen gesehen, kurze Suche bei heise.de: FreeOCR, gocr, TopOCR
Viel Spaß beim Testen face-smile
Der-Phil
Der-Phil 12.05.2010 um 11:02:07 Uhr
Goto Top
Hallo,

ABYY werde ich mir noch ansehen. Die genannten, "freien" Alternativen wandeln nur ein ein Textfile um und können teilweise auch kein PDF lesen!

Phil
godlie
godlie 12.05.2010 um 11:57:13 Uhr
Goto Top
Hallo,

FreeOCR hat z.b. auch ein PDF Modul anbei und is Freeware.

Grüße
Der-Phil
Der-Phil 12.05.2010 um 12:07:29 Uhr
Goto Top
Hallo,

ABYY FineReader war leider kein Erfolg. Die "durchsuchbare PDF" sieht komplett anders aus, als die ursprüngliche PDF.

Grafiken werden entfernt und das Ganze sieht aus, wie ein schlechtes Word-Dokument.

Habt ihr noch einen Tipp?

Die "Scansoftware" von Epson macht das eigentlich prima, aber die kann keine PDFs verarbeiten, sondern scannt direkt.

Phil
Der-Phil
Der-Phil 12.05.2010 um 12:20:44 Uhr
Goto Top
Hallo,

FreeOCR habe ich gerade getestet. Das kann zwar OCR an PDFs, aber danach habe ich blanken Text. Die PDF-Datei soll optisch praktisch identisch bleiben - nur eben durchsuchbar.

Phil
NetWolf
NetWolf 12.05.2010 um 15:21:06 Uhr
Goto Top
Hallo,

ich verstehe dein Problem nicht1 Dir geht es um das Durchsuchen von PDF-Dateien? Was hat Texterkennung damit zu tun?

Speichert Ihr die gescannten PDF-Dateien dann nochmal als "Word"-Dokument, um diese dann zu durchsuchen?
Ich denke das ist der falsche Ansatz.

Die Frage sollte lauten: Welches Suchprogramm ist in der Lage, den Inhalt einer PDF zu durchsuchen. (wie z.B. Google es macht)


Grüße aus Rostock
Wolfgang
(Netwolf)
Der-Phil
Der-Phil 12.05.2010 um 15:34:56 Uhr
Goto Top
Hallo!

Irgendwie hat das schon mit OCR zu tun!

Ich erhalte eine gescannte, 20 Seiten lange PDF. Darin suchen kann ich nicht, weil der Adobe Reader den Text als Bild sieht. Dementsprechend will ich dass der Text zu Text umgewandelt wird.

Phil
Connor1980
Connor1980 12.05.2010 um 18:17:26 Uhr
Goto Top
Du kannst den FineReader unterschiedlich enistellen, z.B. ob er den gescannten Text oder den OCR-gescannten Text anzeigen soll und weitere Möglichkeiten. Es gibt auch die Möglichkeit den per OCR erkannten Text quasi "unsichbar" hinter dein ursprünglich gescanntes Dokument zu legen. Ebenso kannst du einzelne Scanbereiche als Textbox oder Grafik markieren etc. Der FineReader sollte eigl. deinen Anforderungen genügen.
Wie gesagt ist schon was her, das ich damit gearbeitet habe, leider gerade keine Version zur Hand, deshalb kann ich dir die genauen Einstellungen nicht benennen.
Connor1980
Connor1980 12.05.2010 um 18:19:38 Uhr
Goto Top
Das Problem ist eben, beim Scannen wird ein großes A4-Bild erstellt, das lässt sich nicht nach Text durchsuchen. Genausokönnetest du statt des PDF auch etliche jpg erzeugen lassen, kann man ebenso wenig nach Text durchsuchen.
Deshalb die OCR Software, die dem PDF Dokument den erkannten Text mitgibt.
C.R.S.
C.R.S. 13.05.2010 um 15:10:44 Uhr
Goto Top
Hallo,

ich würde für bestehende Sammlungen wirklich zu Acrobat raten. Die Software ist auch sonst äußerst nützlich und unterstützt OCR-Stapelverarbeitung.
Die Erkennungsqualität reicht zwar bei schlechten Scans nicht an richtige OCR-Software heran (dafür verwende ich OmniPage) und erkennt unter Umständen nicht die Leserichtung von Spalten und Tabellen so gut. Bei normaler Bildqualität und wenn es nur um das Durchsuchen geht, d.h. später nichts rauskopiert werden soll, ist das aber unproblematisch.
Die Geschwindigkeit ist dafür um einiges höher als bei reiner OCR-Software. Außerdem kann eben nur ein PDF-Editor den erkannten Text ohne Neuberechnung direkt in der Originaldatei hinterlegen. Die OCR muss dafür immer die Bilddateien extrahieren, erkennen und in einer neuen PDF zusammenführen. Das kann die Qualität der Bilddaten merklich vermindern oder man skaliert eben auf eine deutlich größere Datei.
Wenn eine richtige OCR-Software eingesetzt werden soll, würde ich daher nicht in PDFs scannen sondern in Bildstapel höherer Qualität als benötigt. Die können dann erst mit der OCR komprimiert und in PDFs gefasst werden.

Grüße
Richard