Texterkennung in gescannten PDFs
Hallo,
wir nutzen hier recht intensiv das Scannen über Multifunktionsgeräte (Kyocera 1128 MFP).
Grundsätzlich funktioniert das auch sehr gut. Das Dokument wird gescannt und per PDF verschickt.
Das Problem ist jedoch, dass die Geräte keine Texterkennung beherrschen und dementsprechend die PDFs nicht durchsuchbar sind. Nutze ich meinen billigen Epson-Scanner mit seiner Windows-Software, funktioniert das.
Kennt ihr eine Software, durch die ich die gesamte, mehrseitige PDF durchschicken kann und dabei eine Texterkennung ausgeführt wird?
Vielen Dank für euere Tipps.
Phil
wir nutzen hier recht intensiv das Scannen über Multifunktionsgeräte (Kyocera 1128 MFP).
Grundsätzlich funktioniert das auch sehr gut. Das Dokument wird gescannt und per PDF verschickt.
Das Problem ist jedoch, dass die Geräte keine Texterkennung beherrschen und dementsprechend die PDFs nicht durchsuchbar sind. Nutze ich meinen billigen Epson-Scanner mit seiner Windows-Software, funktioniert das.
Kennt ihr eine Software, durch die ich die gesamte, mehrseitige PDF durchschicken kann und dabei eine Texterkennung ausgeführt wird?
Vielen Dank für euere Tipps.
Phil
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 142682
Url: https://administrator.de/contentid/142682
Ausgedruckt am: 22.11.2024 um 08:11 Uhr
13 Kommentare
Neuester Kommentar
Moin
Wie mein Vorposter shcon sagte sollte das jedewede OCR Software auf die Reihe bekommen.
Sollte bei euch eine Acrobat Lizenz vorhanden sein kann man auch dort die OCR Erkennung
starten. Je nach dem was halt an Software schon im Unternehmen schon vorhanden ist.
Ich habe erst anch Wochen kapiert dass der Acrobat das kann ^^.
Gruß
Vile Gangster
Wie mein Vorposter shcon sagte sollte das jedewede OCR Software auf die Reihe bekommen.
Sollte bei euch eine Acrobat Lizenz vorhanden sein kann man auch dort die OCR Erkennung
starten. Je nach dem was halt an Software schon im Unternehmen schon vorhanden ist.
Ich habe erst anch Wochen kapiert dass der Acrobat das kann ^^.
Gruß
Vile Gangster
Hallo,
ich verstehe dein Problem nicht1 Dir geht es um das Durchsuchen von PDF-Dateien? Was hat Texterkennung damit zu tun?
Speichert Ihr die gescannten PDF-Dateien dann nochmal als "Word"-Dokument, um diese dann zu durchsuchen?
Ich denke das ist der falsche Ansatz.
Die Frage sollte lauten: Welches Suchprogramm ist in der Lage, den Inhalt einer PDF zu durchsuchen. (wie z.B. Google es macht)
Grüße aus Rostock
Wolfgang
(Netwolf)
ich verstehe dein Problem nicht1 Dir geht es um das Durchsuchen von PDF-Dateien? Was hat Texterkennung damit zu tun?
Speichert Ihr die gescannten PDF-Dateien dann nochmal als "Word"-Dokument, um diese dann zu durchsuchen?
Ich denke das ist der falsche Ansatz.
Die Frage sollte lauten: Welches Suchprogramm ist in der Lage, den Inhalt einer PDF zu durchsuchen. (wie z.B. Google es macht)
Grüße aus Rostock
Wolfgang
(Netwolf)
Du kannst den FineReader unterschiedlich enistellen, z.B. ob er den gescannten Text oder den OCR-gescannten Text anzeigen soll und weitere Möglichkeiten. Es gibt auch die Möglichkeit den per OCR erkannten Text quasi "unsichbar" hinter dein ursprünglich gescanntes Dokument zu legen. Ebenso kannst du einzelne Scanbereiche als Textbox oder Grafik markieren etc. Der FineReader sollte eigl. deinen Anforderungen genügen.
Wie gesagt ist schon was her, das ich damit gearbeitet habe, leider gerade keine Version zur Hand, deshalb kann ich dir die genauen Einstellungen nicht benennen.
Wie gesagt ist schon was her, das ich damit gearbeitet habe, leider gerade keine Version zur Hand, deshalb kann ich dir die genauen Einstellungen nicht benennen.
Hallo,
ich würde für bestehende Sammlungen wirklich zu Acrobat raten. Die Software ist auch sonst äußerst nützlich und unterstützt OCR-Stapelverarbeitung.
Die Erkennungsqualität reicht zwar bei schlechten Scans nicht an richtige OCR-Software heran (dafür verwende ich OmniPage) und erkennt unter Umständen nicht die Leserichtung von Spalten und Tabellen so gut. Bei normaler Bildqualität und wenn es nur um das Durchsuchen geht, d.h. später nichts rauskopiert werden soll, ist das aber unproblematisch.
Die Geschwindigkeit ist dafür um einiges höher als bei reiner OCR-Software. Außerdem kann eben nur ein PDF-Editor den erkannten Text ohne Neuberechnung direkt in der Originaldatei hinterlegen. Die OCR muss dafür immer die Bilddateien extrahieren, erkennen und in einer neuen PDF zusammenführen. Das kann die Qualität der Bilddaten merklich vermindern oder man skaliert eben auf eine deutlich größere Datei.
Wenn eine richtige OCR-Software eingesetzt werden soll, würde ich daher nicht in PDFs scannen sondern in Bildstapel höherer Qualität als benötigt. Die können dann erst mit der OCR komprimiert und in PDFs gefasst werden.
Grüße
Richard
ich würde für bestehende Sammlungen wirklich zu Acrobat raten. Die Software ist auch sonst äußerst nützlich und unterstützt OCR-Stapelverarbeitung.
Die Erkennungsqualität reicht zwar bei schlechten Scans nicht an richtige OCR-Software heran (dafür verwende ich OmniPage) und erkennt unter Umständen nicht die Leserichtung von Spalten und Tabellen so gut. Bei normaler Bildqualität und wenn es nur um das Durchsuchen geht, d.h. später nichts rauskopiert werden soll, ist das aber unproblematisch.
Die Geschwindigkeit ist dafür um einiges höher als bei reiner OCR-Software. Außerdem kann eben nur ein PDF-Editor den erkannten Text ohne Neuberechnung direkt in der Originaldatei hinterlegen. Die OCR muss dafür immer die Bilddateien extrahieren, erkennen und in einer neuen PDF zusammenführen. Das kann die Qualität der Bilddaten merklich vermindern oder man skaliert eben auf eine deutlich größere Datei.
Wenn eine richtige OCR-Software eingesetzt werden soll, würde ich daher nicht in PDFs scannen sondern in Bildstapel höherer Qualität als benötigt. Die können dann erst mit der OCR komprimiert und in PDFs gefasst werden.
Grüße
Richard