18.09.2022

6130

Automatisierte OCR Umwandlung für PDF

Hallo Zusammen

Ich habe mehr als 1000 gescannte Dokumente, nun im PDF selber kann ich ja die Texterkennung einschalten und im selben Dokument nach Wörter suchen.

Wie aber kann ich beim Ordner schon nach bestimmten Nummer oder Wörter suchen die in den PDF Dokumenten enthalten sind inkl. das er automatisch die OCR durchführt bsp zeitlich ?

Beispiel ich suche im Ordner RE10920 und dann spuckts mir die PDF aus, die das Wort im Dokument enthält.

Beim Adobe Pro DC habe ich das Werkzeug Scannen versucht, bei 10 Stück läufts gut und bei 1000 Stürzt das Teil ab und zeigt mir das alle Fehlerhaft sind. Ausserdem kann ich es nicht automatisieren.

Hier im Forum habe ich genau das gefunden was ich gesucht habe jedoch kostet das Tool mehr als 600Euro (AutoOCR) , bezahlen würde ich eher im Bereich max. 200Euro.
FileServer automatische PDF-OCR-Umwandlung

OCrmypdf habe ich auch gefunden jedoc auch nur für Linux und Mac.

Kennt Ihr sonst noch Tools ?

Vielen herzlichen Dank
Gruss

Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben

Content-ID: 3978404585

Url: https://administrator.de/forum/automatisierte-ocr-umwandlung-fuer-pdf-3978404585.html

Ausgedruckt am: 28.07.2025 um 05:07 Uhr

11 Kommentare

Neuester Kommentar

Vielleicht reicht ja Powershell...?!
PDF auslesen und per VBA in Excel schreiben
Einzelne Zeilen aus PDF in Excel per VBA auslesen
PowerShell - Felder in PDF auslesen und Dateiname damit erzeugen

Wir sind zufrieden mit evermap.com/autobatch.asp
Das ist ein Automationsplugin für den Acrobat Pro. Ca. 250€

Schau mal nach Lösungen, die auf Tesseract de.m.wikipedia.org/wiki/Tesseract_(Software)

basieren.

Ich werf mal Omnipage in den Raum. Das verwenden wir derzeit als Text Erkennung um uns daraus
den Dateinamen zu basteln und es anschließend passend im Sharepoint abzulegen.

Das ganze ist wenn mich nicht alles täuscht über ein Powershellscript gelößt was das Scannen und ablegen angeht.
Die OmniPage Version lag glaube ich damals um die 100 Euro. War allerdings 2016 od 2017 ist also was her.
Denke aber nicht das die groß was am Preis gemacht haben. Allerdings weiss ich nicht ob der Hersteller
nicht das Lizenzmodell zu Subscriptionbased geändert hat.

Funktioniert bei uns ganz gut.

+1 für Omnipage
Das kann Ordnerüberwachung und wandelt es automatisch in eine txt oder in eine durchsuchbare PDF um.

PDF-OCR Freeware Konverter von Horland Software
horland.de/freeware-tools.html

Es gibt viele Lösungen auf dem Markt für so eine Aufgabe

Es gibt viele Lösungen auf dem Markt für so eine Aufgabe

Richtig. Meistens unterscheiden sie sich in der Qualität. Die Bezahlversionen kümmern sich noch etwas intensiver um Qualitätsverbesserungen.

Wenn das Dokument elektronisch erzeugt wurde, klappt es mit jedem Programm. Bei eingescannten Texten merkt man dann schon Unterschiede in der Fehlerquote. Bei Niedrig auflösenden Faxen mekrt man es dann schon extrem.

Und den Support darf man ja auch im Falle eines Falles auch nicht vergessen je nachdem wie wichtig
das ganze ist. Wenn Rechnungen deswegen nicht mehr in die BuHa übernommen werden oder nicht mehr beim kunden landen dann ist das natürlich schlecht. Oder wenn div. Dokumente nicht ins DMS richtig übernommen werden dann gibts u.U. ärger vom FA

Wenns das denn nun war bitte nicht vergessen deinen Thread dann auch als erledigt zu markieren!

So tut mir leid für die Verspätung. Hatte leider ein Gesundheitliches Problem.

Ich werde das Ganze mit Omnipage realisieren.

Herzlichen Dank für eure Tipps und Hilfe!

Zitat von @Mr-Gustav:

Und den Support darf man ja auch im Falle eines Falles auch nicht vergessen je nachdem wie wichtig
das ganze ist. Wenn Rechnungen deswegen nicht mehr in die BuHa übernommen werden oder nicht mehr beim kunden landen dann ist das natürlich schlecht. Oder wenn div. Dokumente nicht ins DMS richtig übernommen werden dann gibts u.U. ärger vom FA

Genau, die Pflege sowie Monitoring, werde auf jedenfalls das ganze beobachten.
Vielen Dank!

Zitat von @NordicMike:

Es gibt viele Lösungen auf dem Markt für so eine Aufgabe

Jap, werde sicher auch die Bezahlversionen mittesten und anschauen, solange die Qualität stimmt.
Vielen Dank!

Zitat von @AndreaZ:

PDF-OCR Freeware Konverter von Horland Software
horland.de/freeware-tools.html

Es gibt viele Lösungen auf dem Markt für so eine Aufgabe

Vielen Dank!

Zitat von @NordicMike:

+1 für Omnipage
Das kann Ordnerüberwachung und wandelt es automatisch in eine txt oder in eine durchsuchbare PDF um.

Bin es gerade am Testen bisher echt super.

Vielen Dank

Zitat von @Mr-Gustav:

Ich werf mal Omnipage in den Raum. Das verwenden wir derzeit als Text Erkennung um uns daraus
den Dateinamen zu basteln und es anschließend passend im Sharepoint abzulegen.

Das ganze ist wenn mich nicht alles täuscht über ein Powershellscript gelößt was das Scannen und ablegen angeht.
Die OmniPage Version lag glaube ich damals um die 100 Euro. War allerdings 2016 od 2017 ist also was her.
Denke aber nicht das die groß was am Preis gemacht haben. Allerdings weiss ich nicht ob der Hersteller
nicht das Lizenzmodell zu Subscriptionbased geändert hat.

Funktioniert bei uns ganz gut.

Jap, bin es am Testen und läuft soweit gut. Werde dann noch berichten.
Vielen Dank!

Zitat von @beidermachtvongreyscull:

Schau mal nach Lösungen, die auf Tesseract de.m.wikipedia.org/wiki/Tesseract_(Software)

basieren.

Vielen Dank, konnte ich anschauen.

Zitat von @DerWoWusste:

Wir sind zufrieden mit evermap.com/autobatch.asp
Das ist ein Automationsplugin für den Acrobat Pro. Ca. 250€

Vielen Dank, konnte ich anschauen.

Zitat von @aqui:

Vielleicht reicht ja Powershell...?!
PDF auslesen und per VBA in Excel schreiben
Einzelne Zeilen aus PDF in Excel per VBA auslesen
PowerShell - Felder in PDF auslesen und Dateiname damit erzeugen

Vielen Dank, wäre auch ne Lösung für kleinere Verwendungszahl.