Automatisierte OCR Umwandlung für PDF
Hallo Zusammen
Ich habe mehr als 1000 gescannte Dokumente, nun im PDF selber kann ich ja die Texterkennung einschalten und im selben Dokument nach Wörter suchen.
Wie aber kann ich beim Ordner schon nach bestimmten Nummer oder Wörter suchen die in den PDF Dokumenten enthalten sind inkl. das er automatisch die OCR durchführt bsp zeitlich ?
Beispiel ich suche im Ordner RE10920 und dann spuckts mir die PDF aus, die das Wort im Dokument enthält.
Beim Adobe Pro DC habe ich das Werkzeug Scannen versucht, bei 10 Stück läufts gut und bei 1000 Stürzt das Teil ab und zeigt mir das alle Fehlerhaft sind. Ausserdem kann ich es nicht automatisieren.
Hier im Forum habe ich genau das gefunden was ich gesucht habe jedoch kostet das Tool mehr als 600Euro (AutoOCR) , bezahlen würde ich eher im Bereich max. 200Euro.
FileServer automatische PDF-OCR-Umwandlung
OCrmypdf habe ich auch gefunden jedoc auch nur für Linux und Mac.
Kennt Ihr sonst noch Tools ?
Vielen herzlichen Dank
Gruss
Ich habe mehr als 1000 gescannte Dokumente, nun im PDF selber kann ich ja die Texterkennung einschalten und im selben Dokument nach Wörter suchen.
Wie aber kann ich beim Ordner schon nach bestimmten Nummer oder Wörter suchen die in den PDF Dokumenten enthalten sind inkl. das er automatisch die OCR durchführt bsp zeitlich ?
Beispiel ich suche im Ordner RE10920 und dann spuckts mir die PDF aus, die das Wort im Dokument enthält.
Beim Adobe Pro DC habe ich das Werkzeug Scannen versucht, bei 10 Stück läufts gut und bei 1000 Stürzt das Teil ab und zeigt mir das alle Fehlerhaft sind. Ausserdem kann ich es nicht automatisieren.
Hier im Forum habe ich genau das gefunden was ich gesucht habe jedoch kostet das Tool mehr als 600Euro (AutoOCR) , bezahlen würde ich eher im Bereich max. 200Euro.
FileServer automatische PDF-OCR-Umwandlung
OCrmypdf habe ich auch gefunden jedoc auch nur für Linux und Mac.
Kennt Ihr sonst noch Tools ?
Vielen herzlichen Dank
Gruss
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 3978404585
Url: https://administrator.de/forum/automatisierte-ocr-umwandlung-fuer-pdf-3978404585.html
Ausgedruckt am: 19.01.2025 um 15:01 Uhr
11 Kommentare
Neuester Kommentar
Wir sind zufrieden mit https://evermap.com/autobatch.asp
Das ist ein Automationsplugin für den Acrobat Pro. Ca. 250€
Das ist ein Automationsplugin für den Acrobat Pro. Ca. 250€
Schau mal nach Lösungen, die auf Tesseract https://de.m.wikipedia.org/wiki/Tesseract_(Software)
basieren.
basieren.
Ich werf mal Omnipage in den Raum. Das verwenden wir derzeit als Text Erkennung um uns daraus
den Dateinamen zu basteln und es anschließend passend im Sharepoint abzulegen.
Das ganze ist wenn mich nicht alles täuscht über ein Powershellscript gelößt was das Scannen und ablegen angeht.
Die OmniPage Version lag glaube ich damals um die 100 Euro. War allerdings 2016 od 2017 ist also was her.
Denke aber nicht das die groß was am Preis gemacht haben. Allerdings weiss ich nicht ob der Hersteller
nicht das Lizenzmodell zu Subscriptionbased geändert hat.
Funktioniert bei uns ganz gut.
den Dateinamen zu basteln und es anschließend passend im Sharepoint abzulegen.
Das ganze ist wenn mich nicht alles täuscht über ein Powershellscript gelößt was das Scannen und ablegen angeht.
Die OmniPage Version lag glaube ich damals um die 100 Euro. War allerdings 2016 od 2017 ist also was her.
Denke aber nicht das die groß was am Preis gemacht haben. Allerdings weiss ich nicht ob der Hersteller
nicht das Lizenzmodell zu Subscriptionbased geändert hat.
Funktioniert bei uns ganz gut.
PDF-OCR Freeware Konverter von Horland Software
https://www.horland.de/freeware-tools.html
Es gibt viele Lösungen auf dem Markt für so eine Aufgabe
https://www.horland.de/freeware-tools.html
Es gibt viele Lösungen auf dem Markt für so eine Aufgabe
Es gibt viele Lösungen auf dem Markt für so eine Aufgabe
Richtig. Meistens unterscheiden sie sich in der Qualität. Die Bezahlversionen kümmern sich noch etwas intensiver um Qualitätsverbesserungen.Wenn das Dokument elektronisch erzeugt wurde, klappt es mit jedem Programm. Bei eingescannten Texten merkt man dann schon Unterschiede in der Fehlerquote. Bei Niedrig auflösenden Faxen mekrt man es dann schon extrem.
Und den Support darf man ja auch im Falle eines Falles auch nicht vergessen je nachdem wie wichtig
das ganze ist. Wenn Rechnungen deswegen nicht mehr in die BuHa übernommen werden oder nicht mehr beim kunden landen dann ist das natürlich schlecht. Oder wenn div. Dokumente nicht ins DMS richtig übernommen werden dann gibts u.U. ärger vom FA
das ganze ist. Wenn Rechnungen deswegen nicht mehr in die BuHa übernommen werden oder nicht mehr beim kunden landen dann ist das natürlich schlecht. Oder wenn div. Dokumente nicht ins DMS richtig übernommen werden dann gibts u.U. ärger vom FA
Wenns das denn nun war bitte nicht vergessen deinen Thread dann auch als erledigt zu markieren!