syosse
Goto Top

Automatisierte OCR Umwandlung für PDF

Hallo Zusammenface-smile

Ich habe mehr als 1000 gescannte Dokumente, nun im PDF selber kann ich ja die Texterkennung einschalten und im selben Dokument nach Wörter suchen.

Wie aber kann ich beim Ordner schon nach bestimmten Nummer oder Wörter suchen die in den PDF Dokumenten enthalten sind inkl. das er automatisch die OCR durchführt bsp zeitlich ?

Beispiel ich suche im Ordner RE10920 und dann spuckts mir die PDF aus, die das Wort im Dokument enthält.

Beim Adobe Pro DC habe ich das Werkzeug Scannen versucht, bei 10 Stück läufts gut und bei 1000 Stürzt das Teil ab und zeigt mir das alle Fehlerhaft sind. Ausserdem kann ich es nicht automatisieren.

Hier im Forum habe ich genau das gefunden was ich gesucht habe jedoch kostet das Tool mehr als 600Euro (AutoOCR) , bezahlen würde ich eher im Bereich max. 200Euro.
FileServer automatische PDF-OCR-Umwandlung

OCrmypdf habe ich auch gefunden jedoc auch nur für Linux und Mac.

Kennt Ihr sonst noch Tools ?


Vielen herzlichen Dank
Gruss

Content-Key: 3978404585

Url: https://administrator.de/contentid/3978404585

Printed on: April 23, 2024 at 21:04 o'clock

Member: aqui
aqui Sep 18, 2022 at 14:53:48 (UTC)
Goto Top
Member: DerWoWusste
DerWoWusste Sep 18, 2022 at 20:21:45 (UTC)
Goto Top
Wir sind zufrieden mit https://evermap.com/autobatch.asp
Das ist ein Automationsplugin für den Acrobat Pro. Ca. 250€
Member: beidermachtvongreyscull
beidermachtvongreyscull Sep 19, 2022 at 04:29:05 (UTC)
Goto Top
Schau mal nach Lösungen, die auf Tesseract https://de.m.wikipedia.org/wiki/Tesseract_(Software)

basieren.
Member: Mr-Gustav
Solution Mr-Gustav Sep 19, 2022 at 06:02:11 (UTC)
Goto Top
Ich werf mal Omnipage in den Raum. Das verwenden wir derzeit als Text Erkennung um uns daraus
den Dateinamen zu basteln und es anschließend passend im Sharepoint abzulegen.

Das ganze ist wenn mich nicht alles täuscht über ein Powershellscript gelößt was das Scannen und ablegen angeht.
Die OmniPage Version lag glaube ich damals um die 100 Euro. War allerdings 2016 od 2017 ist also was her.
Denke aber nicht das die groß was am Preis gemacht haben. Allerdings weiss ich nicht ob der Hersteller
nicht das Lizenzmodell zu Subscriptionbased geändert hat.

Funktioniert bei uns ganz gut.
Member: NordicMike
NordicMike Sep 19, 2022 at 06:21:18 (UTC)
Goto Top
+1 für Omnipage
Das kann Ordnerüberwachung und wandelt es automatisch in eine txt oder in eine durchsuchbare PDF um.
Member: AndreaZ
AndreaZ Sep 19, 2022 at 07:39:30 (UTC)
Goto Top
PDF-OCR Freeware Konverter von Horland Software
https://www.horland.de/freeware-tools.html

Es gibt viele Lösungen auf dem Markt für so eine Aufgabe
Member: NordicMike
NordicMike Sep 19, 2022 at 07:44:13 (UTC)
Goto Top
Es gibt viele Lösungen auf dem Markt für so eine Aufgabe
Richtig. Meistens unterscheiden sie sich in der Qualität. Die Bezahlversionen kümmern sich noch etwas intensiver um Qualitätsverbesserungen.

Wenn das Dokument elektronisch erzeugt wurde, klappt es mit jedem Programm. Bei eingescannten Texten merkt man dann schon Unterschiede in der Fehlerquote. Bei Niedrig auflösenden Faxen mekrt man es dann schon extrem.
Member: Mr-Gustav
Mr-Gustav Sep 19, 2022 at 09:43:44 (UTC)
Goto Top
Und den Support darf man ja auch im Falle eines Falles auch nicht vergessen je nachdem wie wichtig
das ganze ist. Wenn Rechnungen deswegen nicht mehr in die BuHa übernommen werden oder nicht mehr beim kunden landen dann ist das natürlich schlecht. Oder wenn div. Dokumente nicht ins DMS richtig übernommen werden dann gibts u.U. ärger vom FA
Member: aqui
aqui Sep 30, 2022 at 12:47:44 (UTC)
Goto Top
Wenns das denn nun war bitte nicht vergessen deinen Thread dann auch als erledigt zu markieren!
Member: Syosse
Syosse Nov 02, 2022 at 12:35:33 (UTC)
Goto Top
So tut mir leid für die Verspätung. Hatte leider ein Gesundheitliches Problem.

Ich werde das Ganze mit Omnipage realisieren.

Herzlichen Dank für eure Tipps und Hilfe!


Zitat von @Mr-Gustav:

Und den Support darf man ja auch im Falle eines Falles auch nicht vergessen je nachdem wie wichtig
das ganze ist. Wenn Rechnungen deswegen nicht mehr in die BuHa übernommen werden oder nicht mehr beim kunden landen dann ist das natürlich schlecht. Oder wenn div. Dokumente nicht ins DMS richtig übernommen werden dann gibts u.U. ärger vom FA

Genau, die Pflege sowie Monitoring, werde auf jedenfalls das ganze beobachten.
Vielen Dank!


Zitat von @NordicMike:

Es gibt viele Lösungen auf dem Markt für so eine Aufgabe
Richtig. Meistens unterscheiden sie sich in der Qualität. Die Bezahlversionen kümmern sich noch etwas intensiver um Qualitätsverbesserungen.

Wenn das Dokument elektronisch erzeugt wurde, klappt es mit jedem Programm. Bei eingescannten Texten merkt man dann schon Unterschiede in der Fehlerquote. Bei Niedrig auflösenden Faxen mekrt man es dann schon extrem.

Jap, werde sicher auch die Bezahlversionen mittesten und anschauen, solange die Qualität stimmt.
Vielen Dank!


Zitat von @AndreaZ:

PDF-OCR Freeware Konverter von Horland Software
https://www.horland.de/freeware-tools.html

Es gibt viele Lösungen auf dem Markt für so eine Aufgabe

Vielen Dank!
Zitat von @NordicMike:

+1 für Omnipage
Das kann Ordnerüberwachung und wandelt es automatisch in eine txt oder in eine durchsuchbare PDF um.

Bin es gerade am Testen bisher echt super.

Vielen Dank
Zitat von @Mr-Gustav:

Ich werf mal Omnipage in den Raum. Das verwenden wir derzeit als Text Erkennung um uns daraus
den Dateinamen zu basteln und es anschließend passend im Sharepoint abzulegen.

Das ganze ist wenn mich nicht alles täuscht über ein Powershellscript gelößt was das Scannen und ablegen angeht.
Die OmniPage Version lag glaube ich damals um die 100 Euro. War allerdings 2016 od 2017 ist also was her.
Denke aber nicht das die groß was am Preis gemacht haben. Allerdings weiss ich nicht ob der Hersteller
nicht das Lizenzmodell zu Subscriptionbased geändert hat.

Funktioniert bei uns ganz gut.

Jap, bin es am Testen und läuft soweit gut. Werde dann noch berichten.
Vielen Dank!
Zitat von @beidermachtvongreyscull:

Schau mal nach Lösungen, die auf Tesseract https://de.m.wikipedia.org/wiki/Tesseract_(Software)

basieren.

Vielen Dank, konnte ich anschauen.


Zitat von @DerWoWusste:

Wir sind zufrieden mit https://evermap.com/autobatch.asp
Das ist ein Automationsplugin für den Acrobat Pro. Ca. 250€

Vielen Dank, konnte ich anschauen.

Vielen Dank, wäre auch ne Lösung für kleinere Verwendungszahl.
Member: aqui
aqui Nov 02, 2022 at 12:49:47 (UTC)
Goto Top