Top-Themen

Aktuelle Themen (A bis Z)

Administrator.de FeedbackApache ServerAppleAssemblerAudioAusbildungAuslandBackupBasicBatch & ShellBenchmarksBibliotheken & ToolkitsBlogsCloud-DiensteClusterCMSCPU, RAM, MainboardsCSSC und C++DatenbankenDatenschutzDebianDigitiales FernsehenDNSDrucker und ScannerDSL, VDSLE-BooksE-BusinessE-MailEntwicklungErkennung und -AbwehrExchange ServerFestplatten, SSD, RaidFirewallFlatratesGoogle AndroidGrafikGrafikkarten & MonitoreGroupwareHardwareHosting & HousingHTMLHumor (lol)Hyper-VIconsIDE & EditorenInformationsdiensteInstallationInstant MessagingInternetInternet DomäneniOSISDN & AnaloganschlüsseiTunesJavaJavaScriptKiXtartKVMLAN, WAN, WirelessLinuxLinux DesktopLinux NetzwerkLinux ToolsLinux UserverwaltungLizenzierungMac OS XMicrosoftMicrosoft OfficeMikroTik RouterOSMonitoringMultimediaMultimedia & ZubehörNetzwerkeNetzwerkgrundlagenNetzwerkmanagementNetzwerkprotokolleNotebook & ZubehörNovell NetwareOff TopicOpenOffice, LibreOfficeOutlook & MailPapierkorbPascal und DelphiPeripheriegerätePerlPHPPythonRechtliche FragenRedHat, CentOS, FedoraRouter & RoutingSambaSAN, NAS, DASSchriftartenSchulung & TrainingSEOServerServer-HardwareSicherheitSicherheits-ToolsSicherheitsgrundlagenSolarisSonstige SystemeSoziale NetzwerkeSpeicherkartenStudentenjobs & PraktikumSuche ProjektpartnerSuseSwitche und HubsTipps & TricksTK-Netze & GeräteUbuntuUMTS, EDGE & GPRSUtilitiesVB for ApplicationsVerschlüsselung & ZertifikateVideo & StreamingViren und TrojanerVirtualisierungVisual StudioVmwareVoice over IPWebbrowserWebentwicklungWeiterbildungWindows 7Windows 8Windows 10Windows InstallationWindows MobileWindows NetzwerkWindows ServerWindows SystemdateienWindows ToolsWindows UpdateWindows UserverwaltungWindows VistaWindows XPXenserverXMLZusammenarbeit

gelöst Batch OCR gesucht mit Dateifilterfunktionen

Mitglied: greatmgm

greatmgm (Level 2) - Jetzt verbinden

21.01.2020 um 13:56 Uhr, 455 Aufrufe, 13 Kommentare

Hallo zusammen,

bin jetzt vielleicht bei Windows Tools nicht ganz richtig, aber kein anderes Forum hätte eher gepasst.
Wir benutzen aktuell AbbyyFineReader-HotFolder um PDFs in einem bestimmten Ordner (plus Unterordnern) via OCR durchsuchbar zu machen.
Das scheint aber die einzige Möglichkeit zu sein, die PDF-Auswahl einzuschränken (also entweder mit oder ohne Unterordner).
Uns interessiert noch ein Dateifilter, zBsp. der Form:

- durchsuche alle Ordner und Unterordner aber mache nur OCR mit PDF-Dateien die ein "A" im Dateinamen haben

oder

- durchsuche alle Ordner und Unterordner aber mache nur OCR mit PDF-Dateien die ein "\2\" im Dateipfad haben

Freue mich über Tipps, kann auch Geld kosten.

Danke.
Mitglied: TechnokratVogt
LÖSUNG 21.01.2020 um 14:09 Uhr
Es gibt dafür einen Dockercontainer, funktioniert echt gut, und verbraucht so gut wie keine Ressourcen https://github.com/jbarlow83/OCRmyPDF
Solltet ihr eine Synology Diskstation haben welche Docker unterstützt ist synOCR vlt was für dich https://www.synology-forum.de/showthread.html?99647-synOCR-GUI-f%C3%BCr- ...
Nutze ich selbst auch. Alles was eingescannt wird landet auf der Synology im Ordner der über cloud sync mit OneDrive synchronisiert wird. Dann läuft Stündlich der synOCR Task und wandelt die PDFs um.
Bitte warten ..
Mitglied: 142232
LÖSUNG 21.01.2020, aktualisiert um 14:12 Uhr
- durchsuche alle Ordner und Unterordner aber mache nur OCR mit PDF-Dateien die ein "A" im Dateinamen haben
Dafür brauchst du kein extra Tool da reicht z.B. auch die Powershell für
durchsuche alle Ordner und Unterordner aber mache nur OCR mit PDF-Dateien die ein "\2\" im Dateipfad haben
Bitte warten ..
Mitglied: greatmgm
21.01.2020 um 14:36 Uhr
Danke euch beiden, die Kombination aus beiden Tipps ist dann meine Lösung
Bitte warten ..
Mitglied: monstermania
21.01.2020 um 15:19 Uhr
Zitat von TechnokratVogt:
Es gibt dafür einen Dockercontainer, funktioniert echt gut, und verbraucht so gut wie keine Ressourcen https://github.com/jbarlow83/OCRmyPDF
Solltet ihr eine Synology Diskstation haben welche Docker unterstützt ist synOCR vlt was für dich https://www.synology-forum.de/showthread.html?99647-synOCR-GUI-f%C3%BCr- ...
Nutze ich selbst auch. Alles was eingescannt wird landet auf der Synology im Ordner der über cloud sync mit OneDrive synchronisiert wird. Dann läuft Stündlich der synOCR Task und wandelt die PDFs um.
Sorry, aber einen Abbyy Finereader mit einer Toolsammlung wie OCRmyPDF zu vergleichen, ist wieder mal der berühmte Äpfel und Birnen vergleich. OCR machen beide, aber die Qualität bei der Texterkennung ist doch die entscheidende Frage.
Ich war viele Jahre beruflich im Bereich Dokumentenmanagement und OCR unterwegs und m.E. sind die einzig wirklich qualitativ guten OCR Engines von Abbyy oder Nuance!
Bitte warten ..
Mitglied: greatmgm
24.01.2020 um 09:45 Uhr
nur kurz zur Info (wenn es interessiert).
Hab mir ein kleines Programm geschrieben, was rekursiv meine gewünschten Datenpfade durchstöbert und auf validen Dateinnamen überprüft (also zBsp. nur Dateien aus einem übergeordneten Ordner "2").
Diese Datei(en) schicke ich dann an das Programm "ocr console" (das benutzt die engine von Nuance), hier kann man dann eine Textdatei erstellen lassen oder wieder eine PDF. Einziges Manko ... 1000 Euro einmalig.
Ich teste mal noch, sieht aber ganz gut aus.
Bitte warten ..
Mitglied: monstermania
24.01.2020 um 11:41 Uhr
Hmm,
ich dachte das Ihr Abbyy FineReader einsetzt? Das ist ja selbst in der Corporate Version um einiges preiswerter als 1000€.

So recht verstanden habe ich Dein Ursprungsproblem aber ohnehin nicht (Sorry dafür). In der Regel handelt es sich ja um gescanntes Papier, dass man per OCR (wieder) durchsuchbar machen will.
Ich versuche daher immer die Scandateien die ich weiterverarbeiten möchte möglichst nativ an die OCR weiterzureichen. Wenn es irgend geht nutze ich immer Scans im TIF G4-Format (300dpi Dithering-Mode). Der OCR Prozess macht dann aus den Scans durchsuchbare PDF-Dateien.
Schon vorhandene PDF-Dateien nochmals durch die OCR zu jagen und ein neues PDF daraus zu erstellen erschließt sich mir nicht so recht.
a) Entweder habe ich native erzeugte PDF-Dateien, die ohnehin Volltext-Durchsuchbar sind
b) Es handelt sich um gescannte PDF-Dateien... Nur warum überhaupt aus einem Scan erstmal ein PDF erzeugen!?
Bitte warten ..
Mitglied: greatmgm
27.01.2020 um 10:28 Uhr
Hallo,

nein es sind eher PDF die wir von extern bekommen und die werden von den verschiedenen Abt. in entsprechende Ordner gelegt. Und in nur einigen Ordnern ist die Durchsuchbarkeit wichtig ... und das jetzt auch noch rückwirkend. Diese Unterordner sind projektbezogen angelegt, Projekte haben wir 2000-3000 pro Jahr. Hier kann ich also mit HotFolder von Abbyy entweder das Jahr durchsuchen aber damit wieder alle Ordner oder ein HotFolder Task pro Projekt ist ja auch fern jeder Praxis. Abbyy hat mir bereits mitgeteilt das es keine Filterfunktionen im HotFolder-Programm gibt. Deshalb habe ich nach Alternativen gesucht und mit OCR Konsole eine gefunden.
Bitte warten ..
Mitglied: monstermania
27.01.2020 um 11:14 Uhr
Hmm,
ok, aber warum nicht einfach selbst eine Lösung bauen, wenn Du ohnehin schon etwas programmieren musstest!?
Du kannst doch selbst per Powershell oder vbs einen entsprechenden Job bauen. Du musst dann halt einmalig Deine Ordnerstruktur durchsuchen und alle PDF-herausfinden, die nicht durchsuchbar sind. Diese PDF ohne Text kopierst Du dann an Deinen Hot-Folder.
Nach der Konvertierung ersetzt dann das neue searchable PDF das alte PDF (ggf. werden die Orginal-Daten in einen Sicherungsordner verschoben).

Über ein Tool wie z.B. Logmon könnte man die ganze Ordnerstruktur überwachen. Immer wenn ein neues PDF in der Struktur abgelegt wird, findet die Überprüfung statt, ob das abgelegte PDF searchable ist oder nicht. Wenn nicht, wird das PDF in den Hot-Folder übergeben und konvertiert. Die Unterscheidung, dass nur bestimmte PDF searchable sein sollen/müssen würde ich gar nicht erst machen.

M.E. ist so eine Lösung viel flexibler anpassbar und Du kannst eigentlich jede beliebige bzw. die beste OCR-Engine nutzen.
Bitte warten ..
Mitglied: greatmgm
27.01.2020 um 15:39 Uhr
Ja das ist auch eine Möglichkeit, leider erlaubt Abbyy HotFolder nur 1000 PDfs pro Monat, das würde ab Start heute möglicherweise reichen. Für die rückwirkende Konvertierung wirds eng ... alleine in 2019 habe ich 59.000 PDFs gefunden ;)
Ich zeig das mal meinen Entscheidern, wenn das rückwirkend wichtig ist müssen sie halt 1000 Euro berappen, ansonsten kann ich wirklich mit einem eigenen tool einen HotFolder bedienen und PFDs hinschicken und konvertierte zurückholen.

Danke.
Bitte warten ..
Mitglied: monstermania
LÖSUNG 27.01.2020 um 16:33 Uhr
Zitat von greatmgm:

Ja das ist auch eine Möglichkeit, leider erlaubt Abbyy HotFolder nur 1000 PDfs pro Monat, das würde ab Start heute möglicherweise reichen. Für die rückwirkende Konvertierung wirds eng ... alleine in 2019 habe ich 59.000 PDFs gefunden ;)
Ups...
Stimmt, da war ja was. Ich glaube der Hot Folder ist beim FineReader sogar auf 5.000 Seiten/Monat beschränkt!
Aber das Problem wirst Du bei den meisten Lösungen haben. BTW: Hab gerade mal nachgeschaut. OCR Console ist auf 25.000 Seiten/Monat beschränkt.

Ich hab vor ein paar Jahren mal ein AutoHotKey-Script gebastelt, mit dem ich Abbyy FineReader Pro automatisiert hab. Damit konnte ich dann unbeschränkt gescannte Dateien in searchable PDF umwandeln. Sozusagen ein Batch-Mode per Hintertür.
Bitte warten ..
Mitglied: greatmgm
28.01.2020 um 08:27 Uhr
Stimmt AutoHotkey wäre tatsächlich noch eine Option mmmh für mehr als 25.000 Seiten pro Monat gilt dann eine andere Lizenz und das dürfte dann den Rahmen sprengen :/

Aber deine Tipps waren schon hilfreich. Danke.
Bitte warten ..
Mitglied: monstermania
LÖSUNG 06.02.2020, aktualisiert um 12:02 Uhr
Zitat von monstermania:
Ich hab vor ein paar Jahren mal ein AutoHotKey-Script gebastelt, mit dem ich Abbyy FineReader Pro automatisiert hab. Damit konnte ich dann unbeschränkt gescannte Dateien in searchable PDF umwandeln. Sozusagen ein Batch-Mode per Hintertür.
Hab mal nach dem AutoHotkey Skript geschaut. War aber nicht für FineReader Pro, sondern für FineReader Sprint 12.
Aber sollte mit entsprechenden Anpassungen natürlich auch mit dem FR Pro laufen.
Der Abbyy Finereader Sprint muss einmalig manuell konfiguriert werden:
- Ausgabedateiformat (z.B. pdf/a)
- Zielverzeichnis der Ausgabedatei

Das Skript mit Autohotkey kompilieren.
Die EXE wird dann mit der zu konvertierenden Tif-Datei als Parameter aufgerufen (FR_ahk.exe "c:\scandatei.tif")
Anschließend wird dann der komplette Prozess automatisch durchgeführt. Wenn die Konvertierung erfolgreich war, findet man im Zielverzeichnis die "scandatei.pdf".
Über die Rückgabewerte der EXE lassen sich evtl. Fehler und deren Ursprungsort lokalisieren. Hat aber soweit ich mich noch erinnere problemlos mit mehreren Tausend Scandateien funktioniert (Multipage-Tif).


PS: Das Skript funktioniert nur mit der deutschen Sprach-Installation von FR Sprint!
Bitte warten ..
Mitglied: greatmgm
13.02.2020 um 15:00 Uhr
Super !
Danke.
Da werde ich mich mal mit AutoHotKey beschäftigen.
Bitte warten ..
Ähnliche Inhalte
Hosting & Housing
Nextcloud Volltextsuche (OCR)
Frage von D46505PlHosting & Housing5 Kommentare

Hallo Zusammen, ich habe Nextcloud auf einem Debian 8 laufen und die Erweiterung "Elaticsearch" installiert. Wenn ich ein Dokument ...

Batch & Shell
Batch erweiterung gesucht
Frage von Data61Batch & Shell7 Kommentare

Hallo zusammen, ich möchte gerne eine Batch Datei erweitern. Diese für derzeit die Datensicherung von 2012 R2 auf ein ...

Windows Tools
Tipp für gutes OCR Programm?
gelöst Frage von QQR700Windows Tools4 Kommentare

Hallo, ich bin auf der Suche nach einem guten OCR-Programm (für Windows 7). Es soll eine hohe Erkennungsrate haben ...

Batch & Shell
Batch Sonderzeichen-codes gesucht!
Frage von ElHuttiBatch & Shell12 Kommentare

Hallo, Könnte mir vielleicht bitte jemand die Codes für Smileys, Formen und andere Zeichen, die nicht auf der Tastatur ...

Neue Wissensbeiträge
Microsoft Office

Office 365 Makro Schutz nicht immer per GPO möglich

Information von sabines vor 3 TagenMicrosoft Office5 Kommentare

Der zum Schutz gegen Verschlüsselungstrojaner wichtige Makroschutz lässt sich wohl in Office 365 nicht immer per GPO einstellen. Für ...

Netzwerkmanagement
How To Mikrotik Netinstall
Erfahrungsbericht von areanod vor 5 TagenNetzwerkmanagement

Jedes Mal wenn ich Netinstall längere Zeit nicht benutzt habe stolpere ich über die „Besonderheiten“ dieser Software. Das ist ...

Microsoft
Microsoft: LDAPS per Update als Default
Information von em-pie vor 5 TagenMicrosoft2 Kommentare

Hallo, Microsoft wird mit einem der zukünftigen Updates LDAP auf LDAPS per Default umstellen. Admins von angebundenen Systemen die ...

Humor (lol)

Funny: Warum es immer schwieriger wird, die richtigen Produkte online zu finden

Information von Dilbert-MD vor 6 TagenHumor (lol)21 Kommentare

Wir befinden uns in der Rubrik "Off Topic - Humor" und in 15 Minuten ist Freitag. und ja, es ...

Heiß diskutierte Inhalte
Netzwerkgrundlagen
Reichweite bei Netzwerkdruckern mit Kupfer
gelöst Frage von OIOOIOOIOIIOOOIIOIIOIOOONetzwerkgrundlagen40 Kommentare

Guten Tag, aus gegebenem Anlass, möchte ich euch fragen, was aus eurer Sicht, eine akzeptable Reichweite bei einem Netzwerkdrucker ...

Visual Studio
Aufgabenplaner führt Programm inkorrekt aus
Frage von TallerBiskusVisual Studio22 Kommentare

Hallo Leute :) Ich habe ein sehr seltsames Phänomen. Folgende Gegebenheiten : Wir haben einen Windows Server 2012 R2 ...

Hardware
Stromausfalllogger
Frage von certifiedit.netHardware21 Kommentare

Guten Nachmittag, welche Geräte könnt Ihr empfehlen um Stromausfälle, optimalerweise auch Frequenzstörungen zu loggen? Geht hier um keinen konkreten ...

Windows Tools
Autologoff Local User Windows 10 bei idle Time von 900 Sekunden
Frage von Hendrik2586Windows Tools19 Kommentare

Hallo ihr lieben. :) Ich hatte das Thema schon mal vor einer Weile, aber nun muss ich es nochmal ...