Top-Themen

Aktuelle Themen (A bis Z)

Administrator.de FeedbackApache ServerAppleAssemblerAudioAusbildungAuslandBackupBasicBatch & ShellBenchmarksBibliotheken & ToolkitsBlogsCloud-DiensteClusterCMSCPU, RAM, MainboardsCSSC und C++DatenbankenDatenschutzDebianDigitiales FernsehenDNSDrucker und ScannerDSL, VDSLE-BooksE-BusinessE-MailEntwicklungErkennung und -AbwehrExchange ServerFestplatten, SSD, RaidFirewallFlatratesGoogle AndroidGrafikGrafikkarten & MonitoreGroupwareHardwareHosting & HousingHTMLHumor (lol)Hyper-VIconsIDE & EditorenInformationsdiensteInstallationInstant MessagingInternetInternet DomäneniOSISDN & AnaloganschlüsseiTunesJavaJavaScriptKiXtartKVMLAN, WAN, WirelessLinuxLinux DesktopLinux NetzwerkLinux ToolsLinux UserverwaltungLizenzierungMac OS XMicrosoftMicrosoft OfficeMikroTik RouterOSMonitoringMultimediaMultimedia & ZubehörNetzwerkeNetzwerkgrundlagenNetzwerkmanagementNetzwerkprotokolleNotebook & ZubehörNovell NetwareOff TopicOpenOffice, LibreOfficeOutlook & MailPapierkorbPascal und DelphiPeripheriegerätePerlPHPPythonRechtliche FragenRedHat, CentOS, FedoraRouter & RoutingSambaSAN, NAS, DASSchriftartenSchulung & TrainingSEOServerServer-HardwareSicherheitSicherheits-ToolsSicherheitsgrundlagenSolarisSonstige SystemeSoziale NetzwerkeSpeicherkartenStudentenjobs & PraktikumSuche ProjektpartnerSuseSwitche und HubsTipps & TricksTK-Netze & GeräteUbuntuUMTS, EDGE & GPRSUtilitiesVB for ApplicationsVerschlüsselung & ZertifikateVideo & StreamingViren und TrojanerVirtualisierungVisual StudioVmwareVoice over IPWünsch Dir wasWebbrowserWebentwicklungWeiterbildungWindows 7Windows 8Windows 10Windows InstallationWindows MobileWindows NetzwerkWindows ServerWindows SystemdateienWindows ToolsWindows UpdateWindows UserverwaltungWindows VistaWindows XPXenserverXMLZusammenarbeit

gelöst Batch OCR gesucht mit Dateifilterfunktionen

Mitglied: greatmgm

greatmgm (Level 2) - Jetzt verbinden

21.01.2020 um 13:56 Uhr, 1125 Aufrufe, 13 Kommentare

Hallo zusammen,

bin jetzt vielleicht bei Windows Tools nicht ganz richtig, aber kein anderes Forum hätte eher gepasst.
Wir benutzen aktuell AbbyyFineReader-HotFolder um PDFs in einem bestimmten Ordner (plus Unterordnern) via OCR durchsuchbar zu machen.
Das scheint aber die einzige Möglichkeit zu sein, die PDF-Auswahl einzuschränken (also entweder mit oder ohne Unterordner).
Uns interessiert noch ein Dateifilter, zBsp. der Form:

- durchsuche alle Ordner und Unterordner aber mache nur OCR mit PDF-Dateien die ein "A" im Dateinamen haben

oder

- durchsuche alle Ordner und Unterordner aber mache nur OCR mit PDF-Dateien die ein "\2\" im Dateipfad haben

Freue mich über Tipps, kann auch Geld kosten.

Danke.
Mitglied: TechnokratVogt
LÖSUNG 21.01.2020 um 14:09 Uhr
Es gibt dafür einen Dockercontainer, funktioniert echt gut, und verbraucht so gut wie keine Ressourcen https://github.com/jbarlow83/OCRmyPDF
Solltet ihr eine Synology Diskstation haben welche Docker unterstützt ist synOCR vlt was für dich https://www.synology-forum.de/showthread.html?99647-synOCR-GUI-f%C3%BCr- ...
Nutze ich selbst auch. Alles was eingescannt wird landet auf der Synology im Ordner der über cloud sync mit OneDrive synchronisiert wird. Dann läuft Stündlich der synOCR Task und wandelt die PDFs um.
Bitte warten ..
Mitglied: 142232
LÖSUNG 21.01.2020, aktualisiert um 14:12 Uhr
- durchsuche alle Ordner und Unterordner aber mache nur OCR mit PDF-Dateien die ein "A" im Dateinamen haben
Dafür brauchst du kein extra Tool da reicht z.B. auch die Powershell für
durchsuche alle Ordner und Unterordner aber mache nur OCR mit PDF-Dateien die ein "\2\" im Dateipfad haben
Bitte warten ..
Mitglied: greatmgm
21.01.2020 um 14:36 Uhr
Danke euch beiden, die Kombination aus beiden Tipps ist dann meine Lösung
Bitte warten ..
Mitglied: monstermania
21.01.2020 um 15:19 Uhr
Zitat von TechnokratVogt:
Es gibt dafür einen Dockercontainer, funktioniert echt gut, und verbraucht so gut wie keine Ressourcen https://github.com/jbarlow83/OCRmyPDF
Solltet ihr eine Synology Diskstation haben welche Docker unterstützt ist synOCR vlt was für dich https://www.synology-forum.de/showthread.html?99647-synOCR-GUI-f%C3%BCr- ...
Nutze ich selbst auch. Alles was eingescannt wird landet auf der Synology im Ordner der über cloud sync mit OneDrive synchronisiert wird. Dann läuft Stündlich der synOCR Task und wandelt die PDFs um.
Sorry, aber einen Abbyy Finereader mit einer Toolsammlung wie OCRmyPDF zu vergleichen, ist wieder mal der berühmte Äpfel und Birnen vergleich. OCR machen beide, aber die Qualität bei der Texterkennung ist doch die entscheidende Frage.
Ich war viele Jahre beruflich im Bereich Dokumentenmanagement und OCR unterwegs und m.E. sind die einzig wirklich qualitativ guten OCR Engines von Abbyy oder Nuance!
Bitte warten ..
Mitglied: greatmgm
24.01.2020 um 09:45 Uhr
nur kurz zur Info (wenn es interessiert).
Hab mir ein kleines Programm geschrieben, was rekursiv meine gewünschten Datenpfade durchstöbert und auf validen Dateinnamen überprüft (also zBsp. nur Dateien aus einem übergeordneten Ordner "2").
Diese Datei(en) schicke ich dann an das Programm "ocr console" (das benutzt die engine von Nuance), hier kann man dann eine Textdatei erstellen lassen oder wieder eine PDF. Einziges Manko ... 1000 Euro einmalig.
Ich teste mal noch, sieht aber ganz gut aus.
Bitte warten ..
Mitglied: monstermania
24.01.2020 um 11:41 Uhr
Hmm,
ich dachte das Ihr Abbyy FineReader einsetzt? Das ist ja selbst in der Corporate Version um einiges preiswerter als 1000€.

So recht verstanden habe ich Dein Ursprungsproblem aber ohnehin nicht (Sorry dafür). In der Regel handelt es sich ja um gescanntes Papier, dass man per OCR (wieder) durchsuchbar machen will.
Ich versuche daher immer die Scandateien die ich weiterverarbeiten möchte möglichst nativ an die OCR weiterzureichen. Wenn es irgend geht nutze ich immer Scans im TIF G4-Format (300dpi Dithering-Mode). Der OCR Prozess macht dann aus den Scans durchsuchbare PDF-Dateien.
Schon vorhandene PDF-Dateien nochmals durch die OCR zu jagen und ein neues PDF daraus zu erstellen erschließt sich mir nicht so recht.
a) Entweder habe ich native erzeugte PDF-Dateien, die ohnehin Volltext-Durchsuchbar sind
b) Es handelt sich um gescannte PDF-Dateien... Nur warum überhaupt aus einem Scan erstmal ein PDF erzeugen!?
Bitte warten ..
Mitglied: greatmgm
27.01.2020 um 10:28 Uhr
Hallo,

nein es sind eher PDF die wir von extern bekommen und die werden von den verschiedenen Abt. in entsprechende Ordner gelegt. Und in nur einigen Ordnern ist die Durchsuchbarkeit wichtig ... und das jetzt auch noch rückwirkend. Diese Unterordner sind projektbezogen angelegt, Projekte haben wir 2000-3000 pro Jahr. Hier kann ich also mit HotFolder von Abbyy entweder das Jahr durchsuchen aber damit wieder alle Ordner oder ein HotFolder Task pro Projekt ist ja auch fern jeder Praxis. Abbyy hat mir bereits mitgeteilt das es keine Filterfunktionen im HotFolder-Programm gibt. Deshalb habe ich nach Alternativen gesucht und mit OCR Konsole eine gefunden.
Bitte warten ..
Mitglied: monstermania
27.01.2020 um 11:14 Uhr
Hmm,
ok, aber warum nicht einfach selbst eine Lösung bauen, wenn Du ohnehin schon etwas programmieren musstest!?
Du kannst doch selbst per Powershell oder vbs einen entsprechenden Job bauen. Du musst dann halt einmalig Deine Ordnerstruktur durchsuchen und alle PDF-herausfinden, die nicht durchsuchbar sind. Diese PDF ohne Text kopierst Du dann an Deinen Hot-Folder.
Nach der Konvertierung ersetzt dann das neue searchable PDF das alte PDF (ggf. werden die Orginal-Daten in einen Sicherungsordner verschoben).

Über ein Tool wie z.B. Logmon könnte man die ganze Ordnerstruktur überwachen. Immer wenn ein neues PDF in der Struktur abgelegt wird, findet die Überprüfung statt, ob das abgelegte PDF searchable ist oder nicht. Wenn nicht, wird das PDF in den Hot-Folder übergeben und konvertiert. Die Unterscheidung, dass nur bestimmte PDF searchable sein sollen/müssen würde ich gar nicht erst machen.

M.E. ist so eine Lösung viel flexibler anpassbar und Du kannst eigentlich jede beliebige bzw. die beste OCR-Engine nutzen.
Bitte warten ..
Mitglied: greatmgm
27.01.2020 um 15:39 Uhr
Ja das ist auch eine Möglichkeit, leider erlaubt Abbyy HotFolder nur 1000 PDfs pro Monat, das würde ab Start heute möglicherweise reichen. Für die rückwirkende Konvertierung wirds eng ... alleine in 2019 habe ich 59.000 PDFs gefunden ;)
Ich zeig das mal meinen Entscheidern, wenn das rückwirkend wichtig ist müssen sie halt 1000 Euro berappen, ansonsten kann ich wirklich mit einem eigenen tool einen HotFolder bedienen und PFDs hinschicken und konvertierte zurückholen.

Danke.
Bitte warten ..
Mitglied: monstermania
LÖSUNG 27.01.2020 um 16:33 Uhr
Zitat von greatmgm:

Ja das ist auch eine Möglichkeit, leider erlaubt Abbyy HotFolder nur 1000 PDfs pro Monat, das würde ab Start heute möglicherweise reichen. Für die rückwirkende Konvertierung wirds eng ... alleine in 2019 habe ich 59.000 PDFs gefunden ;)
Ups...
Stimmt, da war ja was. Ich glaube der Hot Folder ist beim FineReader sogar auf 5.000 Seiten/Monat beschränkt!
Aber das Problem wirst Du bei den meisten Lösungen haben. BTW: Hab gerade mal nachgeschaut. OCR Console ist auf 25.000 Seiten/Monat beschränkt.

Ich hab vor ein paar Jahren mal ein AutoHotKey-Script gebastelt, mit dem ich Abbyy FineReader Pro automatisiert hab. Damit konnte ich dann unbeschränkt gescannte Dateien in searchable PDF umwandeln. Sozusagen ein Batch-Mode per Hintertür.
Bitte warten ..
Mitglied: greatmgm
28.01.2020 um 08:27 Uhr
Stimmt AutoHotkey wäre tatsächlich noch eine Option mmmh für mehr als 25.000 Seiten pro Monat gilt dann eine andere Lizenz und das dürfte dann den Rahmen sprengen :/

Aber deine Tipps waren schon hilfreich. Danke.
Bitte warten ..
Mitglied: monstermania
LÖSUNG 06.02.2020, aktualisiert um 12:02 Uhr
Zitat von monstermania:
Ich hab vor ein paar Jahren mal ein AutoHotKey-Script gebastelt, mit dem ich Abbyy FineReader Pro automatisiert hab. Damit konnte ich dann unbeschränkt gescannte Dateien in searchable PDF umwandeln. Sozusagen ein Batch-Mode per Hintertür.
Hab mal nach dem AutoHotkey Skript geschaut. War aber nicht für FineReader Pro, sondern für FineReader Sprint 12.
Aber sollte mit entsprechenden Anpassungen natürlich auch mit dem FR Pro laufen.
Der Abbyy Finereader Sprint muss einmalig manuell konfiguriert werden:
- Ausgabedateiformat (z.B. pdf/a)
- Zielverzeichnis der Ausgabedatei

Das Skript mit Autohotkey kompilieren.
Die EXE wird dann mit der zu konvertierenden Tif-Datei als Parameter aufgerufen (FR_ahk.exe "c:\scandatei.tif")
Anschließend wird dann der komplette Prozess automatisch durchgeführt. Wenn die Konvertierung erfolgreich war, findet man im Zielverzeichnis die "scandatei.pdf".
Über die Rückgabewerte der EXE lassen sich evtl. Fehler und deren Ursprungsort lokalisieren. Hat aber soweit ich mich noch erinnere problemlos mit mehreren Tausend Scandateien funktioniert (Multipage-Tif).


PS: Das Skript funktioniert nur mit der deutschen Sprach-Installation von FR Sprint!
Bitte warten ..
Mitglied: greatmgm
13.02.2020 um 15:00 Uhr
Super !
Danke.
Da werde ich mich mal mit AutoHotKey beschäftigen.
Bitte warten ..
Ähnliche Inhalte
Hosting & Housing
Nextcloud Volltextsuche (OCR)
Frage von D46505PlHosting & Housing5 Kommentare

Hallo Zusammen, ich habe Nextcloud auf einem Debian 8 laufen und die Erweiterung "Elaticsearch" installiert. Wenn ich ein Dokument ...

Drucker und Scanner

Dokumentenscanner mit OCR - Deckblatterkennung

gelöst Frage von bjoernsenDrucker und Scanner16 Kommentare

Guten Morgen. Wie schon im Topic erwähnt suche ich einen Dokumentenscanner mit oder gern auch eine optionale Dokumenterkennung / ...

Drucker und Scanner

OCR Erkennung auf Server

Frage von KodaCHDrucker und Scanner15 Kommentare

Guten Morgen Bisher habe ich einen HP LaserJet Pro MFP M426fdw. Da es nicht viele Dokumente zum Scannen gibt ...

Windows Tools

Tipp für gutes OCR Programm?

gelöst Frage von QQR700Windows Tools4 Kommentare

Hallo, ich bin auf der Suche nach einem guten OCR-Programm (für Windows 7). Es soll eine hohe Erkennungsrate haben ...

Neue Wissensbeiträge
Humor (lol)

Wie verhindere ich, dass Websitebesucher die Werbecookies abschalten?

Information von DerWoWusste vor 3 StundenHumor (lol)3 Kommentare

Ich habe gerade auf die Antwort gefunden: ich täusche einen langwierigen Änderungsprozess vor und biete nebenbei einen Cancelbutton, den ...

Sicherheit

Windows Setup erlaubt elevation of privilege plus DC Updates

Information von DerWoWusste vor 10 StundenSicherheit2 Kommentare

Eine interessante neue Sicherheitslücke. Details gibt es wenig, aber die klare Empfehlung: If you are using WSUS or MEM ...

Exchange Server

Exchange Server 2016 and the End of Mainstream Support

Information von Dani vor 23 StundenExchange Server

As hopefully many of you already know Exchange Server 2016 enters the Extended Support phase of its product lifecycle ...

Viren und Trojaner

Schwachstelle in Teamviewer oder aufgeflogene Backdoor?

Information von magicteddy vor 1 TagViren und Trojaner

Moin, die Interpretation überlasse ich jedem selber, ich habe eine deutliche Abneigung dagegen. Wer es nutzen muss sollte schleunigst ...

Heiß diskutierte Inhalte
Internet
VPN und Fritzbox
Frage von jensgebkenInternet29 Kommentare

Hallo Gemeinschaft, da der Support von AVM mir keine Antwort gibt, versuche ich es hier einmal HArdware 7490 zwei ...

Sicherheit
Verschlüsseln anstatt löschen ?
Frage von TastuserSicherheit19 Kommentare

Hallo, ist es möglich ganze Ordner auf Windows 10 zu verschlüsseln? Aber keine Kopien zu verschlüsseln (wie mit WinRAR) ...

Windows Server
Windows Server "mit" oder "ohne" Antivirensoftware
Frage von Dr.MabuseWindows Server16 Kommentare

Antiviren-Software: Fluch oder Segen? Die Frage der Sinnhaftigkeit von Antiviren-Software ist nicht neu Die Software kostet Performance, sorgt oft ...

Switche und Hubs
Neue Switches für Schule
Frage von Freak-On-SiliconSwitche und Hubs15 Kommentare

Servus; Eins Vorweg, bin leider in vielen Sachen noch nicht so erfahren. Und nein, ich kann LEIDER keinen Dienstleister ...

Administrator Magazin
08 | 2020 Cloud-First-Strategien sind inzwischen die Regel und nicht mehr die Ausnahme und Workloads verlagern sich damit in die Cloud – auch Datenbanken. Dort geht es aber nicht nur um die Frage, wie die Datenbestände in die Wolke zu migrieren sind, sondern auch darum, welche Datenbank ...