OCR Erkennung auf Server

Mitglied: KodaCH

KodaCH (Level 2)

28.03.2020 um 09:00 Uhr, 705 Aufrufe, 15 Kommentare

Guten Morgen

Bisher habe ich einen HP LaserJet Pro MFP M426fdw. Da es nicht viele Dokumente zum Scannen gibt funktioniert es mit dem Flachbettscanner ganz gut. Der ADF verwende ich eigentlich nie da die Dokumente so oder so immer schräg kommen.

Gerne würde ich in einen Netzwerkordner scannen, und von dort aus automatisch durchsuchbare PDFs erhalten. Da ich bisher immer mit Abbyy FineReader gearbeitet habe, wäre eine Überlegung auf Abbyy FineReader 15 Corporate zu wechseln damit ich die HotFolder funktion hätte. Diese ist wohl in der Standardversion nicht enthalten. So könnte ich FineReader auf einem Server installieren und gut ist.

Ich frage mich aber ob es nicht (preislich logisch teurere) Scanner modelle gibt die eine Server Software bereit stellen mit der ich dies auch erledigen könnte. So bezahle ich zwar mehr als nur für FineReader, hätte aber ggf einen Scanner bei dem ich auch den ADF Einzug verwenden könnte ohne das alles Schräg gescannt ist

Bei den meisten Scannern steht zwar OCR aber nicht ob diese automatisiert erfolgt wenn ich in einen Netzwerkordner scanne wenn nur ein Server läuft.

Vielen Dank schon im Voraus für eure Tipps.

Gruss

Koda
Mitglied: NordicMike
28.03.2020 um 09:25 Uhr
USB Scanner haben immer eine extra Software, aber keine Hotfolder Funktion.
Netzwerkscanner haben die Software bereits integriert, also auch nicht auf dem Server.
Abby wäre auf jeden Fall die richtige Wahl. Omnipage ist auch sehr gut und hat ebenfalls Hotfolder.

Wegen der höchstmöglichen Erkennungsqualität würde ich auch nichts anderes einsetzen wollen.
Mitglied: KodaCH
28.03.2020 um 09:37 Uhr
Guten Morgen

Danke für deine Antwort. Verwendest du Abbyy? Welche Version setzt du ein? Corporate oder Standard? Ich kann gerade die Standard Version nicht testen ob dort Hot Folder wirklich nicht klappt.

Der MFP ist ein Netzwerkgerät. Aber denke ein "zu günstiges" um es zu unterstützen.

Aber wenn ich dich richtig verstehe würdest du eher weiter den Flachbettscanner nutzen da es wenige Dokumente sind und eher in Abbyy Corporate (falls nötig) zu investieren?
Mitglied: NordicMike
28.03.2020 um 10:25 Uhr
Ich selbst verwende Omnipage als Hotfolder (deutlich günstiger). Mein Netzwerkscanner hat zwar auch ein integriertes Windows Embedded mit einer guten Texterkennung, aber ich habe noch einen Multifunktionsdrucker mit grottiger Texterkennung. Deswegen speichere ich alles in den Omnipage Ordner. Omnipage legt es dann in den DMS Ordner ab.
Mitglied: KodaCH
28.03.2020 um 10:47 Uhr
Verwendest du eigentlich Trennblätter? Schaue mir gerade OmniPage an, habe aber noch keine derartige Funktion gefunden.
Mitglied: NordicMike
28.03.2020 um 10:58 Uhr
Trennblätter bei einem Flachbettscanner? Nicht Dein Ernst, oder?
Mitglied: KodaCH
28.03.2020 um 11:13 Uhr
Zitat von NordicMike:

Trennblätter bei einem Flachbettscanner? Nicht Dein Ernst, oder?
Natürlich nicht bei der verwendung des Flachbettscanners. Aber der MFP hat wie gesagt auch einen Einzug, und wenn ich den doch mal verwende oder einen neuen habe wäre es ja gut wenn die Software dies erkennen kann.
Mitglied: DerWoWusste
28.03.2020, aktualisiert um 12:09 Uhr
Hi.

Ich habe bei uns eine Freigabe, in die gescannt wird, und von Adobe Acrobat OCR bewacht wird. Da Acrobat kein Hotfolder kann, habe ich das selbst gebaut. Dazu benötigt man ein Plugin wie Autobatch: https://www.evermap.com/autobatch.asp

Ich fand schon immer die Resultate des Acrobat OCR den anderen Softwares (FineReader/Omnipage) weit überlegen, aber da mögen andere verschiedener Meinung sein.
Mitglied: StefanKittel
28.03.2020 um 11:25 Uhr
Moin,

wir verwenden einen Fujitsu IX500 per USB mit der Fujitsu Software (Finereaderplugin) und einem Scan-PC.
Der steht unter dem Tisch und erstellt PDF Dateien auf die man per Netzwerk und Freigabe zugreifen kann.

Trennblätter verwenden wir nicht da der Scanner schnell genug ist.

Stefan
Mitglied: NordicMike
28.03.2020 um 11:38 Uhr
Bei mit erkennt der Netzwerkscanner die Trennblätter. Omnipage gibt sie weiter wie sie kommen. Wenn ein 20-Seitiges PDF Dokument kommt, ist es danach immer noch ein 20-seitiges PDF. Mein DMS würde auch Trennblätter erkennen, wenn sie der Scanner nicht schon mundgerecht vorgekaut hätte. Spätestens dieser würde dann zwischen den 20 Seiten ein Trennblatt erkennen.
Mitglied: tomolpi
28.03.2020 um 12:25 Uhr
Hallo @Koda,

ich habe sowas mithilfe von Tesseract (https://github.com/tesseract-ocr/tesseract) und etwas Code drumrum selber umgesetzt.
Kannst du programmieren?

LG

tomolpi
Mitglied: KodaCH
28.03.2020 um 12:58 Uhr
Hallo zusammen

Aktuell habe ich da noch ein paar Stolpersteine und versuche diese allgemein noch zu entfusseln. Mein Ziel ist es Dokumente automatisch in Ordner zu bekommen. Dies ist mittels File Juggler sehr einfach möglich. Dafür benötige ich aber noch Möglichkeiten die Dokumente zu Scannen und sie möglichst sauber in Durchsuchbare PDFs zu bekommen. Bisher stehe ich da aber noch vor folgenden Schwierigkeiten

Mein bisheriger Scanner ist ein HP LaserJet Pro MFP M426fdw welcher direkt in einen Netzwerkordner Scannt. Ebenfalls kommen PDF Dokumente per Mail oder anderen Quellen rein die jedoch kein OCR mehr benötigen.

  • Ggf einen anderen Scanner der eine art Hardware OCR beherrscht und vorallem wo der Einzug besser macht als mein MFP. Ich erhalte alle Blätter in Schräglage
  • Möglichkeit leere Seiten bereits zu entfernen
  • Möglichkeit mit Trennblätter zu arbeiten, dass er mir dann jeweils ein neues PDF erstellt wenn er ein Trennblatt erkennt.

Soviel ich bisher herausgefunden habe benötigt es für die unteren zwei Punkte einen anderen Scanner, finde aber zu diesen Themen bisher bei den verschiedenen Herstellern zu wenig Informationen. Angeschaut habe ich mir bereits Modelle wie der HP ScanJet Pro oder die Epson WorkForce DS Geräte. Ich bin aber auch noch bei anderen dran.

Wie oben beschrieben habe ich mir schon verschiedene Möglichkeiten überlegt. Darunter eine Software auf einem Windows Server zu betreiben. Zur Auswahl bisher wäre
  • Abbyy Fine Reader 15: Hier benötigt es die Corporate Variante, und ich habe bei der Hot Folder funktion bisher noch kein vernünftiges Ergebnis hinbekommen wenn ein PDF bereits durchsuchbar ist. Ich finde keine Option damit Abbyy die Dokumente direkt verschiebt wenn er merkt es ist bereits Durchsuchbar.
  • OmniPage: Hier besteht beim HotFolder das selbe Problem wie bei Abbyy. Ebenfalls habe ich das Gefühl, dass Abbyy das bessere ergebniss liefert.
Acrobat DC: Finde ich Preislich für eine Software etwas zu hoch wenn es nur für OCR benötigt wird. Zumal hier noch ein teures Plugin dazu kommen würde.
Tesseract: Ich habe mir die Software vor wenigen Jahren mal mit einem Shellscript angeschaut. Dort war das ergebniss mehr schlecht als recht. Aber da es schon etwas her ist müsste ich dies ggf mal noch tun. Aber erstmal schauen ob er bereits erkannte PDFs ignorieren kann :D

Gruss

Koda
Mitglied: NordicMike
28.03.2020 um 13:13 Uhr
Das kommt jetzt wirklich auf die Menge an. Wie werden denn die Dokumente vom Menschen wieder gefunden, wenn mehrere Dokumente in einem Ordner liegen? Die Scanner machen einen universellen Namen+Zeitstempel. Dann weißt Du immer noch nicht, was das ist. Du musst alle Dateien nacheinander anklicken und Dir eine Vorschau anzeigen lassen. Mit File Juggler kannst Du über Regeln umbenennen lassen, aber Du kannst nur nach Stichworten im Inhalt gehen. Dann landet eine Rechnung auch mal wo anders, weil du die Regel nicht fein genug definieren kannst. Und Du bist ständig am korrigieren und Nachtflügen der Regeln.

Dir fehlt scheinbar ein DMS.
Mitglied: KodaCH
28.03.2020 um 13:21 Uhr
File Juggler: Ich hab mich da die letzten Tage mit befasst und kann eigentlich die Regeln sehr Präzise erstellen. Da es pro Rechnungssteller eine Regel gibt und nicht generell nach Rechnung gesucht wird geht dies denke ich in meinem Prozess gut auf.

Suche: Es wird eher selten nach den Dokumenten gesucht. Dies soll vorallem als Dokumentenarchiv funktionieren. Gesucht wird über zusätzliche Programme wie Total Commander oder Agent Ransack

DMS: Wenn das nur so einfach wäre :D. Einerseits dürfte ein DMS für ein Dokumentenarchiv ggf etwas Oversized sein. Es benötigt keine Revsionsnummer, keine Revisionssicherheit oder Collaborales Arbeiten. Bisher habe ich hier einige freie DMS getestet die alle nicht so geeignet waren, und unter den Kostenpflichtigen bisher zwei Stück

ecoDMS: Kostengünstige Lizenz, aber extrem Mühsam damit zu arbeiten. Die Vorlagen für die Klassifizierung werden teilweise nicht erkannt. Gem. ecoDMS wird das kontinuierlich verbessert. Aber so bekomme ich für mich keine zufriedenstellende automatisierung hin.

ELOoffice: Hier gefällt mir schonmal sehr gut das elo bereits Ordner zu den einzelnen Kunden erstellt. Ich habe das Gefühl die Verwaltung ist einfacher und übersichtlicher als mit ecoDMS. Aber auch hier ist es mehr Handarbeit als es nötig wäre. Auch eine Mobile Möglichkeit fehlt mir hier aktuell. Aber ELOoffice bin ich im Moment auch noch am testen um einen besseren Eindruck zu gewinnen.

Gruss

Koda
Mitglied: NordicMike
28.03.2020 um 13:31 Uhr
Ich verwende das EcoDMS. Die Klassifizierungsvorlagen hängen von der OCR Erkennungsqualität ab und da versagt EcoDMS grauenhaft. Deswegen ein OCR davor, dann kommt EcoDMS super damit klar. Auch kann man gut mit den regex Filtern arbeiten.
Mitglied: monstermania
30.03.2020 um 10:29 Uhr
Moin,
ein paar Anmerkungen:
Multifunktionsgeräte mit HW OCR
Logischerweise gibt es keine HW-OCR! OCR wird immer in Software gemacht. Bei Geräten, die eine entsprechende Option vorhanden ist, ist halt eine entsprechende OCR-Software implementiert. Die OCR-Qualität hängt dann eben von der verwendeten Engine ab. Und die Option kostet i.d.R. Geld, da die OCR zumeist optional angeboten wird! Trotzdem kann das durchaus sinnvoll sein. Die Hot-Folder Funktionen sind bei z.B. bei Abbyy oder Omnipage beschränkt (z.B. 5.000 Seiten/Monat!!!). Wenn man also ein entsprechendes Scanvolumen hat, mag es günstiger sein eine OCR bereits auf den Multifunktionsgerät zu machen (wenn es Denn eine gute OCR-Engine gibt!!!).
Man kann per Autohotkey aber auch ein Abbyy Finereader Sprint für die Massenkonvertierung nutzen. Die Sprint-Versionen sind gern mal bei Multifunktionsgeräten dabei ( z.B. bei OKI-Geräten). Hier habe ich dazu mal ein AHK-Script dazu gepostet: https://administrator.de/forum/batch-ocr-gesucht-dateifilterfunktionen-5 ...

Shit-In -> Shit-Out
OCR lebt von der Scanqualität!!! Wer hier mit einem billigen Scanner/Kopierer oder den falschen Einstellungen scannt, darf sich nicht wundern wenn er keine vernünftige OCR-Erkennungsrate herausbekommt! Es macht eben einen riesen Unterschied, ob man nur 99,2 oder 99,8% aller Zeichen richtig erkennt!

Trennblätter.
Ja, kann man machen. Ich würde aber mit Barcode-Aufklebern arbeiten. Zum Einen kann man damit eine Dublettenprüfung bei gescannten Dokumenten vornehmen (Jeden Barcode darf es nur einmal geben). Auch lassen sich damit ziemlich einfach Dokumente zu Buchungen verknüpfen. Wenn z.B. die Buchhaltung beim buchen die Barcodenummer erfasst/scannt, hat man gleiche eine 1zu1 Verbindung von Dokument zu Buchungssatz.
Zur Barcodeerkennung kann man wunderbar die Open Source-Lösung 'zbar' nutzen!

ELO Office
Geiles Tool und absolut unterschätzt! ELO bietet mit der genialen ELO Automation Schnittstelle (vb Script) eine Programmierschnittstelle um (fast) Alles vollautomatisch erledigen zu können! Dann gibt es dann noch den ELO Scan Connector...
Ich habe für meinen alten AG mit einem ELO Office (~300EUR), den Open Source Tools ImageMagick und zbar und etwas vb Script einen vollautomatischen Belegimportierung für das DMS Easy Archiv gebaut. Damit haben wir im Monat mehrere tausend Seiten Papier automatisch verarbeitet (Fertigungsaufträge/Laufkarten/Prüfstandprotokolle/Abliefernachweise).
Allein die notwendigen SW-Lizenzen um das gleiche mit Easy umsetzten zu können hätten rund 8000€ gekostet! Dazu wären dann noch mehrere Tage DL angefallen.
Titel: OCR Erkennung auf Server
Content-ID: 561648
Art des Inhalts: Frage
Ausgedruckt am: 14.07.2020 um 03:38:17 Uhr
URL: https://administrator.de/contentid/561648