bjoernsen
Goto Top

Dokumentenscanner mit OCR - Deckblatterkennung

Guten Morgen.

Wie schon im Topic erwähnt suche ich einen Dokumentenscanner mit oder gern auch eine optionale Dokumenterkennung / OCR -Software.

Wir müssen mehrere Aktenschränke mit Verträgen digitalisieren (PDF). Die Verträge haben unterschiedliche Seitenanzahlen und Anhänge, aber eine gleiche erste Seite (keine Codes nur Vertragsnummernfeld und Vertragspartnerdaten enthalten). Diese soll der Dateitrennung für eine Stapelverarbeitung dienen.

Jemand Empfehlungen, die ich mir mal anschauen kann? Vor allem passende Software?

Grüße und dank!

Content-ID: 553727

Url: https://administrator.de/contentid/553727

Ausgedruckt am: 22.11.2024 um 00:11 Uhr

monstermania
Lösung monstermania 03.03.2020 aktualisiert um 08:33:27 Uhr
Goto Top
Moin,
grundsätzlich solltest Du erstmal die Frage klären, ob es um ein einmaliges Projekt handelt. In so einem Fall kann es durchaus sinnvoll sein, sich einen Scandienstleister ins Boot zu holen (Gesamtkosten).

Ansonsten sollte man die einzelnen Punkte voneinander trennen.
1. Scannen
2. Dokumenten bzw. Stapelerkennung
3. PDF-Konvertierung mit OCR (searchable PDF)

Zum Scannen kann man Spezielle Dokumentenscanner nutzen. Bei vielen Firmen wird zum Scannen aber auch der Kopierer/Multifunktionsgerät genutzt. Ich meine damit natürlich nicht den 99€ MFC von HP, sondern ein entsprechendes Großgerät mit vernünftigen ADF. Da schaffen manche Geräte 200-300 Scanseiten pro Minute (100-150 Blatt pro Minute bei Vor- und Rückseitenscan). Der Scan sollte bei mind. 300 dpi erfolgen. Da OCR gemacht werden soll, wäre ein Scan in 256 Graustufen optimal.
Für Dokumenten-/Stapelerkennung gibt es diverse Produkte (z.B. Kofax Ascent Capture, ELO Scan-Connector). Das geht aber ganz schnell richtig ins Geld, da viele Hersteller den Preis abhängig von den verarbeiteten Seiten/Monat festlegen.
Bei OCR dann wieder das Gleiche. Hier empfehle ich eigentlich immer Abbyy/Nuance. Die sind einfach die Besten, was die OCR-Erkennung angeht. Allerdings gilt auch hier, dass z.B. Abbyy Finereader Corporate auf 5000 Seiten/Monat beschränkt ist. Bei Nuance gibt es die gleiche Beschränkung.

PS: Der ELO Scan Connector für die Dokumenten-/Stapelerkennung ist bereits in ELO Office enthalten (~300€) und funktioniert auch in der Testversion von ELO Office. Damit könnte man ja mal Testen, ob Eure Deckseite problemlos erkannt wird.
https://elooffice.elo.com/blog/wp-content/uploads/2014/03/Connector-1.pd ...

Gruß
Dirk
Uschade
Lösung Uschade 03.03.2020 um 08:47:37 Uhr
Goto Top
Moin,

ich habe gute Erfahrungen mit dem Fujitsu-fi 7180 gemacht. Der kann im Grunde alles...simplex, duplex, Stapelverarbeitung...

Das sollte in etwa das sein, was du suchst.

Grüße
Uwe
bjoernsen
bjoernsen 03.03.2020 aktualisiert um 08:57:47 Uhr
Goto Top
Super, vielen Dank, das hilft mir schon mal. Über Abbyy bin ich im Bundle mit Scannern auch schon gestolpert. Das ELO schaue ich mir an und teste mal. Es handelt sich nicht um ein einmaliges Projekt, daher ist ein Dienstleister eher uninteressant. Auch zukünftige Verträge und diverses anderes wird nach Abschluss des ersten Steps digitalisiert.
beidermachtvongreyscull
Lösung beidermachtvongreyscull 03.03.2020 aktualisiert um 08:59:50 Uhr
Goto Top
Moin,

NSi AutoStore (Express)

das ist meine Empfehlung. Der Fairness halber sei erwähnt, dass die Software nicht billig ist, aber damit habe ich beste Erfahrungen gemacht.
Mittlerweile wurde das Produkt weiterverkauft. Du findest es hier:
https://www.kofax.de/sitecore/content/German/products/controlsuite/autos ...

Die Idee dahinter ist, dass Du einen Scanworkflow definieren kannst, der aus den Dokumenten bestimmte Infos herausziehen kann und damit die Verschlagwortung durchführt (z.B. Namensvergabe des Dateinamens).

Allerdings hat OCR Grenzen!
Du musst hochauflösend und ohne Interferenzen einscannen. Text in Tabellen oder auf grauem Muster wird nur meistens schlecht oder sehr fehlerhaft erkannt. Insofern weiß ich nicht, wie weit die automatische Verschlagwortung gehen soll.

Wir z.B. scannen immer mit 600DPI. Ich würde noch höher gehen, wenn die Scanner das könnten.
Dadurch entstehen gewaltige Scanjobs für unsere beiden Texterkennungsserver, aber das mindert die Fehlerzahl der OCR.

Nach der OCR und der Umwandlung in PDF, werden die Dokumente stark verdichtet.

Wir arbeiten übrigens mit Trennseiten. Das sind gelbe A4-Blätter, die mittig einen Barcode enthalten und rundherum den Patchcode "T".

Scanner-hardware:
Auch ich empfehle Fujitsu_Scanner der FI-Serie. Wir haben davon drei neben unseren Kopierern, die ebenfalls als Scanner fungieren.

Gruß
bdmvg
Daniel-Niewerth
Lösung Daniel-Niewerth 03.03.2020 um 09:09:31 Uhr
Goto Top
Schau dir mal die Software ecoDMS an.
Die Software kann ziemlich viel, die Lizenzkosten sind überschaubar und das Lizenzmodell ist wirklich Fair.
Es gibt auch eine kostenlose Lizenz für drei User. Damit kannst du fast alles machen was du auch mit der Kauf-Lizenz machen kannst.

Die Software unterstützt Trennblätter und OCR.

Du kannst entweder mit einem unterstützen Dokumentenscanner direkt in die Software scannen, oder du legst PDF oder TIFF Dateien in einem Importverzeichnis ab. Die Dokumente landen dann in einer Inbox und dann kannst du die nach der Reihe nach einsortieren und verschlagworten.

Du kannst in der Software eine Ordnerstruktur und ein Berechtigungskonzept definieren. Du kannst auch verschiedene Dokumentenarten mit individuellen Schnlagwortfeldern definieren. Das tolle ist, das du bei der Verschlagwortung einfach mit der Maus einen Rahmen um die jeweilige Textstelle ziehen kannst. Die Stelle wird dann per ORC verarbeitet und in das Feld übernommen. Das geht richtig flott.

Wie gut ORC funktioniert ist von der Scan Qualität abhängig. Damit musst du mal etwas herumexperimentieren.
Ich glaube ich habe das bei mir auf schwarz/weiß und 600dpi eingestellt.
monstermania
Lösung monstermania 03.03.2020 um 09:23:44 Uhr
Goto Top
Zitat von @bjoernsen:
Auch zukünftige Verträge und diverses anderes wird nach Abschluss des ersten Steps digitalisiert.
Dann solltet Ihr Eure Deckblätter schnellstmöglich um einen Barcode ergänzen! Der Barcode sollte idealerweise die Daten enthalten, die Ihr benötigt (Vertragsnummernfeld und Vertragspartnerdaten). Dafür eignet sich z.B. ein QR-Code sehr gut.
Im QR-Code sollte dann auch ein individueller TAG enthalten sein, damit Ihr sicherstellt, dass nur EUER QR-Code genutzt wird!

Später braucht Ihr dann einfach nur noch alle Dokumente einzuscannen. Die Trennung in einzelne Stapel läuft dann komplett über den Barcode. Da spart man sich dann auch die Formularerkennung und die dadurch möglichen Fehlerquellen (OCR).

PS: Man muss ELO nicht zur Archivierung nutzen! face-wink Mit etwas vbs kann man den ELO Connector sehr gut auch für andere Projekte einsetzten/automatisieren. Ich habe damit schon eine automatische Formularekennung für EasyArchiv gebaut. Hat meinen damaligen AG einige Tausend-€ Lizenzkosten für das entsprechende Easy-Modul gespart.
bjoernsen
bjoernsen 03.03.2020 um 09:29:33 Uhr
Goto Top
Super, ich danke euch!
NordicMike
NordicMike 03.03.2020 um 09:35:38 Uhr
Goto Top
Die OCR Erkennung ist im EcoDMS deutlich schlechter, als von Abby/Nuance. Auch deutlich schlechter, als die integrierte OCR Erkennung vom Fujitsu N7100, die mir persönlich am besten gefällt, da sie autark ohne Server bzw Software arbeitet. Auch müssten die PDF's im EcoDMS erst einmal wieder einzeln aus dem Programm wieder auf die Festplatte exportiert werden.

Der Fujitsu verwendet jedoch eine eigene Seite zur Dokumententrennung, diese müsste man über die vorhandene Deckseite drüber legen. Wenn die vorhandene Deckseite als Trennseite erkannt werden soll, hilft nur eine Softwarelösung.
monstermania
monstermania 03.03.2020 um 09:40:34 Uhr
Goto Top
Zitat von @Daniel-Niewerth:
Wie gut ORC funktioniert ist von der Scan Qualität abhängig. Damit musst du mal etwas herumexperimentieren.
Ich glaube ich habe das bei mir auf schwarz/weiß und 600dpi eingestellt.
Nur mal so als Tip. Abbyy empfiehlt 300dpi und 256 Graustufen für optimale OCR-Ergebnisse.
Und dann noch generell zum Thema OCR. ecoDMS nutzt die Tesseract-OCR-Engine. Und ja, Tesseract hat in den letzten Jahren durch google qualitativ ganz schön aufgeholt. Aber Tesseract kommt immer noch nicht an die OCR-Engines von Abbyy oder Nuance heran.
Ich habe hier ein 'fieses' Testdokument mit unterschiedlichen dunklen Texthintergründen. Da sieht man dann schnell, welche OCR-Engine auch mit schwierigen Dokumenten klarkommt un 1a Ergebnisse liefert.
Macht halt einen Riesenunterschied, ob nun 99,5% oder 99,8% des Textes korrekt erkannt wird. Rechne das mal auf einige hundertausend oder gar Millionen Dokumente hoch.
monstermania
monstermania 03.03.2020 um 10:24:08 Uhr
Goto Top
Zitat von @beidermachtvongreyscull:

Moin,

NSi AutoStore (Express)

das ist meine Empfehlung. Der Fairness halber sei erwähnt, dass die Software nicht billig ist, aber damit habe ich beste Erfahrungen gemacht.
Mittlerweile wurde das Produkt weiterverkauft. Du findest es hier:
https://www.kofax.de/sitecore/content/German/products/controlsuite/autos ...
Mit diesen RundumSorglosGlücklich-Lösungen habe ich immer so meine Probleme. M.E. ist das wichtigste bei der Archivierung die Qualität der archivierten Dokumente!
Mein letzer AG hat mir Toshiba Capture & Store (ScanShare) aufs Auge gedrückt. Schon nach ein paar Tagen hat mich das Produkt nur noch genervt (Erfahrungen Druck- und Kopierlösungen und Capture + Store Server von Toshiba).
Und kaum habe ich mal im Forum des Herstellers ScanShare einige kritische Fragen gestellt, wurde ich dann gesperrt!
STITDK
STITDK 03.03.2020 um 10:26:23 Uhr
Goto Top
Servus,

ich gehe mal nicht auf die Ablage ein:


KODAK CAPTURE PRO je nach Scanner Modell auch beim Scanner dabei.


STITDK
beidermachtvongreyscull
beidermachtvongreyscull 03.03.2020 um 10:27:06 Uhr
Goto Top
Ich akzeptiere Deine Ansicht.

Ich nutze die Software recht gerne und für meine Verhältnisse, auch wenn schon eine ältere Version, sehr erfolgreich.
Dahinter steht derzeit eine Omnipage Engine.

Die Suite tut, was sie soll und darauf kommt es mir an.

Das Brimborium drum herum habe ich mit VBScripts gelöst.
TomTomBon
Lösung TomTomBon 03.03.2020 um 11:48:22 Uhr
Goto Top
Moin Moin,

Ich arbeite in dem Bereich und kann dir nur ein paar Empfehlungen geben, sonst geht es zu sehr in die Tiefe face-smile

Allgemein sind die OCR Erkennungs Routinen von Abby und Nuance die besten, Nuance etwas besser, Aber die Preise sind an Adobe Acrobat orientiert.
Sprich Teuer.
Aber wenn Ich die WIRKLICH erkennen will, lohnen die sich!

Es gibt zwar in Kopierern auch interne OCR Tools, die viel billiger sind!, aber das Ergebnis ist eher Mau.
Wenn Ich in PDF eine Rechnungsnr suche finden die die auch meistens.
Aber aufwendiger...
Nein.
Lieber nicht.

Dann gibt es noch DSM und ECR Tools die das mit implizieren!
(Sie nutzen meist auch nur Abby bzw nuance face-smile )
Man hat aber ein komplettes System zur weiteren Verarbeitung dahinter.


Generell:
Das Thema ist NICHT trivial!
Ich empfehle einen passenden Dienstleister dazu!

Meine Empfehlung:
GeniusBytes oder ceyoniq.

Aber es gibt natürlich auch viel viel mehr face-wink

Just my Senf
Tom
TomTomBon
Lösung TomTomBon 03.03.2020 um 11:59:32 Uhr
Goto Top
Konkretisierung:

Wenn der kontinuierliche Workflow mit Scannen und OCR und Weiterverarbeitung gewünscht ist,
dann gelten meine Empfehlungen.

Wenn nur ein "paar" Scanns gemacht werden sollen, 2-3000 Seiten, gibt es auch von Abby entsprechende trials.

Oder selbst gebaute Workflows mit vielerlei Hilfsmittel.

Ist es produktiv und wichtig sollte man das aber lieber ausgegliedert haben.
Dann kann man den zornigen Blick auch eher auf DIE abwenden face-wink
Wenn mal etwas nicht geht.

face-wink


Fürs kleine Scannen würde Ich eher eine mittlere MFP nehmen mit DMS.
Z.B eine 4007ci mit GeniusBytes.
Mein Geschmack.
https://www.utax.de/C12571260052E282/direct/farbe
https://www.geniusbytes.com/de/#
bjoernsen
bjoernsen 03.03.2020 um 12:29:10 Uhr
Goto Top
Danke Dir Tom!
TomTomBon
TomTomBon 03.03.2020 um 14:22:25 Uhr
Goto Top
Bei meinen Empfehlungen:
Es gibt zum einen die TA triumph-Adler
https://www.triumph-adler.de/ta-de-de
Die bieten direkten Support/Verkauf/Wartung etc Deutschlandweit an.

Und UTAX
https://www.utax.de/C12571260052E282/direct/hs

Das sind die identischen Produkte, nur bekommt man die Sachen bei UTAX über einen "lokalen" Händler der sich dann um einen kümmert.
Und dahinter gibt die UTAX support und Knowhow.
Hat beides sein für und wieder.


Aber das wichtigste für so ein Projekt ist das man einen Partner findet, ihn kennen lernt und Vertrauen hat.
Denn so ein Projekt ist teuer.
Wenn ein Problem auftritt, wer auch immer der Verursacher ist, ist eine freundschaftliche Kommunikation viel Geld wert!
Bzw es spart Geld face-smile

Nicht immer ist der billigste pro Stunde unterm Strich der billigste face-smile
Bzw eher selten.