Dokumentenscanner mit OCR - Deckblatterkennung
Guten Morgen.
Wie schon im Topic erwähnt suche ich einen Dokumentenscanner mit oder gern auch eine optionale Dokumenterkennung / OCR -Software.
Wir müssen mehrere Aktenschränke mit Verträgen digitalisieren (PDF). Die Verträge haben unterschiedliche Seitenanzahlen und Anhänge, aber eine gleiche erste Seite (keine Codes nur Vertragsnummernfeld und Vertragspartnerdaten enthalten). Diese soll der Dateitrennung für eine Stapelverarbeitung dienen.
Jemand Empfehlungen, die ich mir mal anschauen kann? Vor allem passende Software?
Grüße und dank!
Wie schon im Topic erwähnt suche ich einen Dokumentenscanner mit oder gern auch eine optionale Dokumenterkennung / OCR -Software.
Wir müssen mehrere Aktenschränke mit Verträgen digitalisieren (PDF). Die Verträge haben unterschiedliche Seitenanzahlen und Anhänge, aber eine gleiche erste Seite (keine Codes nur Vertragsnummernfeld und Vertragspartnerdaten enthalten). Diese soll der Dateitrennung für eine Stapelverarbeitung dienen.
Jemand Empfehlungen, die ich mir mal anschauen kann? Vor allem passende Software?
Grüße und dank!
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 553727
Url: https://administrator.de/contentid/553727
Ausgedruckt am: 22.11.2024 um 00:11 Uhr
16 Kommentare
Neuester Kommentar
Moin,
grundsätzlich solltest Du erstmal die Frage klären, ob es um ein einmaliges Projekt handelt. In so einem Fall kann es durchaus sinnvoll sein, sich einen Scandienstleister ins Boot zu holen (Gesamtkosten).
Ansonsten sollte man die einzelnen Punkte voneinander trennen.
1. Scannen
2. Dokumenten bzw. Stapelerkennung
3. PDF-Konvertierung mit OCR (searchable PDF)
Zum Scannen kann man Spezielle Dokumentenscanner nutzen. Bei vielen Firmen wird zum Scannen aber auch der Kopierer/Multifunktionsgerät genutzt. Ich meine damit natürlich nicht den 99€ MFC von HP, sondern ein entsprechendes Großgerät mit vernünftigen ADF. Da schaffen manche Geräte 200-300 Scanseiten pro Minute (100-150 Blatt pro Minute bei Vor- und Rückseitenscan). Der Scan sollte bei mind. 300 dpi erfolgen. Da OCR gemacht werden soll, wäre ein Scan in 256 Graustufen optimal.
Für Dokumenten-/Stapelerkennung gibt es diverse Produkte (z.B. Kofax Ascent Capture, ELO Scan-Connector). Das geht aber ganz schnell richtig ins Geld, da viele Hersteller den Preis abhängig von den verarbeiteten Seiten/Monat festlegen.
Bei OCR dann wieder das Gleiche. Hier empfehle ich eigentlich immer Abbyy/Nuance. Die sind einfach die Besten, was die OCR-Erkennung angeht. Allerdings gilt auch hier, dass z.B. Abbyy Finereader Corporate auf 5000 Seiten/Monat beschränkt ist. Bei Nuance gibt es die gleiche Beschränkung.
PS: Der ELO Scan Connector für die Dokumenten-/Stapelerkennung ist bereits in ELO Office enthalten (~300€) und funktioniert auch in der Testversion von ELO Office. Damit könnte man ja mal Testen, ob Eure Deckseite problemlos erkannt wird.
https://elooffice.elo.com/blog/wp-content/uploads/2014/03/Connector-1.pd ...
Gruß
Dirk
grundsätzlich solltest Du erstmal die Frage klären, ob es um ein einmaliges Projekt handelt. In so einem Fall kann es durchaus sinnvoll sein, sich einen Scandienstleister ins Boot zu holen (Gesamtkosten).
Ansonsten sollte man die einzelnen Punkte voneinander trennen.
1. Scannen
2. Dokumenten bzw. Stapelerkennung
3. PDF-Konvertierung mit OCR (searchable PDF)
Zum Scannen kann man Spezielle Dokumentenscanner nutzen. Bei vielen Firmen wird zum Scannen aber auch der Kopierer/Multifunktionsgerät genutzt. Ich meine damit natürlich nicht den 99€ MFC von HP, sondern ein entsprechendes Großgerät mit vernünftigen ADF. Da schaffen manche Geräte 200-300 Scanseiten pro Minute (100-150 Blatt pro Minute bei Vor- und Rückseitenscan). Der Scan sollte bei mind. 300 dpi erfolgen. Da OCR gemacht werden soll, wäre ein Scan in 256 Graustufen optimal.
Für Dokumenten-/Stapelerkennung gibt es diverse Produkte (z.B. Kofax Ascent Capture, ELO Scan-Connector). Das geht aber ganz schnell richtig ins Geld, da viele Hersteller den Preis abhängig von den verarbeiteten Seiten/Monat festlegen.
Bei OCR dann wieder das Gleiche. Hier empfehle ich eigentlich immer Abbyy/Nuance. Die sind einfach die Besten, was die OCR-Erkennung angeht. Allerdings gilt auch hier, dass z.B. Abbyy Finereader Corporate auf 5000 Seiten/Monat beschränkt ist. Bei Nuance gibt es die gleiche Beschränkung.
PS: Der ELO Scan Connector für die Dokumenten-/Stapelerkennung ist bereits in ELO Office enthalten (~300€) und funktioniert auch in der Testversion von ELO Office. Damit könnte man ja mal Testen, ob Eure Deckseite problemlos erkannt wird.
https://elooffice.elo.com/blog/wp-content/uploads/2014/03/Connector-1.pd ...
Gruß
Dirk
Moin,
NSi AutoStore (Express)
das ist meine Empfehlung. Der Fairness halber sei erwähnt, dass die Software nicht billig ist, aber damit habe ich beste Erfahrungen gemacht.
Mittlerweile wurde das Produkt weiterverkauft. Du findest es hier:
https://www.kofax.de/sitecore/content/German/products/controlsuite/autos ...
Die Idee dahinter ist, dass Du einen Scanworkflow definieren kannst, der aus den Dokumenten bestimmte Infos herausziehen kann und damit die Verschlagwortung durchführt (z.B. Namensvergabe des Dateinamens).
Allerdings hat OCR Grenzen!
Du musst hochauflösend und ohne Interferenzen einscannen. Text in Tabellen oder auf grauem Muster wird nur meistens schlecht oder sehr fehlerhaft erkannt. Insofern weiß ich nicht, wie weit die automatische Verschlagwortung gehen soll.
Wir z.B. scannen immer mit 600DPI. Ich würde noch höher gehen, wenn die Scanner das könnten.
Dadurch entstehen gewaltige Scanjobs für unsere beiden Texterkennungsserver, aber das mindert die Fehlerzahl der OCR.
Nach der OCR und der Umwandlung in PDF, werden die Dokumente stark verdichtet.
Wir arbeiten übrigens mit Trennseiten. Das sind gelbe A4-Blätter, die mittig einen Barcode enthalten und rundherum den Patchcode "T".
Scanner-hardware:
Auch ich empfehle Fujitsu_Scanner der FI-Serie. Wir haben davon drei neben unseren Kopierern, die ebenfalls als Scanner fungieren.
Gruß
bdmvg
NSi AutoStore (Express)
das ist meine Empfehlung. Der Fairness halber sei erwähnt, dass die Software nicht billig ist, aber damit habe ich beste Erfahrungen gemacht.
Mittlerweile wurde das Produkt weiterverkauft. Du findest es hier:
https://www.kofax.de/sitecore/content/German/products/controlsuite/autos ...
Die Idee dahinter ist, dass Du einen Scanworkflow definieren kannst, der aus den Dokumenten bestimmte Infos herausziehen kann und damit die Verschlagwortung durchführt (z.B. Namensvergabe des Dateinamens).
Allerdings hat OCR Grenzen!
Du musst hochauflösend und ohne Interferenzen einscannen. Text in Tabellen oder auf grauem Muster wird nur meistens schlecht oder sehr fehlerhaft erkannt. Insofern weiß ich nicht, wie weit die automatische Verschlagwortung gehen soll.
Wir z.B. scannen immer mit 600DPI. Ich würde noch höher gehen, wenn die Scanner das könnten.
Dadurch entstehen gewaltige Scanjobs für unsere beiden Texterkennungsserver, aber das mindert die Fehlerzahl der OCR.
Nach der OCR und der Umwandlung in PDF, werden die Dokumente stark verdichtet.
Wir arbeiten übrigens mit Trennseiten. Das sind gelbe A4-Blätter, die mittig einen Barcode enthalten und rundherum den Patchcode "T".
Scanner-hardware:
Auch ich empfehle Fujitsu_Scanner der FI-Serie. Wir haben davon drei neben unseren Kopierern, die ebenfalls als Scanner fungieren.
Gruß
bdmvg
Schau dir mal die Software ecoDMS an.
Die Software kann ziemlich viel, die Lizenzkosten sind überschaubar und das Lizenzmodell ist wirklich Fair.
Es gibt auch eine kostenlose Lizenz für drei User. Damit kannst du fast alles machen was du auch mit der Kauf-Lizenz machen kannst.
Die Software unterstützt Trennblätter und OCR.
Du kannst entweder mit einem unterstützen Dokumentenscanner direkt in die Software scannen, oder du legst PDF oder TIFF Dateien in einem Importverzeichnis ab. Die Dokumente landen dann in einer Inbox und dann kannst du die nach der Reihe nach einsortieren und verschlagworten.
Du kannst in der Software eine Ordnerstruktur und ein Berechtigungskonzept definieren. Du kannst auch verschiedene Dokumentenarten mit individuellen Schnlagwortfeldern definieren. Das tolle ist, das du bei der Verschlagwortung einfach mit der Maus einen Rahmen um die jeweilige Textstelle ziehen kannst. Die Stelle wird dann per ORC verarbeitet und in das Feld übernommen. Das geht richtig flott.
Wie gut ORC funktioniert ist von der Scan Qualität abhängig. Damit musst du mal etwas herumexperimentieren.
Ich glaube ich habe das bei mir auf schwarz/weiß und 600dpi eingestellt.
Die Software kann ziemlich viel, die Lizenzkosten sind überschaubar und das Lizenzmodell ist wirklich Fair.
Es gibt auch eine kostenlose Lizenz für drei User. Damit kannst du fast alles machen was du auch mit der Kauf-Lizenz machen kannst.
Die Software unterstützt Trennblätter und OCR.
Du kannst entweder mit einem unterstützen Dokumentenscanner direkt in die Software scannen, oder du legst PDF oder TIFF Dateien in einem Importverzeichnis ab. Die Dokumente landen dann in einer Inbox und dann kannst du die nach der Reihe nach einsortieren und verschlagworten.
Du kannst in der Software eine Ordnerstruktur und ein Berechtigungskonzept definieren. Du kannst auch verschiedene Dokumentenarten mit individuellen Schnlagwortfeldern definieren. Das tolle ist, das du bei der Verschlagwortung einfach mit der Maus einen Rahmen um die jeweilige Textstelle ziehen kannst. Die Stelle wird dann per ORC verarbeitet und in das Feld übernommen. Das geht richtig flott.
Wie gut ORC funktioniert ist von der Scan Qualität abhängig. Damit musst du mal etwas herumexperimentieren.
Ich glaube ich habe das bei mir auf schwarz/weiß und 600dpi eingestellt.
Zitat von @bjoernsen:
Auch zukünftige Verträge und diverses anderes wird nach Abschluss des ersten Steps digitalisiert.
Dann solltet Ihr Eure Deckblätter schnellstmöglich um einen Barcode ergänzen! Der Barcode sollte idealerweise die Daten enthalten, die Ihr benötigt (Vertragsnummernfeld und Vertragspartnerdaten). Dafür eignet sich z.B. ein QR-Code sehr gut.Auch zukünftige Verträge und diverses anderes wird nach Abschluss des ersten Steps digitalisiert.
Im QR-Code sollte dann auch ein individueller TAG enthalten sein, damit Ihr sicherstellt, dass nur EUER QR-Code genutzt wird!
Später braucht Ihr dann einfach nur noch alle Dokumente einzuscannen. Die Trennung in einzelne Stapel läuft dann komplett über den Barcode. Da spart man sich dann auch die Formularerkennung und die dadurch möglichen Fehlerquellen (OCR).
PS: Man muss ELO nicht zur Archivierung nutzen! Mit etwas vbs kann man den ELO Connector sehr gut auch für andere Projekte einsetzten/automatisieren. Ich habe damit schon eine automatische Formularekennung für EasyArchiv gebaut. Hat meinen damaligen AG einige Tausend-€ Lizenzkosten für das entsprechende Easy-Modul gespart.
Die OCR Erkennung ist im EcoDMS deutlich schlechter, als von Abby/Nuance. Auch deutlich schlechter, als die integrierte OCR Erkennung vom Fujitsu N7100, die mir persönlich am besten gefällt, da sie autark ohne Server bzw Software arbeitet. Auch müssten die PDF's im EcoDMS erst einmal wieder einzeln aus dem Programm wieder auf die Festplatte exportiert werden.
Der Fujitsu verwendet jedoch eine eigene Seite zur Dokumententrennung, diese müsste man über die vorhandene Deckseite drüber legen. Wenn die vorhandene Deckseite als Trennseite erkannt werden soll, hilft nur eine Softwarelösung.
Der Fujitsu verwendet jedoch eine eigene Seite zur Dokumententrennung, diese müsste man über die vorhandene Deckseite drüber legen. Wenn die vorhandene Deckseite als Trennseite erkannt werden soll, hilft nur eine Softwarelösung.
Zitat von @Daniel-Niewerth:
Wie gut ORC funktioniert ist von der Scan Qualität abhängig. Damit musst du mal etwas herumexperimentieren.
Ich glaube ich habe das bei mir auf schwarz/weiß und 600dpi eingestellt.
Nur mal so als Tip. Abbyy empfiehlt 300dpi und 256 Graustufen für optimale OCR-Ergebnisse.Wie gut ORC funktioniert ist von der Scan Qualität abhängig. Damit musst du mal etwas herumexperimentieren.
Ich glaube ich habe das bei mir auf schwarz/weiß und 600dpi eingestellt.
Und dann noch generell zum Thema OCR. ecoDMS nutzt die Tesseract-OCR-Engine. Und ja, Tesseract hat in den letzten Jahren durch google qualitativ ganz schön aufgeholt. Aber Tesseract kommt immer noch nicht an die OCR-Engines von Abbyy oder Nuance heran.
Ich habe hier ein 'fieses' Testdokument mit unterschiedlichen dunklen Texthintergründen. Da sieht man dann schnell, welche OCR-Engine auch mit schwierigen Dokumenten klarkommt un 1a Ergebnisse liefert.
Macht halt einen Riesenunterschied, ob nun 99,5% oder 99,8% des Textes korrekt erkannt wird. Rechne das mal auf einige hundertausend oder gar Millionen Dokumente hoch.
Zitat von @beidermachtvongreyscull:
Moin,
NSi AutoStore (Express)
das ist meine Empfehlung. Der Fairness halber sei erwähnt, dass die Software nicht billig ist, aber damit habe ich beste Erfahrungen gemacht.
Mittlerweile wurde das Produkt weiterverkauft. Du findest es hier:
https://www.kofax.de/sitecore/content/German/products/controlsuite/autos ...
Mit diesen RundumSorglosGlücklich-Lösungen habe ich immer so meine Probleme. M.E. ist das wichtigste bei der Archivierung die Qualität der archivierten Dokumente!Moin,
NSi AutoStore (Express)
das ist meine Empfehlung. Der Fairness halber sei erwähnt, dass die Software nicht billig ist, aber damit habe ich beste Erfahrungen gemacht.
Mittlerweile wurde das Produkt weiterverkauft. Du findest es hier:
https://www.kofax.de/sitecore/content/German/products/controlsuite/autos ...
Mein letzer AG hat mir Toshiba Capture & Store (ScanShare) aufs Auge gedrückt. Schon nach ein paar Tagen hat mich das Produkt nur noch genervt (Erfahrungen Druck- und Kopierlösungen und Capture + Store Server von Toshiba).
Und kaum habe ich mal im Forum des Herstellers ScanShare einige kritische Fragen gestellt, wurde ich dann gesperrt!
Ich akzeptiere Deine Ansicht.
Ich nutze die Software recht gerne und für meine Verhältnisse, auch wenn schon eine ältere Version, sehr erfolgreich.
Dahinter steht derzeit eine Omnipage Engine.
Die Suite tut, was sie soll und darauf kommt es mir an.
Das Brimborium drum herum habe ich mit VBScripts gelöst.
Ich nutze die Software recht gerne und für meine Verhältnisse, auch wenn schon eine ältere Version, sehr erfolgreich.
Dahinter steht derzeit eine Omnipage Engine.
Die Suite tut, was sie soll und darauf kommt es mir an.
Das Brimborium drum herum habe ich mit VBScripts gelöst.
Moin Moin,
Ich arbeite in dem Bereich und kann dir nur ein paar Empfehlungen geben, sonst geht es zu sehr in die Tiefe
Allgemein sind die OCR Erkennungs Routinen von Abby und Nuance die besten, Nuance etwas besser, Aber die Preise sind an Adobe Acrobat orientiert.
Sprich Teuer.
Aber wenn Ich die WIRKLICH erkennen will, lohnen die sich!
Es gibt zwar in Kopierern auch interne OCR Tools, die viel billiger sind!, aber das Ergebnis ist eher Mau.
Wenn Ich in PDF eine Rechnungsnr suche finden die die auch meistens.
Aber aufwendiger...
Nein.
Lieber nicht.
Dann gibt es noch DSM und ECR Tools die das mit implizieren!
(Sie nutzen meist auch nur Abby bzw nuance )
Man hat aber ein komplettes System zur weiteren Verarbeitung dahinter.
Generell:
Das Thema ist NICHT trivial!
Ich empfehle einen passenden Dienstleister dazu!
Meine Empfehlung:
GeniusBytes oder ceyoniq.
Aber es gibt natürlich auch viel viel mehr
Just my Senf
Tom
Ich arbeite in dem Bereich und kann dir nur ein paar Empfehlungen geben, sonst geht es zu sehr in die Tiefe
Allgemein sind die OCR Erkennungs Routinen von Abby und Nuance die besten, Nuance etwas besser, Aber die Preise sind an Adobe Acrobat orientiert.
Sprich Teuer.
Aber wenn Ich die WIRKLICH erkennen will, lohnen die sich!
Es gibt zwar in Kopierern auch interne OCR Tools, die viel billiger sind!, aber das Ergebnis ist eher Mau.
Wenn Ich in PDF eine Rechnungsnr suche finden die die auch meistens.
Aber aufwendiger...
Nein.
Lieber nicht.
Dann gibt es noch DSM und ECR Tools die das mit implizieren!
(Sie nutzen meist auch nur Abby bzw nuance )
Man hat aber ein komplettes System zur weiteren Verarbeitung dahinter.
Generell:
Das Thema ist NICHT trivial!
Ich empfehle einen passenden Dienstleister dazu!
Meine Empfehlung:
GeniusBytes oder ceyoniq.
Aber es gibt natürlich auch viel viel mehr
Just my Senf
Tom
Konkretisierung:
Wenn der kontinuierliche Workflow mit Scannen und OCR und Weiterverarbeitung gewünscht ist,
dann gelten meine Empfehlungen.
Wenn nur ein "paar" Scanns gemacht werden sollen, 2-3000 Seiten, gibt es auch von Abby entsprechende trials.
Oder selbst gebaute Workflows mit vielerlei Hilfsmittel.
Ist es produktiv und wichtig sollte man das aber lieber ausgegliedert haben.
Dann kann man den zornigen Blick auch eher auf DIE abwenden
Wenn mal etwas nicht geht.
Fürs kleine Scannen würde Ich eher eine mittlere MFP nehmen mit DMS.
Z.B eine 4007ci mit GeniusBytes.
Mein Geschmack.
https://www.utax.de/C12571260052E282/direct/farbe
https://www.geniusbytes.com/de/#
Wenn der kontinuierliche Workflow mit Scannen und OCR und Weiterverarbeitung gewünscht ist,
dann gelten meine Empfehlungen.
Wenn nur ein "paar" Scanns gemacht werden sollen, 2-3000 Seiten, gibt es auch von Abby entsprechende trials.
Oder selbst gebaute Workflows mit vielerlei Hilfsmittel.
Ist es produktiv und wichtig sollte man das aber lieber ausgegliedert haben.
Dann kann man den zornigen Blick auch eher auf DIE abwenden
Wenn mal etwas nicht geht.
Fürs kleine Scannen würde Ich eher eine mittlere MFP nehmen mit DMS.
Z.B eine 4007ci mit GeniusBytes.
Mein Geschmack.
https://www.utax.de/C12571260052E282/direct/farbe
https://www.geniusbytes.com/de/#
Bei meinen Empfehlungen:
Es gibt zum einen die TA triumph-Adler
https://www.triumph-adler.de/ta-de-de
Die bieten direkten Support/Verkauf/Wartung etc Deutschlandweit an.
Und UTAX
https://www.utax.de/C12571260052E282/direct/hs
Das sind die identischen Produkte, nur bekommt man die Sachen bei UTAX über einen "lokalen" Händler der sich dann um einen kümmert.
Und dahinter gibt die UTAX support und Knowhow.
Hat beides sein für und wieder.
Aber das wichtigste für so ein Projekt ist das man einen Partner findet, ihn kennen lernt und Vertrauen hat.
Denn so ein Projekt ist teuer.
Wenn ein Problem auftritt, wer auch immer der Verursacher ist, ist eine freundschaftliche Kommunikation viel Geld wert!
Bzw es spart Geld
Nicht immer ist der billigste pro Stunde unterm Strich der billigste
Bzw eher selten.
Es gibt zum einen die TA triumph-Adler
https://www.triumph-adler.de/ta-de-de
Die bieten direkten Support/Verkauf/Wartung etc Deutschlandweit an.
Und UTAX
https://www.utax.de/C12571260052E282/direct/hs
Das sind die identischen Produkte, nur bekommt man die Sachen bei UTAX über einen "lokalen" Händler der sich dann um einen kümmert.
Und dahinter gibt die UTAX support und Knowhow.
Hat beides sein für und wieder.
Aber das wichtigste für so ein Projekt ist das man einen Partner findet, ihn kennen lernt und Vertrauen hat.
Denn so ein Projekt ist teuer.
Wenn ein Problem auftritt, wer auch immer der Verursacher ist, ist eine freundschaftliche Kommunikation viel Geld wert!
Bzw es spart Geld
Nicht immer ist der billigste pro Stunde unterm Strich der billigste
Bzw eher selten.