Top-Themen

Aktuelle Themen (A bis Z)

Administrator.de FeedbackApache ServerAppleAssemblerAudioAusbildungAuslandBackupBasicBatch & ShellBenchmarksBibliotheken & ToolkitsBlogsCloud-DiensteClusterCMSCPU, RAM, MainboardsCSSC und C++DatenbankenDatenschutzDebianDigitiales FernsehenDNSDrucker und ScannerDSL, VDSLE-BooksE-BusinessE-MailEntwicklungErkennung und -AbwehrExchange ServerFestplatten, SSD, RaidFirewallFlatratesGoogle AndroidGrafikGrafikkarten & MonitoreGroupwareHardwareHosting & HousingHTMLHumor (lol)Hyper-VIconsIDE & EditorenInformationsdiensteInstallationInstant MessagingInternetInternet DomäneniOSISDN & AnaloganschlüsseiTunesJavaJavaScriptKiXtartKVMLAN, WAN, WirelessLinuxLinux DesktopLinux NetzwerkLinux ToolsLinux UserverwaltungLizenzierungMac OS XMicrosoftMicrosoft OfficeMikroTik RouterOSMonitoringMultimediaMultimedia & ZubehörNetzwerkeNetzwerkgrundlagenNetzwerkmanagementNetzwerkprotokolleNotebook & ZubehörNovell NetwareOff TopicOpenOffice, LibreOfficeOutlook & MailPapierkorbPascal und DelphiPeripheriegerätePerlPHPPythonRechtliche FragenRedHat, CentOS, FedoraRouter & RoutingSambaSAN, NAS, DASSchriftartenSchulung & TrainingSEOServerServer-HardwareSicherheitSicherheits-ToolsSicherheitsgrundlagenSolarisSonstige SystemeSoziale NetzwerkeSpeicherkartenStudentenjobs & PraktikumSuche ProjektpartnerSuseSwitche und HubsTipps & TricksTK-Netze & GeräteUbuntuUMTS, EDGE & GPRSUtilitiesVB for ApplicationsVerschlüsselung & ZertifikateVideo & StreamingViren und TrojanerVirtualisierungVisual StudioVmwareVoice over IPWünsch Dir wasWebbrowserWebentwicklungWeiterbildungWindows 7Windows 8Windows 10Windows InstallationWindows MobileWindows NetzwerkWindows ServerWindows SystemdateienWindows ToolsWindows UpdateWindows UserverwaltungWindows VistaWindows XPXenserverXMLZusammenarbeit

gelöst Dokumentenscanner mit OCR - Deckblatterkennung

Mitglied: bjoernsen

bjoernsen (Level 1) - Jetzt verbinden

03.03.2020 um 08:07 Uhr, 980 Aufrufe, 16 Kommentare, 2 Danke

Guten Morgen.

Wie schon im Topic erwähnt suche ich einen Dokumentenscanner mit oder gern auch eine optionale Dokumenterkennung / OCR -Software.

Wir müssen mehrere Aktenschränke mit Verträgen digitalisieren (PDF). Die Verträge haben unterschiedliche Seitenanzahlen und Anhänge, aber eine gleiche erste Seite (keine Codes nur Vertragsnummernfeld und Vertragspartnerdaten enthalten). Diese soll der Dateitrennung für eine Stapelverarbeitung dienen.

Jemand Empfehlungen, die ich mir mal anschauen kann? Vor allem passende Software?

Grüße und dank!
Mitglied: monstermania
LÖSUNG 03.03.2020, aktualisiert um 08:33 Uhr
Moin,
grundsätzlich solltest Du erstmal die Frage klären, ob es um ein einmaliges Projekt handelt. In so einem Fall kann es durchaus sinnvoll sein, sich einen Scandienstleister ins Boot zu holen (Gesamtkosten).

Ansonsten sollte man die einzelnen Punkte voneinander trennen.
1. Scannen
2. Dokumenten bzw. Stapelerkennung
3. PDF-Konvertierung mit OCR (searchable PDF)

Zum Scannen kann man Spezielle Dokumentenscanner nutzen. Bei vielen Firmen wird zum Scannen aber auch der Kopierer/Multifunktionsgerät genutzt. Ich meine damit natürlich nicht den 99€ MFC von HP, sondern ein entsprechendes Großgerät mit vernünftigen ADF. Da schaffen manche Geräte 200-300 Scanseiten pro Minute (100-150 Blatt pro Minute bei Vor- und Rückseitenscan). Der Scan sollte bei mind. 300 dpi erfolgen. Da OCR gemacht werden soll, wäre ein Scan in 256 Graustufen optimal.
Für Dokumenten-/Stapelerkennung gibt es diverse Produkte (z.B. Kofax Ascent Capture, ELO Scan-Connector). Das geht aber ganz schnell richtig ins Geld, da viele Hersteller den Preis abhängig von den verarbeiteten Seiten/Monat festlegen.
Bei OCR dann wieder das Gleiche. Hier empfehle ich eigentlich immer Abbyy/Nuance. Die sind einfach die Besten, was die OCR-Erkennung angeht. Allerdings gilt auch hier, dass z.B. Abbyy Finereader Corporate auf 5000 Seiten/Monat beschränkt ist. Bei Nuance gibt es die gleiche Beschränkung.

PS: Der ELO Scan Connector für die Dokumenten-/Stapelerkennung ist bereits in ELO Office enthalten (~300€) und funktioniert auch in der Testversion von ELO Office. Damit könnte man ja mal Testen, ob Eure Deckseite problemlos erkannt wird.
https://elooffice.elo.com/blog/wp-content/uploads/2014/03/Connector-1.pd ...

Gruß
Dirk
Bitte warten ..
Mitglied: Uschade
LÖSUNG 03.03.2020 um 08:47 Uhr
Moin,

ich habe gute Erfahrungen mit dem Fujitsu-fi 7180 gemacht. Der kann im Grunde alles...simplex, duplex, Stapelverarbeitung...

Das sollte in etwa das sein, was du suchst.

Grüße
Uwe
Bitte warten ..
Mitglied: bjoernsen
03.03.2020, aktualisiert um 08:57 Uhr
Super, vielen Dank, das hilft mir schon mal. Über Abbyy bin ich im Bundle mit Scannern auch schon gestolpert. Das ELO schaue ich mir an und teste mal. Es handelt sich nicht um ein einmaliges Projekt, daher ist ein Dienstleister eher uninteressant. Auch zukünftige Verträge und diverses anderes wird nach Abschluss des ersten Steps digitalisiert.
Bitte warten ..
Mitglied: beidermachtvongreyscull
LÖSUNG 03.03.2020, aktualisiert um 08:59 Uhr
Moin,

NSi AutoStore (Express)

das ist meine Empfehlung. Der Fairness halber sei erwähnt, dass die Software nicht billig ist, aber damit habe ich beste Erfahrungen gemacht.
Mittlerweile wurde das Produkt weiterverkauft. Du findest es hier:
https://www.kofax.de/sitecore/content/German/products/controlsuite/autos ...

Die Idee dahinter ist, dass Du einen Scanworkflow definieren kannst, der aus den Dokumenten bestimmte Infos herausziehen kann und damit die Verschlagwortung durchführt (z.B. Namensvergabe des Dateinamens).

Allerdings hat OCR Grenzen!
Du musst hochauflösend und ohne Interferenzen einscannen. Text in Tabellen oder auf grauem Muster wird nur meistens schlecht oder sehr fehlerhaft erkannt. Insofern weiß ich nicht, wie weit die automatische Verschlagwortung gehen soll.

Wir z.B. scannen immer mit 600DPI. Ich würde noch höher gehen, wenn die Scanner das könnten.
Dadurch entstehen gewaltige Scanjobs für unsere beiden Texterkennungsserver, aber das mindert die Fehlerzahl der OCR.

Nach der OCR und der Umwandlung in PDF, werden die Dokumente stark verdichtet.

Wir arbeiten übrigens mit Trennseiten. Das sind gelbe A4-Blätter, die mittig einen Barcode enthalten und rundherum den Patchcode "T".

Scanner-hardware:
Auch ich empfehle Fujitsu_Scanner der FI-Serie. Wir haben davon drei neben unseren Kopierern, die ebenfalls als Scanner fungieren.

Gruß
bdmvg
Bitte warten ..
Mitglied: Kingpin90
LÖSUNG 03.03.2020 um 09:09 Uhr
Schau dir mal die Software ecoDMS an.
Die Software kann ziemlich viel, die Lizenzkosten sind überschaubar und das Lizenzmodell ist wirklich Fair.
Es gibt auch eine kostenlose Lizenz für drei User. Damit kannst du fast alles machen was du auch mit der Kauf-Lizenz machen kannst.

Die Software unterstützt Trennblätter und OCR.

Du kannst entweder mit einem unterstützen Dokumentenscanner direkt in die Software scannen, oder du legst PDF oder TIFF Dateien in einem Importverzeichnis ab. Die Dokumente landen dann in einer Inbox und dann kannst du die nach der Reihe nach einsortieren und verschlagworten.

Du kannst in der Software eine Ordnerstruktur und ein Berechtigungskonzept definieren. Du kannst auch verschiedene Dokumentenarten mit individuellen Schnlagwortfeldern definieren. Das tolle ist, das du bei der Verschlagwortung einfach mit der Maus einen Rahmen um die jeweilige Textstelle ziehen kannst. Die Stelle wird dann per ORC verarbeitet und in das Feld übernommen. Das geht richtig flott.

Wie gut ORC funktioniert ist von der Scan Qualität abhängig. Damit musst du mal etwas herumexperimentieren.
Ich glaube ich habe das bei mir auf schwarz/weiß und 600dpi eingestellt.
Bitte warten ..
Mitglied: monstermania
LÖSUNG 03.03.2020 um 09:23 Uhr
Zitat von bjoernsen:
Auch zukünftige Verträge und diverses anderes wird nach Abschluss des ersten Steps digitalisiert.
Dann solltet Ihr Eure Deckblätter schnellstmöglich um einen Barcode ergänzen! Der Barcode sollte idealerweise die Daten enthalten, die Ihr benötigt (Vertragsnummernfeld und Vertragspartnerdaten). Dafür eignet sich z.B. ein QR-Code sehr gut.
Im QR-Code sollte dann auch ein individueller TAG enthalten sein, damit Ihr sicherstellt, dass nur EUER QR-Code genutzt wird!

Später braucht Ihr dann einfach nur noch alle Dokumente einzuscannen. Die Trennung in einzelne Stapel läuft dann komplett über den Barcode. Da spart man sich dann auch die Formularerkennung und die dadurch möglichen Fehlerquellen (OCR).

PS: Man muss ELO nicht zur Archivierung nutzen! Mit etwas vbs kann man den ELO Connector sehr gut auch für andere Projekte einsetzten/automatisieren. Ich habe damit schon eine automatische Formularekennung für EasyArchiv gebaut. Hat meinen damaligen AG einige Tausend-€ Lizenzkosten für das entsprechende Easy-Modul gespart.
Bitte warten ..
Mitglied: bjoernsen
03.03.2020 um 09:29 Uhr
Super, ich danke euch!
Bitte warten ..
Mitglied: NordicMike
03.03.2020 um 09:35 Uhr
Die OCR Erkennung ist im EcoDMS deutlich schlechter, als von Abby/Nuance. Auch deutlich schlechter, als die integrierte OCR Erkennung vom Fujitsu N7100, die mir persönlich am besten gefällt, da sie autark ohne Server bzw Software arbeitet. Auch müssten die PDF's im EcoDMS erst einmal wieder einzeln aus dem Programm wieder auf die Festplatte exportiert werden.

Der Fujitsu verwendet jedoch eine eigene Seite zur Dokumententrennung, diese müsste man über die vorhandene Deckseite drüber legen. Wenn die vorhandene Deckseite als Trennseite erkannt werden soll, hilft nur eine Softwarelösung.
Bitte warten ..
Mitglied: monstermania
03.03.2020 um 09:40 Uhr
Zitat von Kingpin90:
Wie gut ORC funktioniert ist von der Scan Qualität abhängig. Damit musst du mal etwas herumexperimentieren.
Ich glaube ich habe das bei mir auf schwarz/weiß und 600dpi eingestellt.
Nur mal so als Tip. Abbyy empfiehlt 300dpi und 256 Graustufen für optimale OCR-Ergebnisse.
Und dann noch generell zum Thema OCR. ecoDMS nutzt die Tesseract-OCR-Engine. Und ja, Tesseract hat in den letzten Jahren durch google qualitativ ganz schön aufgeholt. Aber Tesseract kommt immer noch nicht an die OCR-Engines von Abbyy oder Nuance heran.
Ich habe hier ein 'fieses' Testdokument mit unterschiedlichen dunklen Texthintergründen. Da sieht man dann schnell, welche OCR-Engine auch mit schwierigen Dokumenten klarkommt un 1a Ergebnisse liefert.
Macht halt einen Riesenunterschied, ob nun 99,5% oder 99,8% des Textes korrekt erkannt wird. Rechne das mal auf einige hundertausend oder gar Millionen Dokumente hoch.
Bitte warten ..
Mitglied: monstermania
03.03.2020 um 10:24 Uhr
Zitat von beidermachtvongreyscull:

Moin,

NSi AutoStore (Express)

das ist meine Empfehlung. Der Fairness halber sei erwähnt, dass die Software nicht billig ist, aber damit habe ich beste Erfahrungen gemacht.
Mittlerweile wurde das Produkt weiterverkauft. Du findest es hier:
https://www.kofax.de/sitecore/content/German/products/controlsuite/autos ...
Mit diesen RundumSorglosGlücklich-Lösungen habe ich immer so meine Probleme. M.E. ist das wichtigste bei der Archivierung die Qualität der archivierten Dokumente!
Mein letzer AG hat mir Toshiba Capture & Store (ScanShare) aufs Auge gedrückt. Schon nach ein paar Tagen hat mich das Produkt nur noch genervt (https://administrator.de/forum/erfahrungen-druck-kopierl%C3%B6sungen-cap ...).
Und kaum habe ich mal im Forum des Herstellers ScanShare einige kritische Fragen gestellt, wurde ich dann gesperrt!
Bitte warten ..
Mitglied: STITDK
03.03.2020 um 10:26 Uhr
Servus,

ich gehe mal nicht auf die Ablage ein:


KODAK CAPTURE PRO je nach Scanner Modell auch beim Scanner dabei.




STITDK
Bitte warten ..
Mitglied: beidermachtvongreyscull
03.03.2020 um 10:27 Uhr
Ich akzeptiere Deine Ansicht.

Ich nutze die Software recht gerne und für meine Verhältnisse, auch wenn schon eine ältere Version, sehr erfolgreich.
Dahinter steht derzeit eine Omnipage Engine.

Die Suite tut, was sie soll und darauf kommt es mir an.

Das Brimborium drum herum habe ich mit VBScripts gelöst.
Bitte warten ..
Mitglied: TomTomBon
LÖSUNG 03.03.2020 um 11:48 Uhr
Moin Moin,

Ich arbeite in dem Bereich und kann dir nur ein paar Empfehlungen geben, sonst geht es zu sehr in die Tiefe

Allgemein sind die OCR Erkennungs Routinen von Abby und Nuance die besten, Nuance etwas besser, Aber die Preise sind an Adobe Acrobat orientiert.
Sprich Teuer.
Aber wenn Ich die WIRKLICH erkennen will, lohnen die sich!

Es gibt zwar in Kopierern auch interne OCR Tools, die viel billiger sind!, aber das Ergebnis ist eher Mau.
Wenn Ich in PDF eine Rechnungsnr suche finden die die auch meistens.
Aber aufwendiger...
Nein.
Lieber nicht.

Dann gibt es noch DSM und ECR Tools die das mit implizieren!
(Sie nutzen meist auch nur Abby bzw nuance )
Man hat aber ein komplettes System zur weiteren Verarbeitung dahinter.



Generell:
Das Thema ist NICHT trivial!
Ich empfehle einen passenden Dienstleister dazu!

Meine Empfehlung:
GeniusBytes oder ceyoniq.

Aber es gibt natürlich auch viel viel mehr

Just my Senf
Tom
Bitte warten ..
Mitglied: TomTomBon
LÖSUNG 03.03.2020 um 11:59 Uhr
Konkretisierung:

Wenn der kontinuierliche Workflow mit Scannen und OCR und Weiterverarbeitung gewünscht ist,
dann gelten meine Empfehlungen.

Wenn nur ein "paar" Scanns gemacht werden sollen, 2-3000 Seiten, gibt es auch von Abby entsprechende trials.

Oder selbst gebaute Workflows mit vielerlei Hilfsmittel.

Ist es produktiv und wichtig sollte man das aber lieber ausgegliedert haben.
Dann kann man den zornigen Blick auch eher auf DIE abwenden
Wenn mal etwas nicht geht.





Fürs kleine Scannen würde Ich eher eine mittlere MFP nehmen mit DMS.
Z.B eine 4007ci mit GeniusBytes.
Mein Geschmack.
https://www.utax.de/C12571260052E282/direct/farbe
https://www.geniusbytes.com/de/#
Bitte warten ..
Mitglied: bjoernsen
03.03.2020 um 12:29 Uhr
Danke Dir Tom!
Bitte warten ..
Mitglied: TomTomBon
03.03.2020 um 14:22 Uhr
Bei meinen Empfehlungen:
Es gibt zum einen die TA triumph-Adler
https://www.triumph-adler.de/ta-de-de
Die bieten direkten Support/Verkauf/Wartung etc Deutschlandweit an.

Und UTAX
https://www.utax.de/C12571260052E282/direct/hs

Das sind die identischen Produkte, nur bekommt man die Sachen bei UTAX über einen "lokalen" Händler der sich dann um einen kümmert.
Und dahinter gibt die UTAX support und Knowhow.
Hat beides sein für und wieder.


Aber das wichtigste für so ein Projekt ist das man einen Partner findet, ihn kennen lernt und Vertrauen hat.
Denn so ein Projekt ist teuer.
Wenn ein Problem auftritt, wer auch immer der Verursacher ist, ist eine freundschaftliche Kommunikation viel Geld wert!
Bzw es spart Geld

Nicht immer ist der billigste pro Stunde unterm Strich der billigste
Bzw eher selten.
Bitte warten ..
Ähnliche Inhalte
Hosting & Housing
Nextcloud Volltextsuche (OCR)
Frage von D46505PlHosting & Housing5 Kommentare

Hallo Zusammen, ich habe Nextcloud auf einem Debian 8 laufen und die Erweiterung "Elaticsearch" installiert. Wenn ich ein Dokument ...

Drucker und Scanner
OCR Erkennung auf Server
Frage von KodaCHDrucker und Scanner15 Kommentare

Guten Morgen Bisher habe ich einen HP LaserJet Pro MFP M426fdw. Da es nicht viele Dokumente zum Scannen gibt ...

Windows Tools
Tipp für gutes OCR Programm?
gelöst Frage von QQR700Windows Tools4 Kommentare

Hallo, ich bin auf der Suche nach einem guten OCR-Programm (für Windows 7). Es soll eine hohe Erkennungsrate haben ...

Voice over IP
Softphone - OCR aus Datenbank?
Frage von ZZaaiiggaaVoice over IP7 Kommentare

Hallo zusammen, gibts ein Softphone mit OCR Erkennung? Sprich ich habe eine Datenbank und dort eben (eigenes prog) Telefonnummern ...

Neue Wissensbeiträge
Sicherheit

Citrix ADC, Gateway u. SD-Wan: Schwachstellen patchen

Information von kgborn vor 1 TagSicherheit

Keine Ahnung, wie viele Admins von Citrix-Applicances hier unterwegs sind und ob die Versorgung mit Advisories klappt. Aber im ...

Off Topic

Im Tel Raum von Hamburg (040) sind mal wieder viele Indische Microsoft Anrufer unterwegs

Information von TomTomBon vor 2 TagenOff Topic6 Kommentare

Moin Moin, Die sind so schlecht das sogar meine Frau sofort die erkannt hat was die sind. Und Ihr ...

Router & Routing

FritzOS 7.20 kommt auch auf Deine Fritze (wahrscheinlich)

Information von Visucius vor 3 TagenRouter & Routing16 Kommentare

Nachdem ich hier die Hassliebe zu den kleinen Kistchen kenne, sollten wir das nicht zu breit ausdehnen. Ein paar ...

Netzwerke

PfSense VPN mit L2TP (IPsec) Protokoll für mobile Nutzer

Anleitung von aqui vor 3 TagenNetzwerke

Allgemeine Einleitung Das folgende VPN Tutorial ist eine Ergänzung zum bestehenden VPN_Client_Tutorial. Es beschreibt ebenfalls die VPN Anbindung von ...

Heiß diskutierte Inhalte
Grafikkarten & Monitore
Auflösungsprobleme Windows 10 über Displayport
Frage von VollmilchheiniGrafikkarten & Monitore35 Kommentare

Hallo zusammen, ich habe folgendes Problem. An eine HP Z2 Tower G4 Workstation ist ein Monitor über DP angeschlossen. ...

Server
Firmennetzwerk und legales Filesharing: Konzept zur Absicherung gegen illegales Filesharing
gelöst Frage von kundenbeschwerdeServer15 Kommentare

Guten Tag, ich heiße Hans und habe von meinem Unternehmen die Aufgabe übertragen bekommen, ein Konzept zur Abwehr vom ...

Windows Server
Server 2012R2 Probleme mit Internet
Frage von NordsterneWindows Server14 Kommentare

Hallo zusammen, ich habe folgendes Problem: Server 2012R2 verbunden über Netzwerkkabel. Die IP ist statisch eingestellt. Gateway ist die ...

Windows Netzwerk
Probleme beim Routing zwischen VLAN-Netzen durch Windows Firewall
Frage von ByteCraftWindows Netzwerk14 Kommentare

Hallo zusammen, ich sitze nun schon den zweiten Tag an meinem Problem. Die Situation ist wie folgt: Ich habe ...