EcoDMS erkennt Text nicht richtig
Seit gestern beschäftige ich mich eingehend mit ecoDMS. Es läuft auf einer Synology 918+ als Docker image. Alles ist eingerichtet. Nun habe ich folgendes Problem:
ecoDMS erkennt nicht den Inhalt von z.B. Kontoauszügen der Deutschen Bank. Ich habe alte Kontoauszüge, die mir von der Deutschen Bank als pdf Datei vorlagen einfach in den Scanordner gepackt, um sie dann automatisch verarbeiten zu lassen.
Beispiel:
SEPA Lastschrifteinzug von
gas.de Versorgungsgesellschaft mbH
Verwendungszweck/ Kundenreferenz
ABSCHLAG Gas 09/17 VK
wird erkannt als:
pbmA iastscÜrifteinzug von
gasKde sersorgungsgeseääscÜaft mbe serwendungszweckL hundenreferenz
ABpCeiAd das MVLNT shW
Das "Original" stammt aus dem Original PDF, welches ich mit Adobe Acrobat geöffnet habe und dann hier mit Copy & Paste eingefügt. Das "schlecht" erkannte stammt aus dem in ecoDMS gespeicherten pdf nach der OCR Erkennung. Daher ist eine Textsuche und Erkennung nicht möglich.
Bei anderen pdf's auch von einer anderen Bank (ING-DIBA) funktioniert die Erkennung ohne Probleme. Ich habe schon einmal die gesamte Installation komplett gelöscht und neu aufgesetzt. Leider ohne Erfolg. Unter Eigenschaften beim Acrobat Reader steht zu dem Dokument: xep ver 4.19 20110414 und pdf Verson 1.4 (Acrobat 5.x)
Hat jemand eine Lösung? Vielen Dank.
ecoDMS erkennt nicht den Inhalt von z.B. Kontoauszügen der Deutschen Bank. Ich habe alte Kontoauszüge, die mir von der Deutschen Bank als pdf Datei vorlagen einfach in den Scanordner gepackt, um sie dann automatisch verarbeiten zu lassen.
Beispiel:
SEPA Lastschrifteinzug von
gas.de Versorgungsgesellschaft mbH
Verwendungszweck/ Kundenreferenz
ABSCHLAG Gas 09/17 VK
wird erkannt als:
pbmA iastscÜrifteinzug von
gasKde sersorgungsgeseääscÜaft mbe serwendungszweckL hundenreferenz
ABpCeiAd das MVLNT shW
Das "Original" stammt aus dem Original PDF, welches ich mit Adobe Acrobat geöffnet habe und dann hier mit Copy & Paste eingefügt. Das "schlecht" erkannte stammt aus dem in ecoDMS gespeicherten pdf nach der OCR Erkennung. Daher ist eine Textsuche und Erkennung nicht möglich.
Bei anderen pdf's auch von einer anderen Bank (ING-DIBA) funktioniert die Erkennung ohne Probleme. Ich habe schon einmal die gesamte Installation komplett gelöscht und neu aufgesetzt. Leider ohne Erfolg. Unter Eigenschaften beim Acrobat Reader steht zu dem Dokument: xep ver 4.19 20110414 und pdf Verson 1.4 (Acrobat 5.x)
Hat jemand eine Lösung? Vielen Dank.
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 590099
Url: https://administrator.de/forum/ecodms-erkennt-text-nicht-richtig-590099.html
Ausgedruckt am: 03.04.2025 um 23:04 Uhr
17 Kommentare
Neuester Kommentar
Zitat von @tdse13:
Gibt es dafür eine Einstellung oder eine sonstige Einstellung, um die Kompatibilität zu erhöhen?
Da Du einen Mac einsetzt, bin ich im Prinzip raus!Gibt es dafür eine Einstellung oder eine sonstige Einstellung, um die Kompatibilität zu erhöhen?
Grundsätzlich ist das aber ein Software-Problem.
Es handelt sich bei dem zu verarbeitenden PDF ja offenbar um ein Volltext-basiertes PDF. So ein PDF sollte von jedem DMS sofort erkannt werden und dementsprechend überhaupt keine OCR mehr durchgeführt werden!
OCR macht nur bei gescannten Dokumenten Sinn.
Du solltest Dich mit Deinem Problem an den Hersteller wenden.
Umsonst ist der Tot 
War es denn damals ein digitales PDF? Also von Software erstellt?
Oder wurde es eingescannt.
Ohne das PDF zu sehen ist es schwer dazu was zu sagen.
Das von Dir beschriebene Problem gibt es eigentlich nur bei gescannten Dokumenten mit schlechter Bildqualität.
Ich habe aber auch schon digitale PDFs gesehen wo jeder Buchstabe eine Box ein eigenes Textfeld war.
Öffne mal bitte das PDF in einem PDF Reader. Strg+A, Strg+V, Notepad öffnen, einfügen
Schau mal was da ankommt.
War es denn damals ein digitales PDF? Also von Software erstellt?
Oder wurde es eingescannt.
Ohne das PDF zu sehen ist es schwer dazu was zu sagen.
Das von Dir beschriebene Problem gibt es eigentlich nur bei gescannten Dokumenten mit schlechter Bildqualität.
Ich habe aber auch schon digitale PDFs gesehen wo jeder Buchstabe eine Box ein eigenes Textfeld war.
Öffne mal bitte das PDF in einem PDF Reader. Strg+A, Strg+V, Notepad öffnen, einfügen
Schau mal was da ankommt.
Servus @tdse13 .
Die gibt es. Melde dich beim ecoDMS. Es gibt spezielle PDFs die sowohl eine Text als auch Bildebene besitzen, vermutlich verschluckt sich das System an denen, bzw. nutzt statt der Text fälschlicherweise die Bildebene weil nicht eindeutig markiert, und Tesseract ist halt nicht so perfekt wie bspw. Abbyy. Da gibt es so viele Varianten, deswegen gibt es da oftmals Probleme. Genau deshalb wurde ja z.B. der Standard PDF/A geschaffen.
Wenn der Support davon erfährt und man ihm z.B. das PDF zur Verfügung stellt kann er das prüfen und evt. ein Update zur Verfügung stellen. Das kommt dann allen zugute!
Wenn du also deine PDFs nicht erneut durch eine Umwandlungsstufe schicken willst bleibt dir wohl oder übel nur diese Variante. Btw. du bekommst das System ja schon umsonst, was erwartest du?
.
Grüße Uwe
p.s. fürs nächste mal bitte Diskussionsrichtlinien - die Regeln zu unseren Inhalten beachten, hier antworten dir immerhin noch Menschen "kostenlos" und keine Bots.
Die gibt es. Melde dich beim ecoDMS. Es gibt spezielle PDFs die sowohl eine Text als auch Bildebene besitzen, vermutlich verschluckt sich das System an denen, bzw. nutzt statt der Text fälschlicherweise die Bildebene weil nicht eindeutig markiert, und Tesseract ist halt nicht so perfekt wie bspw. Abbyy. Da gibt es so viele Varianten, deswegen gibt es da oftmals Probleme. Genau deshalb wurde ja z.B. der Standard PDF/A geschaffen.
Wenn der Support davon erfährt und man ihm z.B. das PDF zur Verfügung stellt kann er das prüfen und evt. ein Update zur Verfügung stellen. Das kommt dann allen zugute!
Wenn du also deine PDFs nicht erneut durch eine Umwandlungsstufe schicken willst bleibt dir wohl oder übel nur diese Variante. Btw. du bekommst das System ja schon umsonst, was erwartest du?
bei der Deutschen Bank mit einer Software erstellt wurde
Von der deutschen Bank hatte ich schon mal ein paar seltsame PDFs eines Kunden, die werden dort wohl so seltsam erstellt wie deren Vorstände wechseln. Offensichtlich haben die andere Vorstellungen von manchen Dingen Grüße Uwe
p.s. fürs nächste mal bitte Diskussionsrichtlinien - die Regeln zu unseren Inhalten beachten, hier antworten dir immerhin noch Menschen "kostenlos" und keine Bots.
Zitat von @tdse13:
Folgendes habe ich gemacht und es hat funktioniert: Ich habe den Kontoauszug auf meinem Mac in ein pdf/a umgewandelt und jetzt erkennt ecoDMS den Text einwandfrei.
Das wäre mich der Beweis, dass das PDF fehlerhaft oder zumindest ungewöhnlich erstellt wurde.Folgendes habe ich gemacht und es hat funktioniert: Ich habe den Kontoauszug auf meinem Mac in ein pdf/a umgewandelt und jetzt erkennt ecoDMS den Text einwandfrei.
Es handelt sich um einen Kontoauszug der Deutschen Bank, der bei der Deutschen Bank mit einer Software erstellt wurde. Die Qualität ist optimal.
Bloss wiel eine Firma groß ist muss sie keine technisch richtigen PDFs erstellen (können).Am besten an EcoDMS wenden damit die sich das anschauen.
Alternativ ein Skript bauen, z.B. mit pdftk, um die PDFs routinemäßig umzuwandeln.
Zitat von @tdse13:
Trotzdem komisch, daß ich als "kleiner" Privatnutzer ein Problem habe, was eigentlich die normalen geschäftlichen Nutzer schon lange "entdeckt" haben müssen. Meine Auszüge gehen ins Jahr 2003 zurück, mit dem immer gleichen Problem.
Du nutzt Du einen Apple-Computer. Auch wenn man es kaum glauben kann (vor allem als Apple-Nutzer), ist man damit im geschäftlichen Umfeld heutzutage immer noch eine Ausnahme! Kann gut sein, dass Dein Problem mit EcoDMS unter Windows überhaupt nicht auftritt.Trotzdem komisch, daß ich als "kleiner" Privatnutzer ein Problem habe, was eigentlich die normalen geschäftlichen Nutzer schon lange "entdeckt" haben müssen. Meine Auszüge gehen ins Jahr 2003 zurück, mit dem immer gleichen Problem.
Dann ist EcoDMS ja nun nicht unbedingt ein High-End DMS. Ist halt eine eher günstige Lösung macht Seine Arbeit in diesem Segment sicher auch ganz gut.
Insbesondere für die Volltextanalyse wird dann eben ein Tesseract genutzt. Da liegen dann halt Welten zwischen der Tesseract OCR und z.B. einer Abbyy OCR.
Dafür kostet dann aber allein schon die OCR-Lizenz von Abbyy pro Arbeitsplatz mehr als die ganze EcoDMS-Lizenz!
Ich habe das Problem mit vielen Dokumenten von meinem Brother ADS-2800 Scanner. Angeblich soll die PDF-Datei defekt sein, doch alle meine PDF-Viewer können sie anzeigen und ausdrucken. Wenn ich das PDF über die ecoDMS Drucker importiere funktioniert alles, nur über den Scaninput wird der Text nicht erkannt.
Ärgerlich ist vor allem weil keine Fehlermeldung angezeigt wird und man das Dokument später quasi nicht mehr findet.
Ärgerlich ist vor allem weil keine Fehlermeldung angezeigt wird und man das Dokument später quasi nicht mehr findet.