Top-Themen

Aktuelle Themen (A bis Z)

Administrator.de FeedbackApache ServerAppleAssemblerAudioAusbildungAuslandBackupBasicBatch & ShellBenchmarksBibliotheken & ToolkitsBlogsCloud-DiensteClusterCMSCPU, RAM, MainboardsCSSC und C++DatenbankenDatenschutzDebianDigitiales FernsehenDNSDrucker und ScannerDSL, VDSLE-BooksE-BusinessE-MailEntwicklungErkennung und -AbwehrExchange ServerFestplatten, SSD, RaidFirewallFlatratesGoogle AndroidGrafikGrafikkarten & MonitoreGroupwareHardwareHosting & HousingHTMLHumor (lol)Hyper-VIconsIDE & EditorenInformationsdiensteInstallationInstant MessagingInternetInternet DomäneniOSISDN & AnaloganschlüsseiTunesJavaJavaScriptKiXtartKVMLAN, WAN, WirelessLinuxLinux DesktopLinux NetzwerkLinux ToolsLinux UserverwaltungLizenzierungMac OS XMicrosoftMicrosoft OfficeMikroTik RouterOSMonitoringMultimediaMultimedia & ZubehörNetzwerkeNetzwerkgrundlagenNetzwerkmanagementNetzwerkprotokolleNotebook & ZubehörNovell NetwareOff TopicOpenOffice, LibreOfficeOutlook & MailPapierkorbPascal und DelphiPeripheriegerätePerlPHPPythonRechtliche FragenRedHat, CentOS, FedoraRouter & RoutingSambaSAN, NAS, DASSchriftartenSchulung & TrainingSEOServerServer-HardwareSicherheitSicherheits-ToolsSicherheitsgrundlagenSolarisSonstige SystemeSoziale NetzwerkeSpeicherkartenStudentenjobs & PraktikumSuche ProjektpartnerSuseSwitche und HubsTipps & TricksTK-Netze & GeräteUbuntuUMTS, EDGE & GPRSUtilitiesVB for ApplicationsVerschlüsselung & ZertifikateVideo & StreamingViren und TrojanerVirtualisierungVisual StudioVmwareVoice over IPWebbrowserWebentwicklungWeiterbildungWindows 7Windows 8Windows 10Windows InstallationWindows MobileWindows NetzwerkWindows ServerWindows SystemdateienWindows ToolsWindows UpdateWindows UserverwaltungWindows VistaWindows XPXenserverXMLZusammenarbeit

Inkassorechnungen, Mahnbescheide per OCR scannen und in vordefinierte Spalten von Excel per VBA eintragen

Mitglied: isophoron

isophoron (Level 1) - Jetzt verbinden

11.12.2019 um 14:02 Uhr, 570 Aufrufe, 10 Kommentare

Hallo zusammen,

ich möchte die eingehenden Inkassorechnungen, Mahnbescheide u.ä. unserer Mandaten per OCR scannen und in eine Excel Liste automatisiert eintragen. Ich habe mir gedacht, dass dieses per VBA geschehen könnte. Aber irgendwie komme ich dabei nicht zurecht. Wenn mir hier jemand helfen könnte, wäre ich sehr dankbar.
Ich habe mal ein Screenshot der Liste mit angehängt. Es würde Arbeit ersparen, weil Mandanten zum Teil sehr viele Gläubiger haben.
gläubigerliste - Klicke auf das Bild, um es zu vergrößern
Mitglied: H41mSh1C0R
11.12.2019 um 14:52 Uhr
Aloa,

wobei kommst du nicht zurecht? Googeln, VBA .....?

Sehe außer Aufgabe abkippen kein konkretes Problem?

Hast du eine OCR Software und kann man diese per Script ansteuern?

VG
Bitte warten ..
Mitglied: isophoron
11.12.2019 um 15:04 Uhr
Danke für die schnelle Rückmeldung. Wir haben nur Adobe Acrobat DC, sonst noch keine OCR Software.
Ich glaube, die kann man per Script ansteuern.
Aber das weißt du bestimmt besser. Sonst müssen wir eine kaufen.

Gegoogelt habe ich schon sehr viel. Leider für mich ohne erachtenswerten Erfolg.
Bitte warten ..
Mitglied: H41mSh1C0R
11.12.2019 um 15:22 Uhr
Stichwort: iTextSharp

Hier im Forum gibt es schon einige Einträge dazu wie man Einträge aus PDFs ausliest.

z.B. für Mails (von Colinardo super beschrieben)
https://administrator.de/forum/skript-auslesen-automatischen-versenden-e ...

Ist aber Powershell. ^^

VG
Bitte warten ..
Mitglied: isophoron
11.12.2019 um 15:28 Uhr
Könntest du mir mit einem Script behilflich sein?
Bitte warten ..
Mitglied: H41mSh1C0R
11.12.2019 um 16:06 Uhr
Bei Auftragsarbeiten hilft sicher Colinardo weiter.
Für so nebenbei ist die Aufgabe für mich zu intensiv, sry.

Meine Vorgehensweise wäre das Script von Colinardo zu adaptieren auf erstmal 1 Feld (das keine Mailadresse ist) welches man auslesen will aus dem PDF.
Bitte warten ..
Mitglied: serial
11.12.2019, aktualisiert um 17:23 Uhr
Moin.
Zitat von isophoron:
Wir haben nur Adobe Acrobat DC, sonst noch keine OCR Software.
Ich glaube, die kann man per Script ansteuern.
Die OCR Funktion ist da eine rühmliche Ausnahme, die ist über die Acrobat API nicht mehr ansprechbar.
Wenn das jeweilige PDF also nicht bereits den Text enthält sondern nur Bildmaterial kannst du das damit knicken.
Gerade bei solch sensiblen Dokumenten ist OCR eine gefährliche Sache. Stimmt da nur ein Zeichen bei einer Nummer nicht 100% gibt das schnell Chaos. Wenn das niemand nachträglich sichtet.

Eine von vielen Varianten findest du bswp. hier:
https://docsumo.com/

See ya.
Bitte warten ..
Mitglied: beidermachtvongreyscull
11.12.2019, aktualisiert um 17:15 Uhr
Ich wage zu bezweifeln -anhand der gegebenen Informationen-, dass das lösbar ist.

Gründe:
  • Inkassorechnungen und Mahnbescheide müssten einheitlich aufgebaut sein, so dass in bestimmten Zonen eines Dokuments zu erwartende Werte zu finden sind.
  • OCR ist fehleranfällig. Die Dokumentqualität ist maßgeblich entscheidend, ob wie hoch der Grad der Fehler ist.
  • Die Durchsuchbarmachung ist abhängig von der gewählten Engine. Es gibt Engines, die zeilenweise ein Dokument aufbrechen, andere können es auch zusätzlich in Spalten unterteilen, so dass Abschnitte entstehen. Worauf ich hinaus will: In Abhängigkeit zur OCR-Engine und dem Ergebnis wird es fraglich sein, gesuchte Zeichenfolgen korrekt zu identifizieren.

Es gibt Produkte, um hier ggf. Abhilfe zu schaffen:
https://www.enfocus.com wenn Du viel, sehr viel Geld hast, aber z.B. Adobe acrobat automatisieren willst.
https://www.kofax.de/sitecore/content/German/products/controlsuite/autos ... wenn Du billiger wegkommen willst.

Die Produkte von EnFocus kenne ich nur vom Namen her. Es heißt, die seien der Mercedes der Dokumentenautomatisierung.
Den Autostore setze ich in der Express-Edition ein. Er kann in Dokumenten suchen, die Suchergebnisse in Variablen übergeben und diese können über Scripte in XLS-Dateien oder ggf. direkt in Datenbanken geladen werden.
Bitte warten ..
Mitglied: isophoron
11.12.2019 um 18:14 Uhr
Ich bedanke mich schon jetzt für die Nachrichten. Wer weiß, was da noch kommt.
Ich werde eure Ratschläge ausprobieren und mich dann mit meinen Erfahrungen hier erneut melden.
Bitte warten ..
Mitglied: NetzwerkDude
11.12.2019, aktualisiert um 18:51 Uhr
Bei uns haben wir eine lösung, die nennt sich abtippkraft in der buchhaltung :D
Um das Maschinell zu machen, gibts zahlreiche Schwierigkeiten, die hier bereits erwähnt wurden.

tl;dr
100% verlässliche Lösungen gibt es nicht, schon gar nicht "ich hacke mal was an einem Nachmittag" - aber tendenziell ist es eine lösbare Aufgabe

An sich ist es so: Da OCR unzuverlässig ist und jede Rechnung / Mahnung anders aussieht, braucht das Programm einiges an Intelligenz. Als Ausganspunkt würde ich tesseract-ocr nehmen, denn dieser liefert im Ursprungzustand schon ganz gute ergebnisse.
Ich habe mir letztes Jahr ein kleines Tool geschrieben das zumindest bei Scans erkennt ob es eine Rechnung/Lieferschein/Angebot ist und den Lieferanten aus einer vorgefertigten Liste erkennt + unsere eigene Referenznummer extrahiert. Das ist der Tricky part, da zu hier u.a. eine Logik integrieren musst die mit Wahrscheinlichkeiten hantiert (z.B. das Wort "Rechnung" ist in Fett + Schriftgrad >12 steht bei knapp 1/3 der Länge des dokuments, während das Wort lieferschein in kleinen Schrift eher mitten im Dokument steht = höchtwahrscheinlich eine Rechnung die sich auf einen Lieferschein bezieht).
Ich bin mir bis heute nicht sicher ob eher ausgefallene RegExs oder Levenshtein Distanz zum Erfolg führt - alles was ich so gehackt habe ist immer nur maximal 90% zuverlässig - also weit weg vor einem produktivprodukt für die Buchhaltung.
Das schöne ist aber das z.B. tesseract eine mashine learning api hat - d.h. dem kannst auch was beibringen. Ebenso dein Programm sollte mit etwas lernen besser werden (da die Rechnungen z.B. immer gleich aussehen und man z.B. die von der buchhaltung bearbeiten lassen kann um Materiall fürs MashineLearning zu haben - aber brauchst verdammt viele Rechnungen).

Die Schritte im Einzelnen:
1. In möglichs hoher Qualität scanen (600dpi und höher, der computer freut sich immer über höhere Auflösungen)
2. den Scan vor dem OCS Prozess aufbereiten (hier gibts einen Schönen Artikel dazu: https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality)
3. Dann kannst du es mit tesseract scannen und am besten als structurierte "hocr" ausgeben
4. Die hocs kannst du selber behacken oder auf vorhandene tools setzen (z.B. hier https://github.com/tmbdev/hocr-tools) - auf jeden Fall ist das der Schritt bei dem man programmatisch die Werte nun ausliest und und die Excel einträgt.
5. Du bist der Held weil du so eine geile Software geschrieben hast

oder
Du könntest auch warten bis sich XRechnung durchsetzt, da kann man schön strukturiert alle Felder aus der XML auslesen (mehr dazu: https://ecosio.com/de/blog/was-ist-das-xrechnung-format/)

MFG N-Dude
Bitte warten ..
Mitglied: monstermania
17.12.2019 um 11:01 Uhr
Moin,
wenn Du Dich mal mit dem Thema etwas mehr beschäftigen möchtest kann ich Dir für den Einstieg ELO Office und den ELO Connector (jetzt Scan&Archive) empfehlen. Der ELO Connector ist eine vollwertige Formularerkennung/Zonenextration und ist in der kostenlos verfügbaren Testversion von ELO Office enthalten.
https://elooffice.elo.com/blog/wp-content/uploads/2014/03/Connector-1.pd ...
http://www.allesinordnung.de/fileadmin/user_upload/dokumente/LprobBuchE ...

Gruß
Dirk

PS: Mit etwas vbs-Skripting lässt sich der ELO Connecor auch im Rahmen eigener Projekte nutzen.
Ich habe mit dem ELO Konnektor eine automatische Verarbeitung von Abliefernachweisen der von uns genutzten Logistiker für meinen alten Arbeitgeber gebaut. Damit wurden mehrere hundert Dokumente im Monat automatisch verarbeitet und Indexdaten die ausgelesen.
Bitte warten ..
Ähnliche Inhalte
Microsoft Office
Excel VBA vbyesno
gelöst Frage von Florian86Microsoft Office2 Kommentare

Hallo, ich habe folgenden Code Sub AbgerundetesRechteck1_Klicken() Dim wksOrig As Worksheet Dim wksStore As Worksheet Dim lngLastRow As Long ...

VB for Applications
Excel VBA Code
gelöst Frage von specialuserVB for Applications2 Kommentare

Hallo zusammen, Hab hier einen Button in einer Excel mit Makros erstellt. Der Button hat die Funktion aus der ...

Microsoft Office
Excel VBA - PDF
Frage von SabineTMicrosoft Office3 Kommentare

Hallo Zusammen, ich habe ein pdf, über welches ich bereits die OCR Texterkennung laufen lassen habe. Jetzt möchte ich ...

VB for Applications
Excel VBA Programmierung
gelöst Frage von specialuserVB for Applications7 Kommentare

Hallo zusammen, ich suche auf diesem Weg Hilfe bei einer VBA Programmierung. Und zwar geht es darum 2 Dropdownlisten ...

Neue Wissensbeiträge
Router & Routing

Statische Route dauerhaft einrichten unter Ubuntu 18.04 LTS

Erfahrungsbericht von the-buccaneer vor 12 StundenRouter & Routing2 Kommentare

"Kann ja nicht so schwer sein, unter Ubuntu 18.04 LTS ne statische Route einzurichten", denkt der Windows-Admin und gelegentliche ...

Microsoft

Effect on customer websites and Microsoft services and products in Chrome version 80 or later

Information von Dani vor 18 StundenMicrosoft

Guten Abend zusammen, The Stable release of the Google Chrome web browser (build 80, scheduled for release on February ...

Drucker und Scanner

Kyocera PCL Barcode Flash SD v3.0 Firmware Update installieren

Tipp von Mana vor 3 TagenDrucker und Scanner1 Kommentar

Ich hatte eine vorhandene "PCL Barcode Flash SD v3.0 Type D/E", die bisher in einem Kyocera FS-4200DN verbaut war. ...

Sicherheit
0-day Schwachstelle im Internet Explorer
Information von kgborn vor 7 TagenSicherheit3 Kommentare

In Microsofts Internet Explorer gibt es eine 0-day Schwachstelle in der Scripting Engine, die faktisch alle Browser- und Windows-Versionen ...

Heiß diskutierte Inhalte
Windows Server
Gruppenrichtlinie Basisordner
Frage von opc123Windows Server18 Kommentare

Hallo, es gibt ja die GPO "User Basis Ordner" Ich habe diese auf ein Netzlaufwerk aktiviert. Der Ordner wird ...

Batch & Shell
Verschlüsselung von Dateien über .bat
gelöst Frage von ShadowmindBatch & Shell13 Kommentare

Guten tag miteinander! Ich arbeite zurzeit an einem Decoder/Coder in der Batch syntax, um verschiedene Dateien zu verschlüsseln. Leider ...

CPU, RAM, Mainboards
Was macht eine CPU mit einer Milliarde Transistoren?
Frage von UserUWCPU, RAM, Mainboards10 Kommentare

Jede Generation hat mehr Transistoren, heute werden ein oder auch mehrere Milliardem erreicht. Gleichzeitig nimmt die Taktfrequenz kaum noch ...

Exchange Server
Exchange 2019, kein Mailflow mehr möglich, extern sowie intern
Frage von desmondjamesExchange Server10 Kommentare

Hey Leute, ich habe da ein kleines Problem bei einem Exchange Server . Infos zum Server: Version 15.2 ‎(Build ...