Top-Themen

Aktuelle Themen (A bis Z)

Administrator.de FeedbackApache ServerAppleAssemblerAudioAusbildungAuslandBackupBasicBatch & ShellBenchmarksBibliotheken & ToolkitsBlogsCloud-DiensteClusterCMSCPU, RAM, MainboardsCSSC und C++DatenbankenDatenschutzDebianDigitiales FernsehenDNSDrucker und ScannerDSL, VDSLE-BooksE-BusinessE-MailEntwicklungErkennung und -AbwehrExchange ServerFestplatten, SSD, RaidFirewallFlatratesGoogle AndroidGrafikGrafikkarten & MonitoreGroupwareHardwareHosting & HousingHTMLHumor (lol)Hyper-VIconsIDE & EditorenInformationsdiensteInstallationInstant MessagingInternetInternet DomäneniOSISDN & AnaloganschlüsseiTunesJavaJavaScriptKiXtartKVMLAN, WAN, WirelessLinuxLinux DesktopLinux NetzwerkLinux ToolsLinux UserverwaltungLizenzierungMac OS XMicrosoftMicrosoft OfficeMikroTik RouterOSMonitoringMultimediaMultimedia & ZubehörNetzwerkeNetzwerkgrundlagenNetzwerkmanagementNetzwerkprotokolleNotebook & ZubehörNovell NetwareOff TopicOpenOffice, LibreOfficeOutlook & MailPapierkorbPascal und DelphiPeripheriegerätePerlPHPPythonRechtliche FragenRedHat, CentOS, FedoraRouter & RoutingSambaSAN, NAS, DASSchriftartenSchulung & TrainingSEOServerServer-HardwareSicherheitSicherheits-ToolsSicherheitsgrundlagenSolarisSonstige SystemeSoziale NetzwerkeSpeicherkartenStudentenjobs & PraktikumSuche ProjektpartnerSuseSwitche und HubsTipps & TricksTK-Netze & GeräteUbuntuUMTS, EDGE & GPRSUtilitiesVB for ApplicationsVerschlüsselung & ZertifikateVideo & StreamingViren und TrojanerVirtualisierungVisual StudioVmwareVoice over IPWebbrowserWebentwicklungWeiterbildungWindows 7Windows 8Windows 10Windows InstallationWindows MobileWindows NetzwerkWindows ServerWindows SystemdateienWindows ToolsWindows UpdateWindows UserverwaltungWindows VistaWindows XPXenserverXMLZusammenarbeit

Aufgabe für Anspruchsvolle! Dateiinhalt einer Email auslesen

Mitglied: Abdelhalim

Abdelhalim (Level 1) - Jetzt verbinden

22.02.2007, aktualisiert 14:00 Uhr, 6188 Aufrufe, 2 Kommentare, 1 Danke

Ich habe eine wirkliche Aufgabe für Anspruchsvolle! (Möglicherweise Lösbar)
Also wir erhalten im Unternehmen immer wieder Emails von einer Tochtergesellschaft. Diese Emails beinhalten gescannte Faxe im Anhang. Der Name dieser TIF-Dateien lautet meistens so: "pp000000", somit spiegeln sie nicht den Inhalt der Datei wieder, also man erkennt den Inhalt nicht.
Das große Problem ist jetzt, die TIF-Dateien so zu benennt, dass es dem Inhalt entspricht!
Vorteil: Diesen bestimmten Namen findet man im jeden Dokument genau an einer Stelle!

Also heißt das, wir brauchen eine OCR-Software z.B. Abbyy Finereader der die Email öffnet -> den Namen in dieser bestimmten Zeile entnimmt -> und das Dokument umbenennt -> am besten die Datei dahin speichert, wo man es haben möchte.

Bisher hat das eine unserer Mitarbeiterin gemacht ;-(
Das heißt es Kostet viel Zeit, zweitens machen Menschen Fehler (vertippen etc.)…

Das große Ziel ist es, wenn wir das geschafft haben, diese Faxe in eine vorhandene Datenbank einzupflegen und den zugehörigen Aufträgen zuzuordnen.

Jetzt seit Ihr gefragt, wie bekomme ich das hin?

Boah, ich glaube es ist einigermaßen rausgekommen was ich beabsichtige.
Wenn nicht, fragt bitte nach!

Danke im Voraus!

Mit freundlichen Grüßen

Abdel
Mitglied: filippg
22.02.2007 um 13:51 Uhr
Hallo,

tja, das Problem dürfte die OCR sein. Ich kenne keine, die über die Kommandozeile bedienbar ist, kenne mich bei OCR aber auch sehr wenig aus.
Was kein Problem ist, ist eine eMail zu parsen, den Anhang herauszuziehen, dort aus einer Grafik einen bestimmten Bereich herauszuschneiden (steht der Name immer an einer fixen absoluten Position?) und in eine Datei zu speichern. Den Dateinamen könnte man bei einem Kommandozeilenprogramm mit übergeben, nach dessen Lauf das Ergebnis (z.B. eine .txt-Datei) auswerten und das ganze unter einem neuen Namen abspeichern. Lässt sich beispielsweise in C# alles halbwegs unaufwendig erledigen (TIF müsste vom .NET-Framework unterstützt werden, sollte man aber nochmal nachlesen).

Die Frage bleibt aber auch noch, ob man sich auf die OCR hundertprozentig verlassen möchte.
Und wenn das mit der OCR nicht klappt könnte man den Aufwand der Mitarbeiterin verringern, in dem man ein Programm macht, dass alles bis auf eben OCR macht; die Mitarbeiterin bekommt dann einfach das Fax/den entsprechenden Ausschnitt angezeigt, gibt in ein Textfeld den Namen ein und klickt auf speichern (eMail öffnen, Anhang öffnen, Speicherpfad eingeben entfällt). Damit hätte man auch gleich eine manuelle Kontrolle.

Filipp
Bitte warten ..
Mitglied: ratzla
22.02.2007 um 14:00 Uhr
Das extrahieren des mail Anhangs lässt sich grundsätzlich mit procmail (unter Unix/Linux) realisieren.
Was es da für den Kleinweich-Austauscher (MS Exchange) gibt, weiss ich nicht.

Leider gibt es aber für Linux -nach meinem Wissensstand- noch keine wirklich gute OCR Software.

Noch ein Haken: Der Finereader (zumindest der den ich kenne) liefert nur Office Formate und ist auch nicht über Kommandozeile ansteuerbar. Aber ich glaube es gibt da eine Serverversion die so was kann.
Noch was: Die Fehlerrate von OCR ist relativ hoch, gerade bei Faxen. Man muss außerdem noch ganz bestimmte Textstellen im Fax erkennen (ich nehme nicht an dass das die Info zum Generieren in der ersten Zeile steht).
Die Sache wird vermutlich wirklich eine Herausforderung.
Bitte warten ..
Ähnliche Inhalte
Windows 10
Verzeichnis nach Dateiinhalt durchsuchen
Frage von MPFGWindows 105 Kommentare

Hallo, ich suche eine Möglichkeit alle Dateien eines Verzeichnisses samt Unterordner nach einen Wort zu durchsuchen. Der Windows Explorer ...

Batch & Shell

SED ändert Dateiinhalt nicht mehr (konvertiert)

Frage von Hagen72Batch & Shell

Ich habe ein Batch-Skript geschrieben, das mehrere Eingaben abfragt und die Ergebnisse dann in mehreren Konfigurationsdateien per SED -i ...

PHP

Dateiinhalt einer log-file sortiert darstellen

Frage von TheAlexPHP5 Kommentare

Hallo liebe community, ich bin gerade etwas ratlos, ich versuche eine log-file formatiert auszugeben. Das auslesen an sich ist ...

Ubuntu

Dateiinhalt in UTF-8 ist nicht gleich UTF-8?

gelöst Frage von lexa-lexaUbuntu6 Kommentare

Hi Linux und PHP Gurus, ich habe ein Problem mit dem Zeichensatz *in* einer Datei und komme nicht weiter: ...

Neue Wissensbeiträge
Internet

CDU Propaganda: Urheberschutz im Internet - Ende des digitalen Wild-West

Information von Frank vor 4 StundenInternet3 Kommentare

Hallo Administratoren, aus einem Kommentar heraus habe ich folgenden Beiträge von Herr Sven Schulze und Axel Voss (beide CDU ...

Router & Routing

Zyxel VMG 1312 B30A - Firmwareupdate nur im "privaten" Firefox Modus möglich

Tipp von the-buccaneer vor 18 StundenRouter & Routing2 Kommentare

Hatte hier ein Zyxel 1312 das ums verrecken kein Firmwareupdate durchführen wollte. Datei ist auswählbar, dann kommt der Fortschrittskreisel ...

Windows 7

Windows 7 u. Server 2008 (R2) SHA-2-Update kommt am 12. März 2019

Information von kgborn vor 2 TagenWindows 75 Kommentare

Kleine Info für die Admins der oben genannten Maschinen. Ab Juli 2019 werden Updates von Microsoft nur noch mit ...

Firewall
PfSense 2.5.0 benötigt doch kein AES-NI
Information von ChriBo vor 4 TagenFirewall2 Kommentare

Hallo, Wie sich einige hier erinnern werden hat Jim Thompson in diesem Aritkel beschrieben, daß ab Version 2.5.0 ein ...

Heiß diskutierte Inhalte
Hardware
IT-Werkzeugkoffer bis 50,- EUR
gelöst Frage von departure69Hardware53 Kommentare

Hallo. Ich bin als IT-Systembetreuer einer Gemeinde zusätzlich auch der IT-Systembetreuer einer Grund- und Hauptschule. Dort muß ich jedoch ...

Netzwerke
Verteilung von Programmdaten außerhalb des internen Netzwerkes
Frage von mertaufmbergNetzwerke27 Kommentare

Guten Morgen liebe Administratoren, ich versuche zurzeit eine möglichst sichere und einfache Lösung zu suchen, um ein Programmverzeichnis über ...

Netzwerkmanagement
Richtfunknetzwerk mit vielen Hops stabiler gestalten
Frage von turti83Netzwerkmanagement22 Kommentare

Hallo, in meinem Dorf habe ich vor ca. einem Jahr ein Backbone aufgebaut um die Nachbarschaft mit Internet zu ...

Datenbanken
PHP Fatal error: Uncaught Error: Call to undefined function oci connect
Frage von PlanitecXDatenbanken19 Kommentare

Hallo Zusammen, ich sitze seit Tagen am Problem das ich keine PHP Anwendung mit Anbindung zu Oracle zum laufen ...