Top-Themen

Aktuelle Themen (A bis Z)

Administrator.de FeedbackApache ServerAppleAssemblerAudioAusbildungAuslandBackupBasicBatch & ShellBenchmarksBibliotheken & ToolkitsBlogsCloud-DiensteClusterCMSCPU, RAM, MainboardsCSSC und C++DatenbankenDatenschutzDebianDigitiales FernsehenDNSDrucker und ScannerDSL, VDSLE-BooksE-BusinessE-MailEntwicklungErkennung und -AbwehrExchange ServerFestplatten, SSD, RaidFirewallFlatratesGoogle AndroidGrafikGrafikkarten & MonitoreGroupwareHardwareHosting & HousingHTMLHumor (lol)Hyper-VIconsIDE & EditorenInformationsdiensteInstallationInstant MessagingInternetInternet DomäneniOSISDN & AnaloganschlüsseiTunesJavaJavaScriptKiXtartKVMLAN, WAN, WirelessLinuxLinux DesktopLinux NetzwerkLinux ToolsLinux UserverwaltungLizenzierungMac OS XMicrosoftMicrosoft OfficeMikroTik RouterOSMonitoringMultimediaMultimedia & ZubehörNetzwerkeNetzwerkgrundlagenNetzwerkmanagementNetzwerkprotokolleNotebook & ZubehörNovell NetwareOff TopicOpenOffice, LibreOfficeOutlook & MailPapierkorbPascal und DelphiPeripheriegerätePerlPHPPythonRechtliche FragenRedHat, CentOS, FedoraRouter & RoutingSambaSAN, NAS, DASSchriftartenSchulung & TrainingSEOServerServer-HardwareSicherheitSicherheits-ToolsSicherheitsgrundlagenSolarisSonstige SystemeSoziale NetzwerkeSpeicherkartenStudentenjobs & PraktikumSuche ProjektpartnerSuseSwitche und HubsTipps & TricksTK-Netze & GeräteUbuntuUMTS, EDGE & GPRSUtilitiesVB for ApplicationsVerschlüsselung & ZertifikateVideo & StreamingViren und TrojanerVirtualisierungVisual StudioVmwareVoice over IPWebbrowserWebentwicklungWeiterbildungWindows 7Windows 8Windows 10Windows InstallationWindows MobileWindows NetzwerkWindows ServerWindows SystemdateienWindows ToolsWindows UpdateWindows UserverwaltungWindows VistaWindows XPXenserverXMLZusammenarbeit

Fuzzy OCR Plugin für Spamassassin, erkennt keinen Text. Tipps oder Alternativen gesucht.

Mitglied: mr.quickly

mr.quickly (Level 1) - Jetzt verbinden

06.12.2006, aktualisiert 16:07 Uhr, 5465 Aufrufe, 10 Kommentare

Hallo Zusammen,

nachdem dem wir vor einiger Zeit das Greylisting eingeführt hatten, sind wir mittlerweile sehr verwöhnt was die SPAM-Filterung anbelangt.
In letzter Zeit bekommen wir nun aber immer häufiger SPAM E-Mails in denen der SPAM innerhalb eines Bild steht.
Diese werden von E-Mail Server nicht gefiltert, was auch verständlich ist, da der Text in diesen E-Mails auch nichts zur Filterung hergibt.

Jetzt haben wir gestern ein Plugin für Spamassassin gefunden namens "Fuzzy OCR". Mit diesem soll es möglich sein mittels OCR-Erkennung
SPAM in Bildern zu finden. Haben das schon mit einem Bild getestet welches wir unter Paint erstellt hatten.

Das funktionierte auch. Nur leider erkennt er keinen Text in den Bildern unserer jetzigen SPAM M-Mails.

Die Bilder in den E-Mails sehen so aus:

http://x5.freeshare.us/126fs1076994.gif

http://x5.freeshare.us/126fs1076869.gif

Weiß jemand wie man dem Herr werden kann? Kann man bei FuzzyOCR ggf. noch mehr einstellen oder gibt es Alternativen?
Mitglied: AndreasHoster
06.12.2006 um 13:11 Uhr
FuzzyOCR ließt nur Bilder innerhalb der Mail aus, lädt aber keine von extern nach.
Was Du hast sind nur Links auf Bilder im Internet, die werden also nicht ausgewertet.
Ich denke mit FuzzyOCR wirst Du da nicht weiterkommen.
Bitte warten ..
Mitglied: denny
06.12.2006 um 13:27 Uhr
Hallo !
Wir nutzen selbst FuzzyOcr.
Klappt auch ganz gut, natürlich haben wir auch "Spam-Bilder" die noch nicht korrekt ausgelesen werden. Da bleibt eigentlich nur das manuelle Probieren verschiedener Scansets an dem betreffenden Bild, bis mit einer bestimmten Routine die Wörter erkannt werden.
Da experimentiere ich aber selbst noch.

Wenn jemand eine Alternative hat, würde die mich auch sehr interessieren.
An FuzzyOcr stört mich am meisten, dass der seine Wörter aus Wortfetzen und Buchstaben des ganzen Textes zusammensucht. So passiert es schnell mal, dass er verfängliche Worte erkennt die aber garnicht da sind.

MfG
denny
Bitte warten ..
Mitglied: mr.quickly
06.12.2006 um 13:36 Uhr
Sorry Andreas, habe mich falsch ausgedrückt. Die Bilder sind innerhalb der E-Mail zu sehen.

Was ich schon mal probiert habe ist, die Bilder in S/W zu wandeln, dann erkennt er die Texte.

Nun muss ich mal sehen wie ich FuzzyOCR beibringen, dass die Bilder erst in S/W konvertiert und dann gescannt werden.
Bitte warten ..
Mitglied: denny
06.12.2006 um 13:40 Uhr
Experimentiere mit pnmnorm, pnmquant usw.

(Wenn er sie in Schwarz-weiß erkennt, dann binde das doch einfach als Scanset ein)

In der Konfigdatei sind Beispiele wie man verschiede Kommandos pipen kann.
Bitte warten ..
Mitglied: AndreasHoster
06.12.2006 um 13:55 Uhr
Meinerseits sorry, ich habe beim ersten Lesen nur die URLs die Du auf die Bilder bei Freshare gesetzt hast gesehen (mein Browser hat die Bilder nicht nachgeladen).
Deswegen dachte ich, Du hättest URLs in den Mails.
Bitte warten ..
Mitglied: mr.quickly
06.12.2006 um 15:10 Uhr
Dennny, weißt du wie der Befehl heißt um aus einem Bild ein Graustufen oder Schwarz/Weiß Bild zu machen?
Bitte warten ..
Mitglied: denny
06.12.2006 um 15:21 Uhr
Also "pnmquant 2" reduziert z.B das Bild auf 2 Farben. Ansonsten schau mal hier:
Wie gesagt ich experimentiere ebenfalls noch.

nach denen solltest du mal Googlen:
pnmcolormap, pnmremap, ppmquantall, pamdepth, ppmdither, ppmquant, pnm, pnminvert


Alles Programme aus dem Netpbm Paket.

MfG
denny
Bitte warten ..
Mitglied: mr.quickly
06.12.2006 um 15:26 Uhr
Habe jetzt mal folgendes probiert:

"ppmquant 2 test.pnm > test.pnm" probiert und anschließend "pnmtojpeg test.pnm > test.jpg"

Danach hat das Bild nur noch 2 Farben, aber ich fände es noch besser wenn es in graustufen umgewandelt würde.
Bitte warten ..
Mitglied: denny
06.12.2006 um 15:31 Uhr
hast du mit "gocr" mal ein scan über das 2 farben Bild gemacht ? Ist die Erkennungsrate schon besser ? Wenn nicht hau mal ein pnminvert drüber.
Wie es direkt in S/W umgewandelt wird weiß ich adhoc nicht. Solltest du es rausfinden, lass es mich bitte wissen.

MfG
denny
Bitte warten ..
Mitglied: mr.quickly
06.12.2006 um 16:07 Uhr
habe gerade mal einen scan über das bild gemacht mit gocr.

[3566] dbg: FuzzyOcr: Found word "million" in line
[3566] dbg: FuzzyOcr: "eilllontxetherewsisogiig"
[3566] dbg: FuzzyOcr: with fuzz of 0.2857 scanned with scanset pnminvert $pfile 2> $efile | $gocr -l 180 -d 2 -i -
[3566] dbg: FuzzyOcr: Found word "company" in line
[3566] dbg: FuzzyOcr: "moerdoaolimpanyreprer"
[3566] dbg: FuzzyOcr: with fuzz of 0.2857 scanned with scanset pnminvert $pfile 2> $efile | $gocr -l 180 -d 2 -i -
[3566] dbg: FuzzyOcr: Message is spam, score = 4.000
[3566] dbg: FuzzyOcr: Words found:
[3566] dbg: FuzzyOcr: "million" in 1 lines
[3566] dbg: FuzzyOcr: "company" in 1 lines
[3566] dbg: FuzzyOcr: (2 word occurrences found)

Habe gedacht, dass er bei dem Grautufenbild mehr findet, ist aber nicht so.

Hatte mir eins unter Windows erzeugt und getestet.
Bitte warten ..
Ähnliche Inhalte
Multimedia
OCR - Software
gelöst Frage von TlBERlUSMultimedia10 Kommentare

Guten Morgen, ich suche eine OCR-Software, die - automatisiert Verzeichnisse überwacht und verarbeitet - das starten mehrerer Instanzen erlaubt ...

Exchange Server

Exchange + Ubuntuu Postfix + Spamassassin

Frage von hash2k2Exchange Server2 Kommentare

Hallo, ich habe kaum Ahnung von der Materie. Möchte folgendes realisieren. Habe einen Exchange mit ein paar Konten, die ...

E-Mail

Problem mit Spamassassin und ClamAV

Frage von Wild-WolfE-Mail

Hallo zusammen. Folgendes Problem: Ich habe Spamassassin und ClamAV wie auf einen anderen Server konfiguriert (Squeeze). Es scheint auch ...

Windows Tools

Tipp für gutes OCR Programm?

gelöst Frage von QQR700Windows Tools4 Kommentare

Hallo, ich bin auf der Suche nach einem guten OCR-Programm (für Windows 7). Es soll eine hohe Erkennungsrate haben ...

Neue Wissensbeiträge
Internet

CDU Propaganda: Urheberschutz im Internet - Ende des digitalen Wild-West

Information von Frank vor 3 StundenInternet3 Kommentare

Hallo Administratoren, aus einem Kommentar heraus habe ich folgenden Beiträge von Herr Sven Schulze und Axel Voss (beide CDU ...

Router & Routing

Zyxel VMG 1312 B30A - Firmwareupdate nur im "privaten" Firefox Modus möglich

Tipp von the-buccaneer vor 17 StundenRouter & Routing2 Kommentare

Hatte hier ein Zyxel 1312 das ums verrecken kein Firmwareupdate durchführen wollte. Datei ist auswählbar, dann kommt der Fortschrittskreisel ...

Windows 7

Windows 7 u. Server 2008 (R2) SHA-2-Update kommt am 12. März 2019

Information von kgborn vor 2 TagenWindows 75 Kommentare

Kleine Info für die Admins der oben genannten Maschinen. Ab Juli 2019 werden Updates von Microsoft nur noch mit ...

Firewall
PfSense 2.5.0 benötigt doch kein AES-NI
Information von ChriBo vor 3 TagenFirewall2 Kommentare

Hallo, Wie sich einige hier erinnern werden hat Jim Thompson in diesem Aritkel beschrieben, daß ab Version 2.5.0 ein ...

Heiß diskutierte Inhalte
Hardware
IT-Werkzeugkoffer bis 50,- EUR
gelöst Frage von departure69Hardware53 Kommentare

Hallo. Ich bin als IT-Systembetreuer einer Gemeinde zusätzlich auch der IT-Systembetreuer einer Grund- und Hauptschule. Dort muß ich jedoch ...

Netzwerke
Verteilung von Programmdaten außerhalb des internen Netzwerkes
Frage von mertaufmbergNetzwerke27 Kommentare

Guten Morgen liebe Administratoren, ich versuche zurzeit eine möglichst sichere und einfache Lösung zu suchen, um ein Programmverzeichnis über ...

Netzwerkmanagement
Richtfunknetzwerk mit vielen Hops stabiler gestalten
Frage von turti83Netzwerkmanagement22 Kommentare

Hallo, in meinem Dorf habe ich vor ca. einem Jahr ein Backbone aufgebaut um die Nachbarschaft mit Internet zu ...

Datenbanken
PHP Fatal error: Uncaught Error: Call to undefined function oci connect
Frage von PlanitecXDatenbanken19 Kommentare

Hallo Zusammen, ich sitze seit Tagen am Problem das ich keine PHP Anwendung mit Anbindung zu Oracle zum laufen ...