Spammail Sammlung
Hallo zusammen
Weiss jemand eine aktuelle Sammlung von Spammails, welche man benötigen könnte um den
Bayes vom Spamassassin zu trainieren?
Am besten in der MBOX Format.
Danke
admnist
Weiss jemand eine aktuelle Sammlung von Spammails, welche man benötigen könnte um den
Bayes vom Spamassassin zu trainieren?
Am besten in der MBOX Format.
Danke
admnist
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 132925
Url: https://administrator.de/forum/spammail-sammlung-132925.html
Ausgedruckt am: 13.04.2025 um 00:04 Uhr
3 Kommentare
Neuester Kommentar
Moin,
ich würde dir dringend empfehlen das du dir selbst eine entsprechende Sammlung anlegst. Denn das nennt sich ja "Training" für den Spamfilter damit er auf DEINE Bedürfnisse angepasst ist.
Nehmen wir nur mal an du würdest ne Sammlung bekommen bei der Mails mit Chinesichen Schriftzeichen als Spam gewertet werden. Ist vermutlich für dich zuhause ganz ok - wenn du aber beruflich mit Fernost zu tun hast bekommst du schon Probleme... Oder du bekommst nen Filter bei dem $$$ schon als Spam erkannt werden -> dumm wenn du solche Mails in der Firma ggf. einfach wegwirfst.
Und ich bin mir zimlich sicher das du ggf. ganz andere Anforderungen an nen Spam-Filter stellst als ich. So wird vielleicht der Ersteller der mbox gesagt haben das Amazon, Ebay usw. eh nur Spam-Mails sind und da keiner von seinen Kumpels bei gmx, web.de usw. sind werden auch diese Mails sofort als Spam erkannt. Was machst du wenn du diese mbox jetzt einfach in dein Training schiebst? Und würde ich dir die Box der Firma geben - möchtest du die per Hand durchsuchen? (lockere 40.000-100.000 Mails/Tag die im Spam laufen soweit ich die Catch-All reaktiviere).
Von daher kann ich nur empfehlen die Mails zum trainieren selbst in den Spam-Filter zu packen. NUR so kannst du den auf deine Bedürfnisse anpassen. Ansonsten hast du nen Spam-Filter der die Bedürfnisse von irgendwem anders (der ggf. grad wirklich günstiges Viagra sucht und dabei natürlich im Online-Kasino immer ganz vorn dabei is) passen...
ich würde dir dringend empfehlen das du dir selbst eine entsprechende Sammlung anlegst. Denn das nennt sich ja "Training" für den Spamfilter damit er auf DEINE Bedürfnisse angepasst ist.
Nehmen wir nur mal an du würdest ne Sammlung bekommen bei der Mails mit Chinesichen Schriftzeichen als Spam gewertet werden. Ist vermutlich für dich zuhause ganz ok - wenn du aber beruflich mit Fernost zu tun hast bekommst du schon Probleme... Oder du bekommst nen Filter bei dem $$$ schon als Spam erkannt werden -> dumm wenn du solche Mails in der Firma ggf. einfach wegwirfst.
Und ich bin mir zimlich sicher das du ggf. ganz andere Anforderungen an nen Spam-Filter stellst als ich. So wird vielleicht der Ersteller der mbox gesagt haben das Amazon, Ebay usw. eh nur Spam-Mails sind und da keiner von seinen Kumpels bei gmx, web.de usw. sind werden auch diese Mails sofort als Spam erkannt. Was machst du wenn du diese mbox jetzt einfach in dein Training schiebst? Und würde ich dir die Box der Firma geben - möchtest du die per Hand durchsuchen? (lockere 40.000-100.000 Mails/Tag die im Spam laufen soweit ich die Catch-All reaktiviere).
Von daher kann ich nur empfehlen die Mails zum trainieren selbst in den Spam-Filter zu packen. NUR so kannst du den auf deine Bedürfnisse anpassen. Ansonsten hast du nen Spam-Filter der die Bedürfnisse von irgendwem anders (der ggf. grad wirklich günstiges Viagra sucht und dabei natürlich im Online-Kasino immer ganz vorn dabei is) passen...
Ich habe meinen Spamassassin nach der Installation mit diesen Archiven hier trainiert:
http://untroubled.org/spam/
Ist zwar kein MBOX-Format, wenn du aber unbedingt dieses Format brauchst, kannst du es dir ja selber aus den ganzen Dateien generieren.
Nachtrag:
Wenn du ein MBOX-Format haben willst, kannst du dir dieses mit dem Script hier generieren:
Du müsstest dafür dann vorher in das Verzeichnis wechseln, in dem sich die entpackte 7z-Datei befindet, sonst kann er die Dateien dann nicht mehr finden.
http://untroubled.org/spam/
Ist zwar kein MBOX-Format, wenn du aber unbedingt dieses Format brauchst, kannst du es dir ja selber aus den ganzen Dateien generieren.
Nachtrag:
Wenn du ein MBOX-Format haben willst, kannst du dir dieses mit dem Script hier generieren:
1
2
3
4
5
6
7
8
9
10
2
3
4
5
6
7
8
9
10
#!/bin/bash
# Hier den Pfad zu deinem Spam-Archiv angeben
MAILS=`ls /pfad/zum/spam-archive/ -1r`
for SINGLEMAIL in ${MAILS[@]}
do
cat SINGLEMAIL >> /pfad/zum/mbox-file
echo " " >> /pfad/zum/mbox-file
done
Du müsstest dafür dann vorher in das Verzeichnis wechseln, in dem sich die entpackte 7z-Datei befindet, sonst kann er die Dateien dann nicht mehr finden.