Hallo Liste! Bei mir ist Spamassassin auf meinem Mailserver über amavis-new mit Postfix und Cyrus verbunden, was soweit auch funktioniert. Mein Problem: Die Mails werden zwar von spamd gescannt, aber nur ca. 40 % der Spams werden erkannt. (Mein Mozilla schafft bedeutene mehr, nahezu 100 %) Und das, obwohl ich in den letzten Wochen schon ca. 2500 Spam-Mails beigebracht habe. Mit: sa-learn --spam --showdots --dir <Cyrus-Verzeichnis mit neuen Spams> (natürlich habe ich auch schon öfters spamd und amavis neu gestartet, hat nichts gebracht) Laut Logs liest er diese Daten auch ein. Habe ich hier einen Denkfehler? Ich bitte um eure Hilfe, Günther Hier noch Configs und Logs (im Debug-Modus): /etc/amavisd.conf (Auszug): $final_spam_destiny = D_DISCARD; $spam_quarantine_to = "spamuser@"; $sa_local_tests_only = 1; $sa_mail_body_size_limit = 64*1024; $sa_tag_level_deflt = 0.5; $sa_tag2_level_deflt = 5.0; $sa_kill_level_deflt = 6.0; $sa_spam_subject_tag = '***SPAM*** '; $sa_spam_modifies_subj = 1; /etc/sysconfig/spamd: SPAMD_ARGS="-d -u spamuser -H /home/spamuser/ -a -L -D" /var/log/mail: Mar 5 10:08:21 tinet spamd[2529]: debug: daemonized. Mar 5 10:08:21 tinet spamd[2529]: debug: ignore: test message to precompile patterns and load modules Mar 5 10:08:21 tinet spamd[2529]: debug: using "/usr/share/spamassassin" for default rules dir Mar 5 10:08:21 tinet spamd[2529]: debug: using "/etc/mail/spamassassin" for site rules dir Mar 5 10:08:23 tinet spamd[2529]: debug: bayes: 2529 tie-ing to DB file R/O /home/spamuser/.spamassassin/bayes_toks Mar 5 10:08:23 tinet spamd[2529]: debug: bayes: 2529 tie-ing to DB file R/O /home/spamuser/.spamassassin/bayes_seen Mar 5 10:08:23 tinet spamd[2529]: debug: Score set 2 chosen. Mar 5 10:08:23 tinet spamd[2529]: debug: Initialising learner Mar 5 10:08:23 tinet spamd[2529]: debug: running header regexp tests; score so far=0 Mar 5 10:08:23 tinet spamd[2529]: debug: running body-text per-line regexp tests; score so far=2.1 Mar 5 10:08:23 tinet spamd[2529]: debug: bayes corpus size: nspam = 696, nham = 2431 Mar 5 10:08:23 tinet spamd[2529]: debug: tokenize: header tokens for *F = "ignore@compiling.spamassassin.taint.org" Mar 5 10:08:23 tinet spamd[2529]: debug: tokenize: header tokens for *m = " 1078477701 35707 spamassassin_spamd_init " Mar 5 10:08:23 tinet spamd[2529]: debug: bayes token 'N:H*m:NNNNN' => 0.001 Mar 5 10:08:23 tinet spamd[2529]: debug: bayes token 'N:H*m:NNNNNNNNNN' => 0.001 Mar 5 10:08:23 tinet spamd[2529]: debug: bayes token 'somewhat' => 0.97037037037037 Mar 5 10:08:23 tinet spamd[2529]: debug: bayes: score = 0.410958833721591 Mar 5 10:08:23 tinet spamd[2529]: debug: bayes: 2529 untie-ing Mar 5 10:08:23 tinet spamd[2529]: debug: bayes: 2529 untie-ing db_toks Mar 5 10:08:23 tinet spamd[2529]: debug: bayes: 2529 untie-ing db_seen Mar 5 10:08:23 tinet spamd[2529]: debug: running raw-body-text per-line regexp tests; score so far=2.1 Mar 5 10:08:23 tinet spamd[2529]: debug: running uri tests; score so far=2.1 Mar 5 10:08:23 tinet spamd[2529]: debug: uri tests: Done uriRE Mar 5 10:08:23 tinet spamd[2529]: debug: running full-text regexp tests; score so far=2.1 Mar 5 10:08:23 tinet spamd[2529]: debug: all '*To' addrs: Mar 5 10:08:23 tinet spamd[2529]: debug: all '*From' addrs: ignore@compiling.spamassassin.taint.org Mar 5 10:08:23 tinet spamd[2529]: debug: running meta tests; score so far=2.8 Mar 5 10:08:23 tinet spamd[2529]: debug: lock: 2529 created /tmp/spamassassin-2529/.spamassassin/auto-whitelist.lock.tinet.2529 Mar 5 10:08:23 tinet spamd[2529]: debug: lock: 2529 trying to get lock on /tmp/spamassassin-2529/.spamassassin/auto-whitelist with 0 retries Mar 5 10:08:23 tinet spamd[2529]: debug: lock: 2529 link to /tmp/spamassassin-2529/.spamassassin/auto-whitelist.lock: link ok Mar 5 10:08:23 tinet spamd[2529]: debug: Tie-ing to DB file R/W in /tmp/spamassassin-2529/.spamassassin/auto-whitelist Mar 5 10:08:24 tinet spamd[2529]: debug: auto-whitelist (db-based): ignore@compiling.spamassassin.taint.org|ip=none scores 0/0 Mar 5 10:08:24 tinet spamd[2529]: debug: AWL active, pre-score: 2.8, mean: undef, originating-ip: undef Mar 5 10:08:24 tinet spamd[2529]: debug: Post AWL score: 2.8 Mar 5 10:08:24 tinet spamd[2529]: debug: DB addr list: untie-ing and unlocking. Mar 5 10:08:24 tinet spamd[2529]: debug: DB addr list: file locked, breaking lock. Mar 5 10:08:24 tinet spamd[2529]: debug: unlock: 2529 unlink /tmp/spamassassin-2529/.spamassassin/auto-whitelist.lock Mar 5 10:08:24 tinet spamd[2529]: debug: is spam? score=2.8 required=5 tests=DATE_MISSING,MISSING_HEADERS,NO_REAL_NAME Mar 5 10:08:24 tinet spamd[2529]: debug: bayes: 2529 untie-ing Mar 5 10:08:24 tinet spamd[2529]: server started on port 783 (running version 2.55) Mar 5 10:08:24 tinet spamd[2529]: server pid: 2529 Mar 5 10:08:24 tinet spamd[2529]: logmsg: server started on port 783 (running version 2.55) Mar 5 10:08:24 tinet spamd[2529]: server started on port 783 (running version 2.55)
hallo günther,
Bei mir ist Spamassassin auf meinem Mailserver über amavis-new mit Postfix und Cyrus verbunden, was soweit auch funktioniert.
Mein Problem: Die Mails werden zwar von spamd gescannt, aber nur ca. 40 % der Spams werden erkannt. (Mein Mozilla schafft bedeutene mehr, nahezu 100 %)
Und das, obwohl ich in den letzten Wochen schon ca. 2500 Spam-Mails beigebracht habe. Mit: sa-learn --spam --showdots --dir <Cyrus-Verzeichnis mit neuen Spams>
(natürlich habe ich auch schon öfters spamd und amavis neu gestartet, hat nichts gebracht) Laut Logs liest er diese Daten auch ein.
Habe ich hier einen Denkfehler? Ich bitte um eure Hilfe, Günther
hast du ihm auch ham gelernt? soweit ich mich erinnern kann, gelten die vordefinierten regeln bis genügend spam und ham mails gelernt wurden (200 stk.) gruss thomas
Thomas Fankhauser schrieb um %t:
hallo günther,
Bei mir ist Spamassassin auf meinem Mailserver über amavis-new mit Postfix und Cyrus verbunden, was soweit auch funktioniert.
Mein Problem: Die Mails werden zwar von spamd gescannt, aber nur ca. 40 % der Spams werden erkannt. (Mein Mozilla schafft bedeutene mehr, nahezu 100 %)
Und das, obwohl ich in den letzten Wochen schon ca. 2500 Spam-Mails beigebracht habe. Mit: sa-learn --spam --showdots --dir <Cyrus-Verzeichnis mit neuen Spams>
(natürlich habe ich auch schon öfters spamd und amavis neu gestartet, hat nichts gebracht) Laut Logs liest er diese Daten auch ein.
Habe ich hier einen Denkfehler? Ich bitte um eure Hilfe, Günther
hast du ihm auch ham gelernt? soweit ich mich erinnern kann, gelten die vordefinierten regeln bis genügend spam und ham mails gelernt wurden (200 stk.)
ja, habe ich. Laut Log müßten es ca. 696 Stk. Ham sein, wenn ich das richtig interpretiere: bayes corpus size: nspam = 696, nham = 2431 Ja, da gab es eine Meldung, bevor ich die 200 Stk. erreicht hatte, dann war die Meldung weg. Gruß Günther
Hallo, Am Fri, 05 Mar 2004, Günther Zinsberger schrieb:
Thomas Fankhauser schrieb um %t: [..]
hast du ihm auch ham gelernt? [..] ja, habe ich. Laut Log müßten es ca. 696 Stk. Ham sein, wenn ich das richtig interpretiere:
bayes corpus size: nspam = 696, nham = 2431 ^^^^ ^^^ Du hast wohl genau flaschrum trainieren lassen.
-dnh -- If you haven't got time to RTFM, you haven't got time to whine on this mailing list.
Hallo, David Haller schrieb:
Am Fri, 05 Mar 2004, Günther Zinsberger schrieb:
Laut Log müßten es ca. 696 Stk. Ham sein, wenn ich das richtig interpretiere:
bayes corpus size: nspam = 696, nham = 2431
^^^^ ^^^ Du hast wohl genau flaschrum trainieren lassen.
ja, das würde erklären, warum der Filter eher schlechter geworden ist, als besser. man sa-learn: ... --ham Learn messages as ham (non-spam) --spam Learn messages as spam ... Spam habe ich so gelehrt: sa-learn --spam --showdots --dir /imap-dir-mit-spams Und Ham habe ich mit "--ham" gelehrt. Was bedeutet "nspam" und "nham"? non-spam und non-ham ?? Ich benutze SuSE-Linux 9.0 mit dem dazugehörigen Spamassassin. Haben die da etwas verdreht? Gruß Günther
Hallo, Am Fri, 05 Mar 2004, Günther Zinsberger schrieb:
David Haller schrieb:
Am Fri, 05 Mar 2004, Günther Zinsberger schrieb:
Laut Log müßten es ca. 696 Stk. Ham sein, wenn ich das richtig interpretiere:
bayes corpus size: nspam = 696, nham = 2431
^^^^ ^^^ Du hast wohl genau flaschrum trainieren lassen. [..] Spam habe ich so gelehrt: sa-learn --spam --showdots --dir /imap-dir-mit-spams
Das sollte eigentlich stimmen. Bei mir hat sa-learn auch nen Knacks im Parsen der Optionen. Schau mal nach was folgendes ausgibt: $ ( eval `perl -V:sitelib`; grep 'spam' ${sitelib}/Mail/SpamAssassin/CmdLearn.pm; ) | head -5 $spamtest %opt $isspam $forget $messagecount $messagelimit 'spam' => sub { $isspam = 1; }, 'ham|nonspam' => sub { $isspam = 0; }, if ( !defined $isspam && !defined $rebuildonly && !defined $forget ) { usage(0, "Please select either --spam, --ham, --forget, or --rebuild"); Wenn bei dir das '$isspam =' vertauscht ist, dann haetten wir die Ursache.
Was bedeutet "nspam" und "nham"? non-spam und non-ham ??
Ich lese das als "number of spam" bzw. "number of ham".
Ich benutze SuSE-Linux 9.0 mit dem dazugehörigen Spamassassin. Haben die da etwas verdreht?
Ich glaube nicht, dass das an SuSE liegt... -dnh -- If you haven't got time to RTFM, you haven't got time to whine on this mailing list.
David Haller schrieb:
Am Fri, 05 Mar 2004, Günther Zinsberger schrieb:
David Haller schrieb:
Am Fri, 05 Mar 2004, Günther Zinsberger schrieb:
Laut Log müßten es ca. 696 Stk. Ham sein, wenn ich das richtig interpretiere:
bayes corpus size: nspam = 696, nham = 2431
^^^^ ^^^ Du hast wohl genau flaschrum trainieren lassen.
[..]
Spam habe ich so gelehrt: sa-learn --spam --showdots --dir /imap-dir-mit-spams
Das sollte eigentlich stimmen. Bei mir hat sa-learn auch nen Knacks im Parsen der Optionen. Schau mal nach was folgendes ausgibt:
$ ( eval `perl -V:sitelib`; grep 'spam' ${sitelib}/Mail/SpamAssassin/CmdLearn.pm; ) | head -5
grep: /usr/lib/perl5/site_perl/5.8.1/Mail/SpamAssassin/CmdLearn.pm: No such file or directory aber: find / -name CmdLearn.pm /usr/lib/perl5/vendor_perl/5.8.1/Mail/SpamAssassin/CmdLearn.pm grep spam ... ergibt: $spamtest %opt $isspam $forget $messagecount $messagelimit 'spam' => sub { $isspam = 1; }, 'ham|nonspam' => sub { $isspam = 0; }, if ( !defined $isspam && !defined $rebuildonly && !defined $forget ) { usage(0, "Please select either --spam, --ham, --forget, or --rebuild"); ...
$spamtest %opt $isspam $forget $messagecount $messagelimit 'spam' => sub { $isspam = 1; }, 'ham|nonspam' => sub { $isspam = 0; }, if ( !defined $isspam && !defined $rebuildonly && !defined $forget ) { usage(0, "Please select either --spam, --ham, --forget, or --rebuild");
Wenn bei dir das '$isspam =' vertauscht ist, dann haetten wir die Ursache.
leider ist es das anscheinend nicht...
Was bedeutet "nspam" und "nham"? non-spam und non-ham ??
Ich lese das als "number of spam" bzw. "number of ham".
Ich benutze SuSE-Linux 9.0 mit dem dazugehörigen Spamassassin. Haben die da etwas verdreht?
Ich glaube nicht, dass das an SuSE liegt...
Soll ich beim Einlernen einfach "--spam" und "--ham" vertauschen? (...Nachdem ich die alten Dateien gelöscht habe...) Gruß, Günther
Hallo, Am Sat, 06 Mar 2004, Günther Zinsberger schrieb:
David Haller schrieb:
Am Fri, 05 Mar 2004, Günther Zinsberger schrieb:
David Haller schrieb:
Am Fri, 05 Mar 2004, Günther Zinsberger schrieb:
Laut Log müßten es ca. 696 Stk. Ham sein, wenn ich das richtig interpretiere:
bayes corpus size: nspam = 696, nham = 2431
^^^^ ^^^ Du hast wohl genau flaschrum trainieren lassen.
[..]
Spam habe ich so gelehrt: sa-learn --spam --showdots --dir /imap-dir-mit-spams
Das sollte eigentlich stimmen. Bei mir hat sa-learn auch nen Knacks im Parsen der Optionen. Schau mal nach was folgendes ausgibt:
$ ( eval `perl -V:sitelib`; grep 'spam' ${sitelib}/Mail/SpamAssassin/CmdLearn.pm; ) | head -5
grep: /usr/lib/perl5/site_perl/5.8.1/Mail/SpamAssassin/CmdLearn.pm: No such file or directory
aber: find / -name CmdLearn.pm /usr/lib/perl5/vendor_perl/5.8.1/Mail/SpamAssassin/CmdLearn.pm
*huch* <exkurs> Ist das ein SuSEism? Seit wann verwendet SuSE einen vendor subtree? $ ( eval `perl -V:vendorlib`; grep 'spam' ${vendorlib}/Mail/SpamAssassin/CmdLearn.pm; ) | head -5 ;) Hier haette es aber auch ein 'locate SpamAssassin/CmdLearn' oder find '/usr/lib/perl5 -type f -name "CmdLearn*"' getan. Oder, um's portabel zu schreiben: $ ( eval `perl -V:prefix -V:installstyle`; find "${prefix}/${installstyle}/" -type f -name "CmdLearn*"; ) Und falls es dort immer noch nicht auftaucht, der Holzhammer: find `perl -e 'print join(" ", @INC);'` -type f -name "CmdLearn*" </exkurs>
grep spam ... ergibt: $spamtest %opt $isspam $forget $messagecount $messagelimit 'spam' => sub { $isspam = 1; }, 'ham|nonspam' => sub { $isspam = 0; }, if ( !defined $isspam && !defined $rebuildonly && !defined $forget ) { usage(0, "Please select either --spam, --ham, --forget, or --rebuild"); ...
Das sieht ok aus.
$spamtest %opt $isspam $forget $messagecount $messagelimit 'spam' => sub { $isspam = 1; }, 'ham|nonspam' => sub { $isspam = 0; }, if ( !defined $isspam && !defined $rebuildonly && !defined $forget ) { usage(0, "Please select either --spam, --ham, --forget, or --rebuild");
Wenn bei dir das '$isspam =' vertauscht ist, dann haetten wir die Ursache.
leider ist es das anscheinend nicht...
Jup.
Ich glaube nicht, dass das an SuSE liegt...
Soll ich beim Einlernen einfach "--spam" und "--ham" vertauschen? (...Nachdem ich die alten Dateien gelöscht habe...)
Waere nen Versuch wert, aber schon sehr eigenartig. Welche Version von SA verwendest du denn? Hast du mal geschaut ob's ne neuere gibt? Und ob dort im ChangeLog was auftaucht? Waere _eigentlich_ schon komisch, dass das vertauscht waere. Ich hab hier (spamassassin-2.53) z.B.: debug: bayes corpus size: nspam = 9149, nham = 4777 Und das laeuft eigentlich ganz gut, ich will aber aktualisieren, da SA bei manchen Spams nen SIGSEGV verursacht... Ansonsten kommen hier eigentlich nur noch "neue" Spamvarianten ein paarmal durch, die jage ich dann durch sa-learn (per F4 in mutt ;) und gut ist. Bis eben auf die Mails, die nen SEGV verursachen. Die "unsicheren" Kandidaten schicke ich in eine extra mbox ("spammed-probable") und jage diese dann ab und an auch durch sa-learn... Und ich habe hier ein durchaus beachtliches Spamaufkommen, seit 1.3: spammed-sure: 512 spammed-probable: 223 spam: 182 Also 736 / 182 von 918 "gefangen", also ca. 80% "ausgefiltert". Und das, obwohl gerade ne "Welle" neuer Spam eingeschlagen ist mit deutlich mehr spam der durchrutschte als normal. Normalerweise ist die Trefferquote wohl ca. 90-95%. Achso, da sind auch aktuelle Viren mit dabei, die nicht als Windows-Executable (sondern z.B. als .zip) daherkommen... -dnh -- If you haven't got time to RTFM, you haven't got time to whine on this mailing list.
Hallo, David Haller meinte am 06.03.04 um 03:50:
Also 736 / 182 von 918 "gefangen", also ca. 80% "ausgefiltert". Und das, obwohl gerade ne "Welle" neuer Spam eingeschlagen ist mit deutlich mehr spam der durchrutschte als normal. Normalerweise ist die Trefferquote wohl ca. 90-95%. Achso, da sind auch aktuelle Viren mit dabei, die nicht als Windows-Executable (sondern z.B. als .zip) daherkommen...
Also ich finde 80% nicht gerade berauschend. Der Bayesfilter, den ich unter Windows einsetze (xpbmf), erkennt ca. 99,9% des Spams. In den 2 Monaten, in denen ich ihn benutze, habe ich noch nicht einen "false postive" gehabt. Außerdem ist er auch noch sehr, sehr schnell. Ich kriege im Schnitt ca. 200 Spammails/Tag. Unter Linux bin ich noch am suchen und einrichten. Aber mehr als 99% Erkennungsrate sollte ein guter Bayesfilter IMHO nach der Anlernphase schon haben. Gruß, Frank -- ** pgp public key available from keyservers **
Am Freitag, 5. März 2004 13:17 schrieb Günther Zinsberger:
hast du ihm auch ham gelernt? soweit ich mich erinnern kann, gelten die vordefinierten regeln bis genügend spam und ham mails gelernt wurden (200 stk.)
ja, habe ich. Laut Log müßten es ca. 696 Stk. Ham sein, wenn ich das richtig interpretiere:
Ansonsten steht in der manpage ham und spam sollten etwa gleich viel sein, um dem bay. Filter richtig zu trainieren. -- Ciao Marco, registered GNU/Linux-User 313353 Keine Macht George W.Bush und seiner Junta zur Ausbeutung, Unterdrückung, Weltmacht &'BigBrother-watching'; kauft keine U$-Waren!
Am Freitag, 5. März 2004 10:26 schrieb Günther Zinsberger:
Mein Problem: Die Mails werden zwar von spamd gescannt, aber nur ca. 40 % der Spams werden erkannt. Das Problem habe ich hier mit Spamassasin (2.63) hier auch. Sehr viele Mails gingen als Ham durch. Ich habe es dadurch gelöst das ich Bogofilter nach Spamassassin laufen lasse. Ist zwar nicht die eleganteste Lösuung, ich habe aber zur Zeit nicht die Zeit nach den Fehler zu suchen.
...man liest sich, Carsten -- "Ich liebe die Menschheit, aber ich hasse die Menschne" - Lines
Carsten Martens schrieb:
Am Freitag, 5. März 2004 10:26 schrieb Günther Zinsberger:
Mein Problem: Die Mails werden zwar von spamd gescannt, aber nur ca. 40 % der Spams werden erkannt.
Das Problem habe ich hier mit Spamassasin (2.63) hier auch. Sehr viele Mails gingen als Ham durch. Ich habe es dadurch gelöst das ich Bogofilter nach Spamassassin laufen lasse. Ist zwar nicht die eleganteste Lösuung, ich habe aber zur Zeit nicht die Zeit nach den Fehler zu suchen.
Hier ist noch spamassassin-2.55-75 installiert (SuSE 9.0). Eigentlich hört man von spamassassin, daß es sehr gut sein soll. Ich hatte mit Erkennungsraten von > 95 % gerechnet. Gruß Günther
participants (7)
-
Carsten Martens
-
David Haller
-
Frank Streitz
-
Günther Zinsberger
-
Marco Maske
-
Philipp Thomas
-
Thomas Fankhauser