Re: Spamassassin allgemein

6 Mar 2004

      Hallo,

Am Sat, 06 Mar 2004, Günther Zinsberger schrieb:
...
David Haller schrieb:
...
Am Fri, 05 Mar 2004, Günther Zinsberger schrieb:
...
David Haller schrieb:
...
Am Fri, 05 Mar 2004, Günther Zinsberger schrieb:
...
Laut Log müßten es ca. 696 Stk. Ham sein, wenn ich das richtig 
interpretiere:
bayes corpus size: nspam = 696, nham = 2431
^^^^         ^^^
Du hast wohl genau flaschrum trainieren lassen.
[..]
...
Spam habe ich so gelehrt:
sa-learn --spam --showdots --dir /imap-dir-mit-spams
Das sollte eigentlich stimmen. Bei mir hat sa-learn auch nen Knacks im 
Parsen der Optionen. Schau mal nach was folgendes ausgibt:
$ ( eval `perl -V:sitelib`;
   grep 'spam' ${sitelib}/Mail/SpamAssassin/CmdLearn.pm; ) | head -5
grep: /usr/lib/perl5/site_perl/5.8.1/Mail/SpamAssassin/CmdLearn.pm: No 
such file or directory
aber:
find / -name CmdLearn.pm
/usr/lib/perl5/vendor_perl/5.8.1/Mail/SpamAssassin/CmdLearn.pm
*huch*

<exkurs>

Ist das ein SuSEism? Seit wann verwendet SuSE einen vendor subtree?

$ ( eval `perl -V:vendorlib`;
    grep 'spam' ${vendorlib}/Mail/SpamAssassin/CmdLearn.pm; ) | head -5

;)

Hier haette es aber auch ein 'locate SpamAssassin/CmdLearn' oder find
'/usr/lib/perl5 -type f -name "CmdLearn*"' getan. Oder, um's portabel zu
schreiben:

$ ( eval `perl -V:prefix -V:installstyle`;
    find "${prefix}/${installstyle}/" -type f -name "CmdLearn*"; )

Und falls es dort immer noch nicht auftaucht, der Holzhammer:

find `perl -e 'print join(" ", @INC);'` -type f -name "CmdLearn*"

</exkurs>
...
grep spam ...   ergibt:
 $spamtest %opt $isspam $forget $messagecount $messagelimit
            'spam'                             => sub { $isspam = 1; },
            'ham|nonspam'                      => sub { $isspam = 0; },
 if ( !defined $isspam && !defined $rebuildonly && !defined $forget ) {
   usage(0, "Please select either --spam, --ham, --forget, or --rebuild");
...
Das sieht ok aus.
...
...
$spamtest %opt $isspam $forget $messagecount $messagelimit
            'spam'                             => sub { $isspam = 1; },
            'ham|nonspam'                      => sub { $isspam = 0; },
 if ( !defined $isspam && !defined $rebuildonly && !defined $forget ) {
   usage(0, "Please select either --spam, --ham, --forget, or --rebuild");
Wenn bei dir das '$isspam =' vertauscht ist, dann haetten wir die
Ursache.
leider ist es das anscheinend nicht...
Jup.
...
...
Ich glaube nicht, dass das an SuSE liegt...
Soll ich beim Einlernen einfach "--spam" und "--ham" vertauschen? 
(...Nachdem ich die alten Dateien gelöscht habe...)
Waere nen Versuch wert, aber schon sehr eigenartig. Welche Version von 
SA verwendest du denn? Hast du mal geschaut ob's ne neuere gibt? Und
ob dort im ChangeLog was auftaucht?

Waere _eigentlich_ schon komisch, dass das vertauscht waere. Ich hab
hier (spamassassin-2.53) z.B.:

    debug: bayes corpus size: nspam = 9149, nham = 4777

Und das laeuft eigentlich ganz gut, ich will aber aktualisieren, da SA
bei manchen Spams nen SIGSEGV verursacht... Ansonsten kommen hier
eigentlich nur noch "neue" Spamvarianten ein paarmal durch, die jage
ich dann durch sa-learn (per F4 in mutt ;) und gut ist. Bis eben auf
die Mails, die nen SEGV verursachen. Die "unsicheren" Kandidaten
schicke ich in eine extra mbox ("spammed-probable") und jage diese dann 
ab und an auch durch sa-learn...

Und ich habe hier ein durchaus beachtliches Spamaufkommen, seit 1.3:

spammed-sure:       512
spammed-probable:   223
spam:               182

Also 736 / 182 von 918 "gefangen", also ca. 80% "ausgefiltert". Und
das, obwohl gerade ne "Welle" neuer Spam eingeschlagen ist mit
deutlich mehr spam der durchrutschte als normal. Normalerweise ist die
Trefferquote wohl ca. 90-95%. Achso, da sind auch aktuelle Viren mit
dabei, die nicht als Windows-Executable (sondern z.B. als .zip)
daherkommen...

-dnh

-- 
If you haven't got time to RTFM, you haven't got time to whine on this
mailing list.