Re: [opensuse-es] Filtro bayesiando y puntuaciones de SA

26 Feb 2007

      -----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA1

El 2007-02-26 a las 10:29 +0100, Camaleón escribió:
...
Estoy notanado un comportamiento extraño en el filtro bayesiando de
SA. Las puntuaciones que da son muy elevadas para correos
completamente inofensivos y para otros correos más agresivos parece no
enterarse.
Hace unos días actualizaron a la nueva versión (3.1.7) y la descargué
e instalé como siempre, en una SuSE 10.1.
Es la que trae la 10.2, precisamente.
...
Pensando que el problema
podía ser una corrupción de la base de datos (los ficheros bayes*) los
eliminé y volví a generar la base de datos con 220 correos de ham y
3.000 de spam, ejecutando el comando "sa-learn --spam --showdots
/var/lib/imap/user/usuario/spam/*"
Pero te falta un ... --ham ... blablabla.
...
Pongo como ejemplo un mensaje recibido hoy desde el servidor de
Telefónica (@telefonica.net):
Content preview:  Hola, Le envio las respuestas solicitadas, 1ª ¿Cual
era el nombre completo? [...]
Content analysis details:   (6.1 points, 5.0 required)
pts rule name              description
---- ---------------------- --------------------------------------------------
1.1 EXTRA_MPART_TYPE
Header has extraneous Content-type:...type= entry
El correo lo han hecho con un editor raro, creo.
...
0.1 FORGED_RCVD_HELO
Received: contains a forged HELO
2.0 BAYES_80
BODY: Bayesian spam probability is 80 to 95% [score: 0.8490]
El Bayes son sólo dos puntitos, es poco.
...
1.8 HTML_IMAGE_ONLY_24
BODY: HTML: images with 2000-2400 bytes of words
Eso no gusta, últimamente vienen muchos correos de spam con fotos.
...
0.0 HTML_MESSAGE
BODY: HTML included in message
1.0 RCVD_IN_TQM
RBL: Received via relay in TQM [83.59.186.229 listed in dnsbl.tqmcube.com]
Esta lista negra no la conozco. IP dinámica, me dice el host.

RBL Check: ip=83.59.186.229 - Host=229.Red-83-59-186.dynamicIP.rima-tde.net.

dhcp.tqmcube.com  Listed by

             83.59.186.229 Dynamic IP or generic rDNS. Please create a 
             unique pointer or use your ISP's mail service. 
             http://tqmcube.com/dnsbl/dnsbl_remove.php

spam.tqmcube.com     Not Listed
exploit.tqmcube.com  Not Listed
prc.tqmcube.com      Not Listed
ko.tqmcube.com       Not Listed

Yo pensaría en anular esa lista negra, porque no cualifica sus 
puntuaciones: no es lo mismo un "spam" que un "dynamic" o un "exploit". Y 
porque lista los dinámicos incondicionalmente:

   We cannot and will not remove a dynamic IP address from our dynamic 
   list. There are absolutely no exceptions to this policy. Please use 
   your ISP's mail service.

Total, da 6.0 puntos, ¿no?
...
El mensaje está en español y sólo contiene una imagen incrustada, pero
la puntuación que le da me parece exagerada...
Pero no es por el Bayes. No exclusivamente.
...
¿Alguien más está experimentando una situación similar?
Me dió una chispa de guerra al principio, pero era porque no le había 
pasado correo bueno para aprender: lo tuve que alimentar con unos cuantos 
miles de correos de las lista.

Otra cosa que hago es que le tengo bajada la puntuación a mano a las 
reglas en red, en '/etc/mail/spamassassin/local.cf':

score RCVD_IN_SORBS_DUL 1.0
score RCVD_IN_NJABL_DUL 1.0

y en cambio, se la subo al bayes:

score BAYES_50 0 0 1.6 1.6
score BAYES_60 0 0 3.5 3.5
score BAYES_80 0 0 4.3 4.30
score BAYES_95 0 0 4.8 4.75
score BAYES_99 0 0 5.0 5.00

Y esto que es nuevo, de 'local.cf.rpmnew':

# Enhance the uridnsbl_skip_domain list with some usefull entries
# Do not block the web-sites of Novell and SUSE
ifplugin Mail::SpamAssassin::Plugin::URIDNSBL
uridnsbl_skip_domain suse.de opensuse.org suse.com suse.org
uridnsbl_skip_domain novell.com novell.org novell.ru novell.de novell.hu novell.co.uk
endif   # Mail::SpamAssassin::Plugin::URIDNSBL                                            

Tengo más reglas cambiadas; pe:

# Esto me causa valores absurdos. Bayes dice que es 99% spam, y esto me lo quita.

#score ALL_TRUSTED -2.400 -2.820 -2.867 -3.300
#score ALL_TRUSTED  -0.600 -0.705 -0.717 -0.825
score ALL_TRUSTED  0

score HTML_MESSAGE      0.25
score MIME_HTML_ONLY    0.5
score ADVANCE_FEE_1     0.1

score DNS_FROM_RFC_BOGUSMX      0.2
#score DNS_FROM_RFC_ABUSE 0.2 por defecto
score DNS_FROM_RFC_POST         0.2

El problema con el SA es que tiene las puntuaciones calculadas a máquina, 
y a veces no tienen sentido. Son puntutaciones ponderadas para que con la 
base de coreos de spam que tienen ellos todos salgan como spam, y les 
pueden dar puntuaciones absurdas a pruebas poco fiables, o muy agresivas.

- -- 
Saludos
       Carlos E.R.
-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.5 (GNU/Linux)
Comment: Made with pgp4pine 1.76

iD8DBQFF4sAmtTMYHG2NR9URAmc6AKCLmqFpUbnvo90vLOLuloCVfRDNbgCeMiWy
B3OU3yGpxj+McUXO0k9bgho=
=G5rX
-----END PGP SIGNATURE-----

Re: [opensuse-es] Filtro bayesiando y puntuaciones de SA

Carlos E. R.