-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA1 El 2007-02-26 a las 10:29 +0100, Camaleón escribió:
Estoy notanado un comportamiento extraño en el filtro bayesiando de SA. Las puntuaciones que da son muy elevadas para correos completamente inofensivos y para otros correos más agresivos parece no enterarse.
Hace unos días actualizaron a la nueva versión (3.1.7) y la descargué e instalé como siempre, en una SuSE 10.1.
Es la que trae la 10.2, precisamente.
Pensando que el problema podía ser una corrupción de la base de datos (los ficheros bayes*) los eliminé y volví a generar la base de datos con 220 correos de ham y 3.000 de spam, ejecutando el comando "sa-learn --spam --showdots /var/lib/imap/user/usuario/spam/*"
Pero te falta un ... --ham ... blablabla.
Pongo como ejemplo un mensaje recibido hoy desde el servidor de Telefónica (@telefonica.net):
Content preview: Hola, Le envio las respuestas solicitadas, 1ª ¿Cual era el nombre completo? [...]
Content analysis details: (6.1 points, 5.0 required)
pts rule name description ---- ---------------------- -------------------------------------------------- 1.1 EXTRA_MPART_TYPE Header has extraneous Content-type:...type= entry
El correo lo han hecho con un editor raro, creo.
0.1 FORGED_RCVD_HELO Received: contains a forged HELO
2.0 BAYES_80 BODY: Bayesian spam probability is 80 to 95% [score: 0.8490]
El Bayes son sólo dos puntitos, es poco.
1.8 HTML_IMAGE_ONLY_24 BODY: HTML: images with 2000-2400 bytes of words
Eso no gusta, últimamente vienen muchos correos de spam con fotos.
0.0 HTML_MESSAGE BODY: HTML included in message
1.0 RCVD_IN_TQM RBL: Received via relay in TQM [83.59.186.229 listed in dnsbl.tqmcube.com]
Esta lista negra no la conozco. IP dinámica, me dice el host. RBL Check: ip=83.59.186.229 - Host=229.Red-83-59-186.dynamicIP.rima-tde.net. dhcp.tqmcube.com Listed by 83.59.186.229 Dynamic IP or generic rDNS. Please create a unique pointer or use your ISP's mail service. http://tqmcube.com/dnsbl/dnsbl_remove.php spam.tqmcube.com Not Listed exploit.tqmcube.com Not Listed prc.tqmcube.com Not Listed ko.tqmcube.com Not Listed Yo pensaría en anular esa lista negra, porque no cualifica sus puntuaciones: no es lo mismo un "spam" que un "dynamic" o un "exploit". Y porque lista los dinámicos incondicionalmente: We cannot and will not remove a dynamic IP address from our dynamic list. There are absolutely no exceptions to this policy. Please use your ISP's mail service. Total, da 6.0 puntos, ¿no?
El mensaje está en español y sólo contiene una imagen incrustada, pero la puntuación que le da me parece exagerada...
Pero no es por el Bayes. No exclusivamente.
¿Alguien más está experimentando una situación similar?
Me dió una chispa de guerra al principio, pero era porque no le había pasado correo bueno para aprender: lo tuve que alimentar con unos cuantos miles de correos de las lista. Otra cosa que hago es que le tengo bajada la puntuación a mano a las reglas en red, en '/etc/mail/spamassassin/local.cf': score RCVD_IN_SORBS_DUL 1.0 score RCVD_IN_NJABL_DUL 1.0 y en cambio, se la subo al bayes: score BAYES_50 0 0 1.6 1.6 score BAYES_60 0 0 3.5 3.5 score BAYES_80 0 0 4.3 4.30 score BAYES_95 0 0 4.8 4.75 score BAYES_99 0 0 5.0 5.00 Y esto que es nuevo, de 'local.cf.rpmnew': # Enhance the uridnsbl_skip_domain list with some usefull entries # Do not block the web-sites of Novell and SUSE ifplugin Mail::SpamAssassin::Plugin::URIDNSBL uridnsbl_skip_domain suse.de opensuse.org suse.com suse.org uridnsbl_skip_domain novell.com novell.org novell.ru novell.de novell.hu novell.co.uk endif # Mail::SpamAssassin::Plugin::URIDNSBL Tengo más reglas cambiadas; pe: # Esto me causa valores absurdos. Bayes dice que es 99% spam, y esto me lo quita. #score ALL_TRUSTED -2.400 -2.820 -2.867 -3.300 #score ALL_TRUSTED -0.600 -0.705 -0.717 -0.825 score ALL_TRUSTED 0 score HTML_MESSAGE 0.25 score MIME_HTML_ONLY 0.5 score ADVANCE_FEE_1 0.1 score DNS_FROM_RFC_BOGUSMX 0.2 #score DNS_FROM_RFC_ABUSE 0.2 por defecto score DNS_FROM_RFC_POST 0.2 El problema con el SA es que tiene las puntuaciones calculadas a máquina, y a veces no tienen sentido. Son puntutaciones ponderadas para que con la base de coreos de spam que tienen ellos todos salgan como spam, y les pueden dar puntuaciones absurdas a pruebas poco fiables, o muy agresivas. - -- Saludos Carlos E.R. -----BEGIN PGP SIGNATURE----- Version: GnuPG v1.4.5 (GNU/Linux) Comment: Made with pgp4pine 1.76 iD8DBQFF4sAmtTMYHG2NR9URAmc6AKCLmqFpUbnvo90vLOLuloCVfRDNbgCeMiWy B3OU3yGpxj+McUXO0k9bgho= =G5rX -----END PGP SIGNATURE-----