Re: [opensuse-es] Filtro bayesiando y puntuaciones de SA

26 Feb 2007

      -----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA1

El 2007-02-26 a las 12:34 +0100, Camaleón escribió:
...
El 26/02/07, Carlos E. R. escribió:
...
Pero te falta un ... --ham ... blablabla.
Sí, lo ejecuté. Después de ejecutarlo siempre hago un "spamassassin -D
-lint" para ver cómo le afecta y si toma todos los parámetros
correctamente. Si no tiene mensajes suficientes de spam y ham te dice
que "nanai". Es este caso todo estaba correcto.
Yo uso algo así como:

time nice sa-learn --no-sync --showdots --spam --mbox \
   Mail/file/z_spam_unrecog \
   ... 
   --ham --mbox Mail/lists/os-es \
   ...
   &&  time nice sa-learn --sync

Y tarda un par de horas o más.

Lo de "spamassassin -D --lint" no me acordaba.
...
...
El correo lo han hecho con un editor raro, creo.
Bueno, raro, raro... Outlook Express 6.0 ;-)
Pues algo raro tiene, por que se queja:

| 1.1 EXTRA_MPART_TYPE
\ Header has extraneous Content-type:...type= entry
...
...
El Bayes son sólo dos puntitos, es poco.
Por culpa del bayes se ha ido al directorio de spam. 2 puntos es mucho
para un mensaje bien redactado en español :-O
Sí, pero tiene parecidos con el spam. Le has pasado sólo un par de cientos 
de correos buenos: pásale un par de miles.
...
Además, es falso, no tiene un 80% de posibilidades de que sea spam.
Con mi configuración, una probabilidad del bayes de 80% equivale a 4.75 
puntos...
...
...
Eso no gusta, últimamente vienen muchos correos de spam con fotos.
¡Y son casi otros 2 puntos! no lo entiendo...
Es que tiene una foto y poco texto, encaja con los correos de spam :-p
...
...
Esta lista negra no la conozco. IP dinámica, me dice el host.
Esta puntuación no me preocupa. Además, fíjate que es sólo un punto,
nada decisivo. La lista la puse de forma manual porque suele ser el
puntito que le falta a los correos que son realmente spam.
Prefiero confiarselo al filtro bayesiano.
...
De todas formas, imagina que no está esa lista, si le quitamos un
punto a la puntuación general nos da 5.1... spam.
Pero si quitas esa lista y ajustas mejor el bayesiano, funcionaría.
...
...
Yo pensaría en anular esa lista negra, porque no cualifica sus
puntuaciones: no es lo mismo un "spam" que un "dynamic" o un "exploit". Y
porque lista los dinámicos incondicionalmente:
No, esa lista me es muy útil y no me preocupa. Además, lleva razón (la
lista) mira:
Ya sé que es una IP dinámica, es de tesa. ¿Y qué? No todos los que usamos 
esas ips somos malvados ;-)
...
...
Total, da 6.0 puntos, ¿no?
6.1
Mi cabeza... O:-)
...
...
Pero no es por el Bayes. No exclusivamente.
Pero entre el bayes y el formato del mensaje son casi los 5 puntos... :-O
1.1 EXTRA_MPART_TYPE
2.0 BAYES_80
1.8 HTML_IMAGE_ONLY_24
Sin comerlo ni beberlo son 4.9...
Y es un mensaje enviado desde un cliente de correo al uso con un formato
normal.
No es tan normal, según el SA.
...
...
Me dió una chispa de guerra al principio, pero era porque no le había
pasado correo bueno para aprender: lo tuve que alimentar con unos cuantos
miles de correos de las lista.
220 de ham y 3.000 de spam... creo que es suficiente ¿no? además, en
ham había puesto la mayoría en español y algunos en inglés.
Está desequilibrado, sube a 3000.
...
...
Otra cosa que hago es que le tengo bajada la puntuación a mano a las
reglas en red, en '/etc/mail/spamassassin/local.cf':
...
y en cambio, se la subo al bayes:
Pues yo tendría que hacerlo al revés, el bayes se me dispara...
Porque no lo has entrenado bien. Por cierto, yo no le dejo que aprenda 
solo:

bayes_auto_learn  0
...
...
Y esto que es nuevo, de 'local.cf.rpmnew':
# Enhance the uridnsbl_skip_domain list with some usefull entries
# Do not block the web-sites of Novell and SUSE
ifplugin Mail::SpamAssassin::Plugin::URIDNSBL
uridnsbl_skip_domain suse.de opensuse.org suse.com suse.org
uridnsbl_skip_domain novell.com novell.org novell.ru novell.de novell.hu
novell.co.uk
endif   # Mail::SpamAssassin::Plugin::URIDNSBL
Eso estuve a punto de quitarlo. Ya les vale :-/
¿A quienes? ¿De quien es la culpa que la prueba uridnsbl dé positivo para 
Novell? Es decir, quien se responsabiliza de inlcuir en listas negras a 
determinadas webs, de manera que con sólo incluir "hhtp://...novell.org" 
en el texto del correo, te dice que es spam.

Claro, que luego miras en "/usr/share/spamassassin/25_uribl.cf", y ves que 
han tenido que incluir en sus propias reglas a mano unas doscientas webs 
para que no den positivo, incluyendo a microsoft...
...
...
El problema con el SA es que tiene las puntuaciones calculadas a máquina,
y a veces no tienen sentido. Son puntutaciones ponderadas para que con la
base de coreos de spam que tienen ellos todos salgan como spam, y les
pueden dar puntuaciones absurdas a pruebas poco fiables, o muy agresivas.
Lo voy a estar vigilando esta semana, pero si me vuelve a poner un
correo donde no va desactivaré el bayes. Al menos a mi no me funciona
bien.
A mí de maravilla, si ajusto bien el bayes. No llega a un error al dia (y 
casi recibo más spam que correo bueno de las listas...)

- -- 
Saludos
       Carlos E.R.
-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.5 (GNU/Linux)
Comment: Made with pgp4pine 1.76

iD8DBQFF4zf8tTMYHG2NR9URAvQHAJwP1SzdUGwP0I2d76tmVwD0D+gF/gCeLPRC
6Tuszqd8iKvRbIORZilHxVk=
=eLEh
-----END PGP SIGNATURE-----