[opensuse-es] Filtro bayesiando y puntuaciones de SA
Hola, Estoy notanado un comportamiento extraño en el filtro bayesiando de SA. Las puntuaciones que da son muy elevadas para correos completamente inofensivos y para otros correos más agresivos parece no enterarse. Hace unos días actualizaron a la nueva versión (3.1.7) y la descargué e instalé como siempre, en una SuSE 10.1. Pensando que el problema podía ser una corrupción de la base de datos (los ficheros bayes*) los eliminé y volví a generar la base de datos con 220 correos de ham y 3.000 de spam, ejecutando el comando "sa-learn --spam --showdots /var/lib/imap/user/usuario/spam/*" Pongo como ejemplo un mensaje recibido hoy desde el servidor de Telefónica (@telefonica.net): Content preview: Hola, Le envio las respuestas solicitadas, 1ª ¿Cual era el nombre completo? [...] Content analysis details: (6.1 points, 5.0 required) pts rule name description ---- ---------------------- -------------------------------------------------- 1.1 EXTRA_MPART_TYPE Header has extraneous Content-type:...type= entry 0.1 FORGED_RCVD_HELO Received: contains a forged HELO 2.0 BAYES_80 BODY: Bayesian spam probability is 80 to 95% [score: 0.8490] 1.8 HTML_IMAGE_ONLY_24 BODY: HTML: images with 2000-2400 bytes of words 0.0 HTML_MESSAGE BODY: HTML included in message 1.0 RCVD_IN_TQM RBL: Received via relay in TQM [83.59.186.229 listed in dnsbl.tqmcube.com] El mensaje está en español y sólo contiene una imagen incrustada, pero la puntuación que le da me parece exagerada... ¿Alguien más está experimentando una situación similar? Saludos, -- Camaleón --------------------------------------------------------------------- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org
-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA1 El 2007-02-26 a las 10:29 +0100, Camaleón escribió:
Estoy notanado un comportamiento extraño en el filtro bayesiando de SA. Las puntuaciones que da son muy elevadas para correos completamente inofensivos y para otros correos más agresivos parece no enterarse.
Hace unos días actualizaron a la nueva versión (3.1.7) y la descargué e instalé como siempre, en una SuSE 10.1.
Es la que trae la 10.2, precisamente.
Pensando que el problema podía ser una corrupción de la base de datos (los ficheros bayes*) los eliminé y volví a generar la base de datos con 220 correos de ham y 3.000 de spam, ejecutando el comando "sa-learn --spam --showdots /var/lib/imap/user/usuario/spam/*"
Pero te falta un ... --ham ... blablabla.
Pongo como ejemplo un mensaje recibido hoy desde el servidor de Telefónica (@telefonica.net):
Content preview: Hola, Le envio las respuestas solicitadas, 1ª ¿Cual era el nombre completo? [...]
Content analysis details: (6.1 points, 5.0 required)
pts rule name description ---- ---------------------- -------------------------------------------------- 1.1 EXTRA_MPART_TYPE Header has extraneous Content-type:...type= entry
El correo lo han hecho con un editor raro, creo.
0.1 FORGED_RCVD_HELO Received: contains a forged HELO
2.0 BAYES_80 BODY: Bayesian spam probability is 80 to 95% [score: 0.8490]
El Bayes son sólo dos puntitos, es poco.
1.8 HTML_IMAGE_ONLY_24 BODY: HTML: images with 2000-2400 bytes of words
Eso no gusta, últimamente vienen muchos correos de spam con fotos.
0.0 HTML_MESSAGE BODY: HTML included in message
1.0 RCVD_IN_TQM RBL: Received via relay in TQM [83.59.186.229 listed in dnsbl.tqmcube.com]
Esta lista negra no la conozco. IP dinámica, me dice el host. RBL Check: ip=83.59.186.229 - Host=229.Red-83-59-186.dynamicIP.rima-tde.net. dhcp.tqmcube.com Listed by 83.59.186.229 Dynamic IP or generic rDNS. Please create a unique pointer or use your ISP's mail service. http://tqmcube.com/dnsbl/dnsbl_remove.php spam.tqmcube.com Not Listed exploit.tqmcube.com Not Listed prc.tqmcube.com Not Listed ko.tqmcube.com Not Listed Yo pensaría en anular esa lista negra, porque no cualifica sus puntuaciones: no es lo mismo un "spam" que un "dynamic" o un "exploit". Y porque lista los dinámicos incondicionalmente: We cannot and will not remove a dynamic IP address from our dynamic list. There are absolutely no exceptions to this policy. Please use your ISP's mail service. Total, da 6.0 puntos, ¿no?
El mensaje está en español y sólo contiene una imagen incrustada, pero la puntuación que le da me parece exagerada...
Pero no es por el Bayes. No exclusivamente.
¿Alguien más está experimentando una situación similar?
Me dió una chispa de guerra al principio, pero era porque no le había pasado correo bueno para aprender: lo tuve que alimentar con unos cuantos miles de correos de las lista. Otra cosa que hago es que le tengo bajada la puntuación a mano a las reglas en red, en '/etc/mail/spamassassin/local.cf': score RCVD_IN_SORBS_DUL 1.0 score RCVD_IN_NJABL_DUL 1.0 y en cambio, se la subo al bayes: score BAYES_50 0 0 1.6 1.6 score BAYES_60 0 0 3.5 3.5 score BAYES_80 0 0 4.3 4.30 score BAYES_95 0 0 4.8 4.75 score BAYES_99 0 0 5.0 5.00 Y esto que es nuevo, de 'local.cf.rpmnew': # Enhance the uridnsbl_skip_domain list with some usefull entries # Do not block the web-sites of Novell and SUSE ifplugin Mail::SpamAssassin::Plugin::URIDNSBL uridnsbl_skip_domain suse.de opensuse.org suse.com suse.org uridnsbl_skip_domain novell.com novell.org novell.ru novell.de novell.hu novell.co.uk endif # Mail::SpamAssassin::Plugin::URIDNSBL Tengo más reglas cambiadas; pe: # Esto me causa valores absurdos. Bayes dice que es 99% spam, y esto me lo quita. #score ALL_TRUSTED -2.400 -2.820 -2.867 -3.300 #score ALL_TRUSTED -0.600 -0.705 -0.717 -0.825 score ALL_TRUSTED 0 score HTML_MESSAGE 0.25 score MIME_HTML_ONLY 0.5 score ADVANCE_FEE_1 0.1 score DNS_FROM_RFC_BOGUSMX 0.2 #score DNS_FROM_RFC_ABUSE 0.2 por defecto score DNS_FROM_RFC_POST 0.2 El problema con el SA es que tiene las puntuaciones calculadas a máquina, y a veces no tienen sentido. Son puntutaciones ponderadas para que con la base de coreos de spam que tienen ellos todos salgan como spam, y les pueden dar puntuaciones absurdas a pruebas poco fiables, o muy agresivas. - -- Saludos Carlos E.R. -----BEGIN PGP SIGNATURE----- Version: GnuPG v1.4.5 (GNU/Linux) Comment: Made with pgp4pine 1.76 iD8DBQFF4sAmtTMYHG2NR9URAmc6AKCLmqFpUbnvo90vLOLuloCVfRDNbgCeMiWy B3OU3yGpxj+McUXO0k9bgho= =G5rX -----END PGP SIGNATURE-----
El 26/02/07, Carlos E. R. escribió:
Pero te falta un ... --ham ... blablabla.
Sí, lo ejecuté. Después de ejecutarlo siempre hago un "spamassassin -D -lint" para ver cómo le afecta y si toma todos los parámetros correctamente. Si no tiene mensajes suficientes de spam y ham te dice que "nanai". Es este caso todo estaba correcto.
El correo lo han hecho con un editor raro, creo.
Bueno, raro, raro... Outlook Express 6.0 ;-)
El Bayes son sólo dos puntitos, es poco.
Por culpa del bayes se ha ido al directorio de spam. 2 puntos es mucho para un mensaje bien redactado en español :-O Además, es falso, no tiene un 80% de posibilidades de que sea spam.
Eso no gusta, últimamente vienen muchos correos de spam con fotos.
¡Y son casi otros 2 puntos! no lo entiendo...
Esta lista negra no la conozco. IP dinámica, me dice el host.
Esta puntuación no me preocupa. Además, fíjate que es sólo un punto, nada decisivo. La lista la puse de forma manual porque suele ser el puntito que le falta a los correos que son realmente spam. De todas formas, imagina que no está esa lista, si le quitamos un punto a la puntuación general nos da 5.1... spam.
Yo pensaría en anular esa lista negra, porque no cualifica sus puntuaciones: no es lo mismo un "spam" que un "dynamic" o un "exploit". Y porque lista los dinámicos incondicionalmente:
No, esa lista me es muy útil y no me preocupa. Además, lleva razón (la lista) mira: http://www.dnsstuff.com/tools/ip4r.ch?ip=83.59.186.229
Total, da 6.0 puntos, ¿no?
6.1
Pero no es por el Bayes. No exclusivamente.
Pero entre el bayes y el formato del mensaje son casi los 5 puntos... :-O 1.1 EXTRA_MPART_TYPE 2.0 BAYES_80 1.8 HTML_IMAGE_ONLY_24 Sin comerlo ni beberlo son 4.9... Y es un mensaje enviado desde un cliente de correo al uso con un formato normal.
Me dió una chispa de guerra al principio, pero era porque no le había pasado correo bueno para aprender: lo tuve que alimentar con unos cuantos miles de correos de las lista.
220 de ham y 3.000 de spam... creo que es suficiente ¿no? además, en ham había puesto la mayoría en español y algunos en inglés.
Otra cosa que hago es que le tengo bajada la puntuación a mano a las reglas en red, en '/etc/mail/spamassassin/local.cf':
y en cambio, se la subo al bayes:
Pues yo tendría que hacerlo al revés, el bayes se me dispara...
Y esto que es nuevo, de 'local.cf.rpmnew':
# Enhance the uridnsbl_skip_domain list with some usefull entries # Do not block the web-sites of Novell and SUSE ifplugin Mail::SpamAssassin::Plugin::URIDNSBL uridnsbl_skip_domain suse.de opensuse.org suse.com suse.org uridnsbl_skip_domain novell.com novell.org novell.ru novell.de novell.hu novell.co.uk endif # Mail::SpamAssassin::Plugin::URIDNSBL
Eso estuve a punto de quitarlo. Ya les vale :-/
El problema con el SA es que tiene las puntuaciones calculadas a máquina, y a veces no tienen sentido. Son puntutaciones ponderadas para que con la base de coreos de spam que tienen ellos todos salgan como spam, y les pueden dar puntuaciones absurdas a pruebas poco fiables, o muy agresivas.
Lo voy a estar vigilando esta semana, pero si me vuelve a poner un correo donde no va desactivaré el bayes. Al menos a mi no me funciona bien. Saludos, -- Camaleón --------------------------------------------------------------------- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org
-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA1 El 2007-02-26 a las 12:34 +0100, Camaleón escribió:
El 26/02/07, Carlos E. R. escribió:
Pero te falta un ... --ham ... blablabla.
Sí, lo ejecuté. Después de ejecutarlo siempre hago un "spamassassin -D -lint" para ver cómo le afecta y si toma todos los parámetros correctamente. Si no tiene mensajes suficientes de spam y ham te dice que "nanai". Es este caso todo estaba correcto.
Yo uso algo así como: time nice sa-learn --no-sync --showdots --spam --mbox \ Mail/file/z_spam_unrecog \ ... --ham --mbox Mail/lists/os-es \ ... && time nice sa-learn --sync Y tarda un par de horas o más. Lo de "spamassassin -D --lint" no me acordaba.
El correo lo han hecho con un editor raro, creo.
Bueno, raro, raro... Outlook Express 6.0 ;-)
Pues algo raro tiene, por que se queja: | 1.1 EXTRA_MPART_TYPE \ Header has extraneous Content-type:...type= entry
El Bayes son sólo dos puntitos, es poco.
Por culpa del bayes se ha ido al directorio de spam. 2 puntos es mucho para un mensaje bien redactado en español :-O
Sí, pero tiene parecidos con el spam. Le has pasado sólo un par de cientos de correos buenos: pásale un par de miles.
Además, es falso, no tiene un 80% de posibilidades de que sea spam.
Con mi configuración, una probabilidad del bayes de 80% equivale a 4.75 puntos...
Eso no gusta, últimamente vienen muchos correos de spam con fotos.
¡Y son casi otros 2 puntos! no lo entiendo...
Es que tiene una foto y poco texto, encaja con los correos de spam :-p
Esta lista negra no la conozco. IP dinámica, me dice el host.
Esta puntuación no me preocupa. Además, fíjate que es sólo un punto, nada decisivo. La lista la puse de forma manual porque suele ser el puntito que le falta a los correos que son realmente spam.
Prefiero confiarselo al filtro bayesiano.
De todas formas, imagina que no está esa lista, si le quitamos un punto a la puntuación general nos da 5.1... spam.
Pero si quitas esa lista y ajustas mejor el bayesiano, funcionaría.
Yo pensaría en anular esa lista negra, porque no cualifica sus puntuaciones: no es lo mismo un "spam" que un "dynamic" o un "exploit". Y porque lista los dinámicos incondicionalmente:
No, esa lista me es muy útil y no me preocupa. Además, lleva razón (la lista) mira:
Ya sé que es una IP dinámica, es de tesa. ¿Y qué? No todos los que usamos esas ips somos malvados ;-)
Total, da 6.0 puntos, ¿no?
6.1
Mi cabeza... O:-)
Pero no es por el Bayes. No exclusivamente.
Pero entre el bayes y el formato del mensaje son casi los 5 puntos... :-O
1.1 EXTRA_MPART_TYPE 2.0 BAYES_80 1.8 HTML_IMAGE_ONLY_24
Sin comerlo ni beberlo son 4.9...
Y es un mensaje enviado desde un cliente de correo al uso con un formato normal.
No es tan normal, según el SA.
Me dió una chispa de guerra al principio, pero era porque no le había pasado correo bueno para aprender: lo tuve que alimentar con unos cuantos miles de correos de las lista.
220 de ham y 3.000 de spam... creo que es suficiente ¿no? además, en ham había puesto la mayoría en español y algunos en inglés.
Está desequilibrado, sube a 3000.
Otra cosa que hago es que le tengo bajada la puntuación a mano a las reglas en red, en '/etc/mail/spamassassin/local.cf':
y en cambio, se la subo al bayes:
Pues yo tendría que hacerlo al revés, el bayes se me dispara...
Porque no lo has entrenado bien. Por cierto, yo no le dejo que aprenda solo: bayes_auto_learn 0
Y esto que es nuevo, de 'local.cf.rpmnew':
# Enhance the uridnsbl_skip_domain list with some usefull entries # Do not block the web-sites of Novell and SUSE ifplugin Mail::SpamAssassin::Plugin::URIDNSBL uridnsbl_skip_domain suse.de opensuse.org suse.com suse.org uridnsbl_skip_domain novell.com novell.org novell.ru novell.de novell.hu novell.co.uk endif # Mail::SpamAssassin::Plugin::URIDNSBL
Eso estuve a punto de quitarlo. Ya les vale :-/
¿A quienes? ¿De quien es la culpa que la prueba uridnsbl dé positivo para Novell? Es decir, quien se responsabiliza de inlcuir en listas negras a determinadas webs, de manera que con sólo incluir "hhtp://...novell.org" en el texto del correo, te dice que es spam. Claro, que luego miras en "/usr/share/spamassassin/25_uribl.cf", y ves que han tenido que incluir en sus propias reglas a mano unas doscientas webs para que no den positivo, incluyendo a microsoft...
El problema con el SA es que tiene las puntuaciones calculadas a máquina, y a veces no tienen sentido. Son puntutaciones ponderadas para que con la base de coreos de spam que tienen ellos todos salgan como spam, y les pueden dar puntuaciones absurdas a pruebas poco fiables, o muy agresivas.
Lo voy a estar vigilando esta semana, pero si me vuelve a poner un correo donde no va desactivaré el bayes. Al menos a mi no me funciona bien.
A mí de maravilla, si ajusto bien el bayes. No llega a un error al dia (y casi recibo más spam que correo bueno de las listas...) - -- Saludos Carlos E.R. -----BEGIN PGP SIGNATURE----- Version: GnuPG v1.4.5 (GNU/Linux) Comment: Made with pgp4pine 1.76 iD8DBQFF4zf8tTMYHG2NR9URAvQHAJwP1SzdUGwP0I2d76tmVwD0D+gF/gCeLPRC 6Tuszqd8iKvRbIORZilHxVk= =eLEh -----END PGP SIGNATURE-----
El 26/02/07, Carlos E. R. escribió:
Está desequilibrado, sube a 3000.
Buena sugerencia. Lo voy a hacer ahora mismo.
Porque no lo has entrenado bien. Por cierto, yo no le dejo que aprenda solo:
bayes_auto_learn 0
Otra muy buena sugerencia. Le estaba dando vueltas a este parámetro, que lo tengo activado, pero si lo deshabilito ¿qué hace el filtro bayesiano, utilizar siempre el mismo baremo hasta que lo alimente con spam y ham nuevo?
¿A quienes? ¿De quien es la culpa que la prueba uridnsbl dé positivo para Novell? Es decir, quien se responsabiliza de inlcuir en listas negras a determinadas webs, de manera que con sólo incluir "hhtp://...novell.org" en el texto del correo, te dice que es spam.
Bueno, cierto que es que también le dan un trato especial a Paypal, por ejemplo.
A mí de maravilla, si ajusto bien el bayes. No llega a un error al dia (y casi recibo más spam que correo bueno de las listas...)
No me había dado problemas... hasta hace unos días. Por cierto, que el auto whitelist también lo tuve que desactivar, pero de esto hace más tiempo... Voy a hacer esas dos cosas, alimentar más el ham y desactivar el auto-aprendizaje-bayesiano, a ver qué tal. Saludos, -- Camaleón --------------------------------------------------------------------- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org
-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA1 El 2007-02-26 a las 20:56 +0100, Camaleón escribió:
Porque no lo has entrenado bien. Por cierto, yo no le dejo que aprenda solo:
bayes_auto_learn 0
Otra muy buena sugerencia. Le estaba dando vueltas a este parámetro, que lo tengo activado, pero si lo deshabilito ¿qué hace el filtro bayesiano, utilizar siempre el mismo baremo hasta que lo alimente con spam y ham nuevo?
Exacto. Tienes que estar al tanto y entrenarlo, pero resulta mucho más estable. Yo lo que hago es entrenarlo con los que se le escapan, tanto en un sentido como en el otro. Si al cabo de unos meses ves que empiezan a aumentar los fallos, puede ser el momento de entrenarlo por completo otra vez (y eso puede pasar un año en pasarte). Lo llevo haciendo así hace bastante tiempo. En cambio, el correo de los de suse lo tienen puesto en automático, y se les va de vez en cuando: por eso clasifican como spam muchas veces el correo de la lista
¿A quienes? ¿De quien es la culpa que la prueba uridnsbl dé positivo para Novell? Es decir, quien se responsabiliza de inlcuir en listas negras a determinadas webs, de manera que con sólo incluir "hhtp://...novell.org" en el texto del correo, te dice que es spam.
Bueno, cierto que es que también le dan un trato especial a Paypal, por ejemplo.
Es que, por una lado, habrá gente que use paypal y será normal que le aparezca. Pero por otra parte, también es cierto que muchos correos de spam contienen referencias a paypal.
A mí de maravilla, si ajusto bien el bayes. No llega a un error al dia (y casi recibo más spam que correo bueno de las listas...)
No me había dado problemas... hasta hace unos días. Por cierto, que el auto whitelist también lo tuve que desactivar, pero de esto hace más tiempo...
Voy a hacer esas dos cosas, alimentar más el ham y desactivar el auto-aprendizaje-bayesiano, a ver qué tal.
Ya contarás :-) - -- Saludos Carlos E.R. -----BEGIN PGP SIGNATURE----- Version: GnuPG v1.4.5 (GNU/Linux) Comment: Made with pgp4pine 1.76 iD8DBQFF44BjtTMYHG2NR9URAmReAJ9v++Ere0malm+y1Vjh5FxNrBxmQQCfR4kV tN6AXpR0yvn6FIO0pV6xSA0= =Biu7 -----END PGP SIGNATURE-----
El 27/02/07, Carlos E. R. escribió:
Ya contarás :-)
Para cerrar este hilo pongo las conclusiones: Mejor, mucho mejor. Al final eliminé los ficheros toks que genera el filtro bayesiano y empecé de cero con el "bayes auto-learn" deshabilitado. Alimenté al SA con unos 400 correos de ham y otros tantos de spam y ahora la puntuación bayesiana es más comedida. Los correos en español (aún siendo spam) no suele puntuarlos con más de bayes_50, y los ingleses los suele acertar casi de lleno. Se cuelan un pelín más de correos "malosos" pero no he vuelto a ver un correo bueno dentro de /spam, que es lo que quería. Saludos, -- Camaleón --------------------------------------------------------------------- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org
-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA1 El 2007-03-21 a las 15:58 +0100, Camaleón escribió:
El 27/02/07, Carlos E. R. escribió:
Ya contarás :-)
Para cerrar este hilo pongo las conclusiones: Mejor, mucho mejor.
Al final eliminé los ficheros toks que genera el filtro bayesiano y empecé de cero con el "bayes auto-learn" deshabilitado. Alimenté al SA con unos 400 correos de ham y otros tantos de spam y ahora la puntuación bayesiana es más comedida.
Los correos en español (aún siendo spam) no suele puntuarlos con más de bayes_50, y los ingleses los suele acertar casi de lleno. Se cuelan un pelín más de correos "malosos" pero no he vuelto a ver un correo bueno dentro de /spam, que es lo que quería.
Pues eso es bueno. A mi no me falla nada ahora mismo. Igual tienes que alimentarle con más correos en español. - -- Saludos Carlos E.R. -----BEGIN PGP SIGNATURE----- Version: GnuPG v1.4.5 (GNU/Linux) Comment: Made with pgp4pine 1.76 iD8DBQFGAUu7tTMYHG2NR9URAuuyAJ91rtx97tmJ8lQNQPN0fbp197cmVgCgkHtV Fb8LcdTPH2t1uMcGz6b4Ips= =BhtT -----END PGP SIGNATURE-----
participants (2)
-
Camaleón
-
Carlos E. R.