[opensuse-es] construyendo bd bayesiana
saludos a todos listeros , tengo una duda que quiero compartir en cuanto a spamassassin y el entrenamiento bayesiano ... tengo 3 servidores distintos todos con spamassassin amavisd-new en los cuales realizo entrenamiento bayesiano , en los tres servidores el spam es diferente , pero mi duda es la siguiente sera posible realizar una sola base de datos bayesiana con los correos spam y ham de estos tres dominios y depues pegarla en c/u de ellos , osea mejor dicho agarrar el spam de c/u , el ham y después construir un sola base de datos bayesiana .. pienso que quedaría mas efectivo .. sugerencias, ideas .. saludoss -- rickygm http://gnuforever.homelinux.com -- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org
El Wed, 24 Feb 2010 20:13:58 -0600, troxlinux escribió:
tengo 3 servidores distintos todos con spamassassin amavisd-new en los cuales realizo entrenamiento bayesiano , en los tres servidores el spam es diferente , pero mi duda es la siguiente sera posible realizar una sola base de datos bayesiana con los correos spam y ham de estos tres dominios y depues pegarla en c/u de ellos ,
Revisa este hilo: *** Sharing and merging bayes data? http://marc.info/?t=126103633900002&r=1&w=2 *** Saludos, -- Camaleón -- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org
-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA1 El 2010-02-24 a las 20:13 -0600, troxlinux escribió:
saludos a todos listeros , tengo una duda que quiero compartir en cuanto a spamassassin y el entrenamiento bayesiano ...
tengo 3 servidores distintos todos con spamassassin amavisd-new en los cuales realizo entrenamiento bayesiano , en los tres servidores el spam es diferente , pero mi duda es la siguiente sera posible realizar una sola base de datos bayesiana con los correos spam y ham de estos tres dominios y depues pegarla en c/u de ellos ,
osea mejor dicho agarrar el spam de c/u , el ham y después construir un sola base de datos bayesiana ..
pienso que quedaría mas efectivo ..
Quizás. Tendrías que exportar los directorios en los que se guardan los correos de spam, por lo menos, de manera que en las otras máquinas puedas ejecutar el entrenamiento manualmente dando como entrada los archivos de correo locales y remotos. sa-learn --no-sync --showdots --spam --mbox Mail/in_spam \ Mail.remoto_2/in_spam Mail.remoto_3/in_spam sa-learn --sync Puedes hacerlo exportando previamente los directorios y luego cerrandolos una vez terminada la tarea. - -- Saludos Carlos E. R. -----BEGIN PGP SIGNATURE----- Version: GnuPG v2.0.9 (GNU/Linux) iEYEARECAAYFAkuG3M8ACgkQtTMYHG2NR9XZdwCfS+Oif1+BSzGDsjU1NTrPKweE /6cAnA6nz5ihuaP4NaiGj/NWQxrkRBcj =w2Gz -----END PGP SIGNATURE-----
El Thursday 25 February 2010 03:13:58 troxlinux escribió:
saludos a todos listeros , tengo una duda que quiero compartir en cuanto a spamassassin y el entrenamiento bayesiano ...
tengo 3 servidores distintos todos con spamassassin amavisd-new en los cuales realizo entrenamiento bayesiano , en los tres servidores el spam es diferente , pero mi duda es la siguiente sera posible realizar una sola base de datos bayesiana con los correos spam y ham de estos tres dominios y depues pegarla en c/u de ellos ,
osea mejor dicho agarrar el spam de c/u , el ham y después construir un sola base de datos bayesiana ..
pienso que quedaría mas efectivo ..
* probablemente puedas hacerlo, vamos seguro que se puede, pero la efectividad de los filtros bayesianos estan orientados a usuario y son realmente efectivos cuando trabajan segun los criterios del usuario y no del servidor (spam para mi pero no para ti), recuerda que te digan lo que te digan el spam no se puede combatir a nivel de servidor, (puedes algo, no gran cosa, si cierras los ojos y que se joda el cojo) pero entonces tienes un problema mayor con los usuarios e igual numero de conexiones tcp, ventana, verificacion, cpu, timeout, etc .., comentas que tienes tres servidores con dominios diferentes lo cual lo entiendo como un numero de usuarios diferentes de cierta importancia , si haces lo que pretendes, en mi opinion estaras dando ordenes contrarias al proceso de control y spamassassin/amavis no son linces nativamente. * Si tienes un problema serio de ocupacion de ancho de banda, mi recomendacion es que pongas aguas arriba de los servidores de correo un proxy o servidor de correo solo relay, si estann en redes diferentes los gateways pueden ejecutar este proceso, que se encarguen de la autentificacion, greylists, negras y blancas y filtros blandos conocidos, con politica drop y no reject para los malos, redirigido el correo a los servidores el filtro bayesiano de los mismos por usuario clasificara correctamente, igualmente drop para los descartes, divides las tareas, cierras los procesos con prontitud, etc, esto te permitira soportar hasta cierto punto incluso ataques al servicio de correo. * Esto implica espacio, etc, pero no hay forma, mientras el origen sea falsificable, de evitar trafico y/o procesos y conexiones a los servidores, spf, etc, depende de los contrarios tambien. * Si insistes en hacer lo que pides creo que te saldra mas a cuenta hacer lo de la lista de opensuse, tirar de spamhaus u otros, rbl, pbl, dnsbl, (osea que se joda el cojo), soy contrario a ese negocio ....., tu sabras si el numero de reclamaciones y/o quejas, perdidas, etc ..., compensan las horas de administracion. -- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org
El Fri, 26 Feb 2010 02:13:48 +0100, jose maria escribió:
El Thursday 25 February 2010 03:13:58 troxlinux escribió:
osea mejor dicho agarrar el spam de c/u , el ham y después construir un sola base de datos bayesiana ..
pienso que quedaría mas efectivo ..
* probablemente puedas hacerlo, vamos seguro que se puede, pero la efectividad de los filtros bayesianos estan orientados a usuario y son realmente efectivos cuando trabajan segun los criterios del usuario y no del servidor (spam para mi pero no para ti), recuerda que te digan lo que te digan el spam no se puede combatir a nivel de servidor, (puedes algo, no gran cosa, si cierras los ojos y que se joda el cojo)
¿Estás seguro? Gmail se las apaña bastante bien¹ y no recuerdo haberlo entrenado "personalmente". Altamente recomendable la lectura de las investigaciones modernas sobre IA donde exploran las posibilidades de las redes de Petri y los modelos de aprendizaje bayesianos. ¹ El porcentaje de aciertos es mayor que el de falsos positivos, en una relación de 9/10. Saludos, -- Camaleón -- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org
El Viernes 26 Febrero 2010, Camaleón escribió:
* probablemente puedas hacerlo, vamos seguro que se puede, pero la efectividad de los filtros bayesianos estan orientados a usuario y son realmente efectivos cuando trabajan segun los criterios del usuario y no del servidor (spam para mi pero no para ti), recuerda que te digan lo que te digan el spam no se puede combatir a nivel de servidor, (puedes algo, no gran cosa, si cierras los ojos y que se joda el cojo)
¿Estás seguro?
* Bastante
Gmail se las apaña bastante bien¹ y no recuerdo haberlo entrenado "personalmente".
* No has marcado nunca nada como spam?, yo si aunque solo la utilizo para almacenar los grupos de news y ¿revisas los que son marcados como spam? y ¿sabes los que no te llegan?, yo no, y desde cuando se sabe lo que pasa en gmail, hotmail, etc ...... vamos no pensaras que el correo llega a esos dominios en contacto directo con los servidores de correo principales.
Altamente recomendable la lectura de las investigaciones modernas sobre IA donde exploran las posibilidades de las redes de Petri y los modelos de aprendizaje bayesianos.
* Los spammers estan que no sienten las piernas ... ... * nada de esto evita la llegada y procesamiento en todas sus formulas y ocupacion de ancho de banda al servidor, no es una tecnica greylist, un filtro bayesiano se basa en el procesamiento del contenido y para eso lo ha de recibir y procesar, por tanto mi recomendacion, es la que le he hecho y he explicado por que.
¹ El porcentaje de aciertos es mayor que el de falsos positivos, en una relación de 9/10.
* No lo dudo, el problema es que la pregunta no tiene que ver con la efectividad de los filtros bayesianos que nadie la ha puesto en duda, si no de utilizar un filtro general ferreo, si no no tiene sentido implementar una base de datos general, tomado del entrenamiento de multiples dominios y usuarios y te grarantizo que producira efectos contrarios y sus usuarios seguro que no son los de gmail.
El Fri, 26 Feb 2010 19:36:27 +0100, jose maria escribió:
El Viernes 26 Febrero 2010, Camaleón escribió:
* probablemente puedas hacerlo, vamos seguro que se puede, pero la efectividad de los filtros bayesianos estan orientados a usuario y son realmente efectivos cuando trabajan segun los criterios del usuario y no del servidor (spam para mi pero no para ti), recuerda que te digan lo que te digan el spam no se puede combatir a nivel de servidor, (puedes algo, no gran cosa, si cierras los ojos y que se joda el cojo)
¿Estás seguro?
* Bastante
Gmail se las apaña bastante bien¹ y no recuerdo haberlo entrenado "personalmente".
* No has marcado nunca nada como spam?, yo si aunque solo la utilizo para almacenar los grupos de news
Sí, sí lo he marcado. ~10 mensajes en ¿3-4 años?
y ¿revisas los que son marcados como spam? y ¿sabes los que no te llegan?, yo no, y desde cuando se sabe lo que pasa en gmail, hotmail, etc ......
Sí, los reviso. De ahí el ratio de aciertos que he establecido de 9/10. Se le ha colado alguno, sí, cierto. Pero si tenemos en cuenta la cantidad total de mensajes recibidos y el escaso (¿nulo?) entrenamiento por mi parte el porcentaje de falsos positivos es mínimo.
vamos no pensaras que el correo llega a esos dominios en contacto directo con los servidores de correo principales.
No, supongo que no :-? Sólo defiendo el uso de herramientas de colaboración o de configuraciones basadas en servidor (site-wide) para filtrar/capturar el spam. Son útiles aún suponiendo que sólo detecten el 50% del total de mensajes. Y los sistemas afinados (como el de Gmail) aumentan ese porcentaje.
Altamente recomendable la lectura de las investigaciones modernas sobre IA donde exploran las posibilidades de las redes de Petri y los modelos de aprendizaje bayesianos.
* Los spammers estan que no sienten las piernas ... ...
Hace unos días, el Sr. Alierta (presidente de Telefónica) en una conferencia, también parecía que infravaloraba los algoritmos de Google (amén de otras barbaridades...).
* nada de esto evita la llegada y procesamiento en todas sus formulas y ocupacion de ancho de banda al servidor, no es una tecnica greylist, un filtro bayesiano se basa en el procesamiento del contenido y para eso lo ha de recibir y procesar, por tanto mi recomendacion, es la que le he hecho y he explicado por que.
No te rebatía nada relacionado con el consumo del ancho de banda y/o consumo de recursos.
¹ El porcentaje de aciertos es mayor que el de falsos positivos, en una relación de 9/10.
* No lo dudo, el problema es que la pregunta no tiene que ver con la efectividad de los filtros bayesianos que nadie la ha puesto en duda, si no de utilizar un filtro general ferreo, si no no tiene sentido implementar una base de datos general, tomado del entrenamiento de multiples dominios y usuarios y te grarantizo que producira efectos contrarios y sus usuarios seguro que no son los de gmail.
Sí, pero depende del escenario. Pueden ser distintos dominios pero los usuarios siguen siendo los mismos. O puedes tener pocos usuarios y recibir tan poca cantidad de spam que utilizar un sistema combinado donde todos alimenten la misma db (y todos la usen) pueda ser una ventaja más que un inconveniente. Saludos, -- Camaleón -- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org
-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA1 El 2010-02-26 a las 19:36 +0100, jose maria escribió:
Altamente recomendable la lectura de las investigaciones modernas sobre IA donde exploran las posibilidades de las redes de Petri y los modelos de aprendizaje bayesianos.
* Los spammers estan que no sienten las piernas ... ...
* nada de esto evita la llegada y procesamiento en todas sus formulas y ocupacion de ancho de banda al servidor, no es una tecnica greylist, un filtro bayesiano se basa en el procesamiento del contenido y para eso lo ha de recibir y procesar, por tanto mi recomendacion, es la que le he hecho y he explicado por que.
Alguien comentó que usaba procesamiento del contenido en el propio postfix, rechazando el correo si no le gusta - antes de aceptarlo. No recuerdo exactamente como lo hacía. - -- Saludos Carlos E. R. -----BEGIN PGP SIGNATURE----- Version: GnuPG v2.0.9 (GNU/Linux) iEYEARECAAYFAkuIOHEACgkQtTMYHG2NR9WZyACfVw5talPNeCZs2oZON5/gHmbr qA4AnjrEuO44fAwyJHnekvW/HxXCrGgD =/xei -----END PGP SIGNATURE-----
participants (4)
-
Camaleón
-
Carlos E. R.
-
jose maria
-
troxlinux