El Viernes 26 Febrero 2010, Camaleón escribió:
* probablemente puedas hacerlo, vamos seguro que se puede, pero la efectividad de los filtros bayesianos estan orientados a usuario y son realmente efectivos cuando trabajan segun los criterios del usuario y no del servidor (spam para mi pero no para ti), recuerda que te digan lo que te digan el spam no se puede combatir a nivel de servidor, (puedes algo, no gran cosa, si cierras los ojos y que se joda el cojo)
¿Estás seguro?
* Bastante
Gmail se las apaña bastante bien¹ y no recuerdo haberlo entrenado "personalmente".
* No has marcado nunca nada como spam?, yo si aunque solo la utilizo para almacenar los grupos de news y ¿revisas los que son marcados como spam? y ¿sabes los que no te llegan?, yo no, y desde cuando se sabe lo que pasa en gmail, hotmail, etc ...... vamos no pensaras que el correo llega a esos dominios en contacto directo con los servidores de correo principales.
Altamente recomendable la lectura de las investigaciones modernas sobre IA donde exploran las posibilidades de las redes de Petri y los modelos de aprendizaje bayesianos.
* Los spammers estan que no sienten las piernas ... ... * nada de esto evita la llegada y procesamiento en todas sus formulas y ocupacion de ancho de banda al servidor, no es una tecnica greylist, un filtro bayesiano se basa en el procesamiento del contenido y para eso lo ha de recibir y procesar, por tanto mi recomendacion, es la que le he hecho y he explicado por que.
¹ El porcentaje de aciertos es mayor que el de falsos positivos, en una relación de 9/10.
* No lo dudo, el problema es que la pregunta no tiene que ver con la efectividad de los filtros bayesianos que nadie la ha puesto en duda, si no de utilizar un filtro general ferreo, si no no tiene sentido implementar una base de datos general, tomado del entrenamiento de multiples dominios y usuarios y te grarantizo que producira efectos contrarios y sus usuarios seguro que no son los de gmail.