El Fri, 26 Feb 2010 19:36:27 +0100, jose maria escribió:
El Viernes 26 Febrero 2010, Camaleón escribió:
* probablemente puedas hacerlo, vamos seguro que se puede, pero la efectividad de los filtros bayesianos estan orientados a usuario y son realmente efectivos cuando trabajan segun los criterios del usuario y no del servidor (spam para mi pero no para ti), recuerda que te digan lo que te digan el spam no se puede combatir a nivel de servidor, (puedes algo, no gran cosa, si cierras los ojos y que se joda el cojo)
¿Estás seguro?
* Bastante
Gmail se las apaña bastante bien¹ y no recuerdo haberlo entrenado "personalmente".
* No has marcado nunca nada como spam?, yo si aunque solo la utilizo para almacenar los grupos de news
Sí, sí lo he marcado. ~10 mensajes en ¿3-4 años?
y ¿revisas los que son marcados como spam? y ¿sabes los que no te llegan?, yo no, y desde cuando se sabe lo que pasa en gmail, hotmail, etc ......
Sí, los reviso. De ahí el ratio de aciertos que he establecido de 9/10. Se le ha colado alguno, sí, cierto. Pero si tenemos en cuenta la cantidad total de mensajes recibidos y el escaso (¿nulo?) entrenamiento por mi parte el porcentaje de falsos positivos es mínimo.
vamos no pensaras que el correo llega a esos dominios en contacto directo con los servidores de correo principales.
No, supongo que no :-? Sólo defiendo el uso de herramientas de colaboración o de configuraciones basadas en servidor (site-wide) para filtrar/capturar el spam. Son útiles aún suponiendo que sólo detecten el 50% del total de mensajes. Y los sistemas afinados (como el de Gmail) aumentan ese porcentaje.
Altamente recomendable la lectura de las investigaciones modernas sobre IA donde exploran las posibilidades de las redes de Petri y los modelos de aprendizaje bayesianos.
* Los spammers estan que no sienten las piernas ... ...
Hace unos días, el Sr. Alierta (presidente de Telefónica) en una conferencia, también parecía que infravaloraba los algoritmos de Google (amén de otras barbaridades...).
* nada de esto evita la llegada y procesamiento en todas sus formulas y ocupacion de ancho de banda al servidor, no es una tecnica greylist, un filtro bayesiano se basa en el procesamiento del contenido y para eso lo ha de recibir y procesar, por tanto mi recomendacion, es la que le he hecho y he explicado por que.
No te rebatía nada relacionado con el consumo del ancho de banda y/o consumo de recursos.
¹ El porcentaje de aciertos es mayor que el de falsos positivos, en una relación de 9/10.
* No lo dudo, el problema es que la pregunta no tiene que ver con la efectividad de los filtros bayesianos que nadie la ha puesto en duda, si no de utilizar un filtro general ferreo, si no no tiene sentido implementar una base de datos general, tomado del entrenamiento de multiples dominios y usuarios y te grarantizo que producira efectos contrarios y sus usuarios seguro que no son los de gmail.
Sí, pero depende del escenario. Pueden ser distintos dominios pero los usuarios siguen siendo los mismos. O puedes tener pocos usuarios y recibir tan poca cantidad de spam que utilizar un sistema combinado donde todos alimenten la misma db (y todos la usen) pueda ser una ventaja más que un inconveniente. Saludos, -- Camaleón -- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org