[opensuse-es] Re: construyendo bd bayesiana

26 Feb 2010

      El Fri, 26 Feb 2010 19:36:27 +0100, jose maria escribió:
...
El Viernes 26 Febrero 2010, Camaleón escribió:
...
...
* probablemente puedas hacerlo, vamos seguro que se puede, pero la
efectividad de los filtros bayesianos estan orientados a usuario y
son realmente efectivos cuando trabajan segun los criterios del
usuario y no del servidor (spam para mi pero no para ti), recuerda
que te digan lo que te digan el spam no se puede combatir a nivel de
servidor, (puedes algo, no gran cosa, si cierras los ojos y que se
joda el cojo)
¿Estás seguro?
* Bastante
...
Gmail se las apaña bastante bien¹ y no recuerdo haberlo entrenado
"personalmente".
* No has marcado nunca nada como spam?, yo si aunque solo la utilizo
para almacenar los grupos de news
Sí, sí lo he marcado. ~10 mensajes en ¿3-4 años?
...
y ¿revisas los que son marcados como spam? y ¿sabes los que no te
llegan?, yo no, y desde cuando se sabe lo que pasa en gmail, hotmail,
etc ......
Sí, los reviso. De ahí el ratio de aciertos que he establecido de 9/10. Se
le ha colado alguno, sí, cierto. Pero si tenemos en cuenta la cantidad
total de mensajes recibidos y el escaso (¿nulo?) entrenamiento por mi
parte el porcentaje de falsos positivos es mínimo.
...
vamos no pensaras que el correo
llega a esos dominios en contacto directo con los servidores de correo
principales.
No, supongo que no :-?

Sólo defiendo el uso de herramientas de colaboración o de configuraciones
basadas en servidor (site-wide) para filtrar/capturar el spam. Son útiles
aún suponiendo que sólo detecten el 50% del total de mensajes. Y los
sistemas afinados (como el de Gmail) aumentan ese porcentaje.
...
...
Altamente recomendable la lectura de las investigaciones modernas sobre
IA donde exploran las posibilidades de las redes de Petri y los modelos
de aprendizaje bayesianos.
* Los spammers estan que no sienten las piernas ... ...
Hace unos días, el Sr. Alierta (presidente de Telefónica) en una
conferencia, también parecía que infravaloraba los algoritmos de Google
(amén de otras barbaridades...).
...
* nada de esto evita la llegada y procesamiento en todas sus formulas y
ocupacion de ancho de banda al servidor, no es una tecnica greylist, un
filtro bayesiano se basa en el procesamiento del contenido y para eso lo
ha de recibir y procesar, por tanto mi recomendacion, es la que le he
hecho y he explicado por que.
No te rebatía nada relacionado con el consumo del ancho de banda y/o
consumo de recursos.
...
...
¹ El porcentaje de aciertos es mayor que el de falsos positivos, en una
relación de 9/10.
* No lo dudo, el problema es que la pregunta no tiene que ver con la
efectividad de los filtros bayesianos que nadie la ha puesto en duda, si
no de utilizar un filtro general ferreo, si no no tiene sentido
implementar una base de datos general, tomado del entrenamiento de
multiples dominios y usuarios y te grarantizo que producira efectos
contrarios y sus usuarios seguro que no son los de gmail.
Sí, pero depende del escenario.

Pueden ser distintos dominios pero los usuarios siguen siendo los mismos.
O puedes tener pocos usuarios y recibir tan poca cantidad de spam que
utilizar un sistema combinado donde todos alimenten la misma db (y todos
la usen) pueda ser una ventaja más que un inconveniente.

Saludos,

-- 
Camaleón

-- 
Para dar de baja la suscripción, mande un mensaje a:
   opensuse-es+unsubscribe@opensuse.org
Para obtener el resto de direcciones-comando, mande
un mensaje a:
   opensuse-es+help@opensuse.org