Weiß jemand was das mit diesem ligang soll Inhalt: 您好! 您的邮件我已受到,我会尽快阅读,如果可能的话,我会尽快给您回复!谢谢! 李钢 Und wenn man eine Mail dorthin schickt bekommt man gleich eine Abreibung zurück! Marcel Stein
On Mon, 2003-07-07 at 23:23, Al Bogner wrote:
Zum einen irritierst du SpamAssassin, das durch dein Quoting den Quatsch lernt und zum anderen gab es da kürzlich intensive Diskussionen dazu. Auch wenn Du diesen Satz noch 100-mal wiederholst, ist er sachlich unrichtig:
Richtig ist, dass Bayes'sches Lernen zu den Verfahren gehört, die durch "Beaufsichtiges Lernen" anhand von Vorlagen (Trainings-Paaren) lernen, d.h. manuelle Eingriffe durch einen "Lehrer" *verlangen*. Alles, was Bayes'sche Filter machen, wenn man einen "Automatischen Instruktor" einsetzt, besteht darin, zu versuchen eine Approximation der durch den "Automatischen Instruktor" vorgenommene (Vorab-) Klassifikation vorzunehmen, in der Hoffnung, dass die Approximation eine Verallgemeinerung der Vorab-Klassifikation darstellt. Auf spamassassin bezogen, heisst dass, dass der Bayes-Filter in Spamassassin bestenfalls eine Approximation der "Sonstigen Spamassassin-Regeln" lernt, von der man hofft, dass sie "allgemeiner" und "besser" als die "Sonstigen Regeln" sei. Sinnvoll wird Bayes aber erst dann, wenn man als "Instruktor" manuell eingreift und Vorlagen liefert, die vom "automatischen Instruktor" anders klassifiert (d.h. subjektiv fehlklassifiziert) werden. Lange Rede, kurzer Sinn: Ein Bayes-Filter ist nur so gut wie die durch seine Instrukturen vorgenommene Vorab-Klassifikation. Ist ein "automatischer Instruktor" nicht gut genug, ist Handarbeit erforderlich. Dies kann man als "system-bedingte Eigenschaft" akzeptieren oder auch die praktische Anwendbarkeit von Bayes-Filtern generell in Frage stellen, doch Deine Forderung ("Zitierter Spam bringt Filter durcheinander") ist lediglich die Beschreibung einer "Ungenügenden Funktion" des Systems. Daraus die Forderung abzuleiten, "Keinen Spam zu zitieren" bedeutet lediglich die Augen vor der Realität zu verschliessen. [Überspitzt: "Ich mag die Farbe 'Pink' nicht, deshalb darf ab sofort die Farbe 'Pink' nicht mehr in der Öffentlichkeit verwendet werden.] Aufgrund dieser Problematik[1] sind Bayes'sche Klassifikatoren im Allgemeinen in der AI/KI generell nicht unumstritten (Es wäre nicht falsch, davon zu sprechen, dass die Community darüber gespalten ist.). Ralf [1] Der Klassische Ausweg besteht darin, keine kontinuierlichen Auto-Learn-Verfahren einzusetzen, stattdessen mit einem sehr grossen, statischen Satz Trainingspaaren zu arbeiten und Fehlklassifikationen manuell in diesen Satz einzuarbeiten. In diesem Sinne wäre Spamassassin's auto-learning ein Hilfsalgorithmus um diesen "grossen Satz" von Trainingspaaren zu erstellen.
On Tuesday 08 July 2003 08:36, Ralf Corsepius wrote:
On Mon, 2003-07-07 at 23:23, Al Bogner wrote:
Zum einen irritierst du SpamAssassin, das durch dein Quoting den Quatsch lernt und zum anderen gab es da kürzlich intensive Diskussionen dazu.
Auch wenn Du diesen Satz noch 100-mal wiederholst, ist er sachlich unrichtig:
Richtig ist, dass Bayes'sches Lernen zu den Verfahren gehört, die durch "Beaufsichtiges Lernen" anhand von Vorlagen (Trainings-Paaren) lernen, d.h. manuelle Eingriffe durch einen "Lehrer" *verlangen*.
Danke für die Klarstellung. Du meinst also, dass es ein Unterschied ist, ob man im Header "autolearn=ham" findet oder manuell dieses email mit "sa-learn --ham" als ok definiert? Al
Moin, Am Die, 2003-07-08 um 08.36 schrieb Ralf Corsepius:
Alles, was Bayes'sche Filter machen, wenn man einen "Automatischen Instruktor" einsetzt, besteht darin, zu versuchen eine Approximation der durch den "Automatischen Instruktor" vorgenommene (Vorab-) Klassifikation vorzunehmen, in der Hoffnung, dass die Approximation eine Verallgemeinerung der Vorab-Klassifikation darstellt.
Ich weiss ja nicht, welchen Sinn es macht, eine Mail absichtlich so zu formulieren, daß wohl kaum jemand sie versteht. Also noch mal langsam: 1. Automatisch: sa versucht, anhand einer Mail herauszufinden, ob sie Spam oder Ham ist. Wenn das mit einer gewissen Sicherheit gelingt, wird der Inhalt dieser Mail betrachtet und die dort gefundenen Begriffe werden mit einer gewissen Wahrscheinlichkeit der Spam- und Ham-Ecke zugeordnet. Wenn sa bei mir auf die Art lernt, daß z.B. Nachrichten, die das Wort "linux" enthalten, praktisch immer Ham sind, dann wird es andere Begrifflichkeiten wie "Kernel, Bash, Gnome, Script" ebenfalls eher als Ham-Anzeiger bewerten. Das bedeutet: Wenn ich hier nur oft genug "f*cken" schreibe, dann wird dieser Begriff als Spamerkennung im Wert reduziert. Das heisst nicht, daß sofort alle Mail mit diesem Begriff falsch einlaufen, aber der Filter ist ein klein wenig schlecher geworden. 2. Manuell: Ich kann per sa-learn in die Spamerkennung eingreifen, indem ich erkannten Spam/Ham nochmal ausdrücklich manuell bestätige, und indem ich falsch sortierte Mails manuell umlerne. Was ich aber nicht machen kann, ist eine Ham-Mail (Beitrag in suse-linux), die Spam enthält ("Schaut was ich bekommen haben: f*cken, unsubscr!be, rich, pen!s, g!rls) irgendwie vergessen machen lassen, denn die Mail ist weder Ham noch Spam. Computer sind voll blöd. 3. Datenbank Es gibt ja komplette Spamdatenbanken mit kompletten Mails. Ich weiss nicht, wie die darauf reagieren, hätte aber erstmal bedenken. 4. Sinn 1 Ganz untechnisch: Ich kriege genug Spam. Man muß mir nicht noch den eigenen vorquoten. 5. Sinn 2 Auch ganz untechnisch: Es bringt überhaupt keinerlei Vorteil, kompletten Spam in die Liste zu quoten. Es reicht vollkommen, zu schreiben "Ich glaube, ich kriege Spam über die Liste, der Betreff lautet 'blablabla'". Niemand will das lesen, und zur Klärung des Problems ist der Header interessant, nicht der Inhalt. 6. Wir haben die Liste nur von unseren Kinder geborgt. :-))) Im Sinne zukünftiger Spamfilter, die ggf. auf garatiert Spamfreie Archive zurückgreifen und im Interesse sauberer Archive ohne Ballast sollte man es einfach lassen. Bitte erleuchte mich, wenn ich irre. Gruß, Ratti (Der einem Spammer auch gern mal eine Pen!sverlängerung angedeihen lassen möchte. Auf die traditionell Art, wie im Mittelalter...) -- -o) fontlinge | Font management for Linux | Schriftenverwaltung in Linux /\\ http://freshmeat.net/projects/fontlinge/ _\_V http://www.gesindel.de https://sourceforge.net/projects/fontlinge/
On Saturday 12 July 2003 18:23, Joerg Rossdeutscher wrote:
2. Manuell: Ich kann per sa-learn in die Spamerkennung eingreifen, indem ich erkannten Spam/Ham nochmal ausdrücklich manuell bestätige, und indem ich falsch sortierte Mails manuell umlerne.
Meinst du damit auch, dass der _letzte_ Lernvorgang vorhergehende unwirksam macht. Nehmen wir mal an, auto-ham hätte 2x Spam als Nicht-Spam gelernt und nun füttere ich dieses manuell an spam. Bringt das Bayes durcheinander? Al
Moin, Am Sam, 2003-07-12 um 19.02 schrieb Al Bogner:
On Saturday 12 July 2003 18:23, Joerg Rossdeutscher wrote:
2. Manuell: Ich kann per sa-learn in die Spamerkennung eingreifen, indem ich erkannten Spam/Ham nochmal ausdrücklich manuell bestätige, und indem ich falsch sortierte Mails manuell umlerne.
Meinst du damit auch, dass der _letzte_ Lernvorgang vorhergehende unwirksam macht. Nehmen wir mal an, auto-ham hätte 2x Spam als Nicht-Spam gelernt und nun füttere ich dieses manuell an spam. Bringt das Bayes durcheinander?
Ich bin nicht Mr. Spamassassin :-) , aber ich vermute mal, daß das OK ist. In der Anleitung von sa-learn steht explizit drin, daß jede Mail nur einmal gefüttert werden kann, ein weiteres füttern überschreibt den Vorgänger. Wenn du also eine Mail als spam, spam, ham, spam, ham, spam durchschiebst, steht sie nur einmal in der DB, und zwar als spam (letzter Durchgang). Mutmaßung: Da sa intern sicherlich sa-learn verwendet, wird manuelles learning wohl autolearning überschreiben. Gruß, Ratti -- -o) fontlinge | Font management for Linux | Schriftenverwaltung in Linux /\\ http://freshmeat.net/projects/fontlinge/ _\_V http://www.gesindel.de https://sourceforge.net/projects/fontlinge/
Am Montag, 7. Juli 2003 23:05 schrieb Marcel Stein:
Weiß jemand was das mit diesem ligang soll
SPAMMER auf suse-linux...? Datum: 05.07.2003 20:32 Von: Thomas Hertweck [+Thread] [...] [Text zitiert -> Urlaubsbenachrichtigung (laut Thomson)]
Und wenn man eine Mail dorthin schickt bekommt man gleich eine Abreibung zurück!
Wieso antwortest du auf den Kram. Und hey, wie bist du aus meinem Filter geschlüpft? War die Zeit schon wieder um? Fragen über Fragen. [Bitte jetzt keinen Endlosthread daraus machen, lasst es einfach so stehen] Thorsten -- .-. Thorsten von Plotho-Kettner - Fon/SMS 0163-2886981 /v\ Linuxuser #275535 Linux Machine #168717 /( )\ http://aussatz.antville.org ^^ http://www.aus-satz.de
Thorsten von Plotho-Kettner wrote:
Am Montag, 7. Juli 2003 23:05 schrieb Marcel Stein:
Weiß jemand was das mit diesem ligang soll
[...]
Wieso antwortest du auf den Kram. Und hey, wie bist du aus meinem Filter geschlüpft? War die Zeit schon wieder um?
Fragen über Fragen. [Bitte jetzt keinen Endlosthread daraus machen, lasst es einfach so stehen]
Ich will aber endlich das Original (ligang). :-| *scnr* Benn -- #250319 - http://counter.li.org
Hi zusammen, Ich habe das auch bekommen und dachte, da ich mit Kollegen aus China zusammenarbeite, dass es von dieser Ecke kommt. Das Subject bedeutet: I've received your email, and will reply to you as soon as I can. Mehr weis ich dann allerdings auch nicht. Gruss Werner Thorsten von Plotho-Kettner wrote:
Am Montag, 7. Juli 2003 23:05 schrieb Marcel Stein:
WeiÃY jemand was das mit diesem ligang soll
participants (8)
-
Al Bogner
-
Al Bogner
-
Bernd Schmelter
-
Joerg Rossdeutscher
-
Marcel Stein
-
Ralf Corsepius
-
Thorsten von Plotho-Kettner
-
Werner Franke