
Einige SPAM E-Mails lassen sich merkmalsbasiert unabhängig vom persönlichen Empfinden als SPAM klassifizieren. Aber viele E-Mails müssen inhaltlich analysiert werden, um als SPAM oder HAM (gute E-Mails) erkannt werden zu können. Dabei ist das persönliche Empfinden so unterschiedlich wie die Geschmäcker. Die besten Ergebnisse erzielt man mit Systemen, die sich auf das persönliche Empfinden einstellen.
Ein Bayes versucht die eingehenden Mails als SPAM, HAM oder unsicher zu klassifizieren. Die als SPAM oder unsicher klassifizierten Mails werden automatisch in andere Bereiche verlagert, während die als HAM erkannten Mails im Posteingang verbleiben. So ist es möglich, sich auf die wichtigen Mails im Posteingang zu konzentrieren.
Der Bayes Filter muss trainiert werden, um sich auf Ihr Empfinden einzustellen. Dazu lassen Sie den Bayes Filter eine größere Anzahl von Mails, die Sie eindeutig nicht als gute Mails empfinden analysieren. Der selbe Vorgang wird mit Mails, die sich sicher als SPAM empfinden wiederholt. Das Bayes System versucht dann, Unterscheidungsmerkmale zwischen den beiden Mailsorten herauszuarbeiten. Das sind zum Beispiel unterschiedliche Worte, Unterschiede im Mailheader und in der Art, wie der Inhalt aufgebaut ist. Diese Merkmale nutzt das Bayes System dann zur automatischen Klassifizierung von neu eingehenden Mails.
Zum Beispiel kommt das Wort "legal" oft in SPAM Mails vor. Sie könnten jetzt einen einfachen Wortfilter anwenden, der alle Mails mit dem Wort "legal" als SPAM klassifiziert. Da das Wort aber auch in erwünschten Mails vorkommt, ist diese Vorgehensweise ungeeignet. Spammer benutzen das Wort legal z.B. häufig in Zusammenhang mit dem Wort "Software". Alleinstehend kommt das Wort Software sicherlich auch in Ihren Mails vor, aber in der Kombination ist es mit höherer Warscheinlichkeit SPAM.
Das ist die Funktionsweise eines Bayes Filters. Es werden die Warscheinlichkeiten für Spam errechnet. Eingehende Mails werden nach möglichst aussagekräftigen Kriterien analysiert und die Spamwarscheinlichkeit berechnet. Dabei wird versucht, Alleinstellungsmerkmale für die Bewertung zu finden. Auf der Basis der Spamwarscheinlichkeit wird eine Mail dann in die Bereiche HAM, unsicher und SPAM einsortiert.
Sollte die Klassifizierung einmal nicht ihrem Empfinden entsprechen, können Sie die Einsortierung korrigieren. Dabei lernt SpamBayes durch diesen Hinweis gleich mit.
Was unterscheidet SpamBayes von anderen Lösungen?
Es gibt diverse ähnliche Open Source Software Projekte, die meisten nutzen den Algorithmus von Paul Graham. Eine genauere Analyse des Algortihmus hat gezeigt, dass er grundsätzlich gut funktioniert, aber noch Raum für Verbesserungen bietet.
Durch Kombination mit weiteren Algorithmen und ausgiebige Tests konnten deutlich bessere Ergebnisse erreicht werden. Zur Ermittlung von HAM, unsicher und SPAM Bewertungen wurde der Algorithmus durch Erweiterungen von Gary Robinson und Tim Peters erweitert.
Weiterführende Informationen hierzu finden Sie z.B. auf der Website unter http://spambayes.sourceforge.net.
SpamBayes für Anwender
Als Anwender von Microsoft Outlook können Sie auf ein fertiges Plugin zurückgreifen. So haben Sie direkt im Outlook die Möglichkeit, die Spambewertungen zu korrigieren und die verschobenen Mails finden sich in Unterordnern Ihrer Wahl. Auf der Website können Sie auch die aktuelle Version des Outlook Plugins herunterladen.
SpamBayes für Unternehmen
Während für kleine und mittlere Unternehmen eine Klassifizierung durch den Anwender nur nach persönlichen Kriterien ausreichend ist, wünschen sich größere Unternehmen eine zentrale Lösung. Zentralisierte Lösungen können den erforderlichen Zeitaufwand für Training und Verwaltung minimieren. Dazu wird an einem Mailgateway die Klassifizierung vorgenommen. Durch ein Plugin für den bevorzugten Mailclient ist die direkte Kommunikation zwischen Anwender und Gateway zur übermittlung der persönlichen Klassifizierung möglich.
Professionelle Lösungen bieten wir von ASTARO, BARRACUDA und FINJAN an.
|