Zatočte se spamem

Thomas Bayes, presbyteriánský ministr a matematik, narozený před 300 lety, by byl šokován, kdyby viděl tu spoustu e-mai...


Thomas Bayes, presbyteriánský ministr a matematik, narozený před 300 lety, by
byl šokován, kdyby viděl tu spoustu e-mailových zpráv, které se v této době
ucházejí o naši pozornost. Byl by ovšem na druhou stranu dojatý, kdyby věděl,
že svým teorémem statistické dedukce inspiroval autora programu SpamBayes k
aplikaci účinného nástroje blokujícího nevyžádané e-maily.
Z projektu open source jménem SpamBayes se vyvinula účinná zbraň ve válce proti
spamu. SpamBayes existuje v několika různých implementacích. V našem článku se
zaměříme na nadstavbu pro Outlook, kterou napsal proslulý hacker Pythonu Mark
Hammond. Byli jsme skeptičtí ohledně dlouhodobé perspektivy filtrování e-mailu
založeného na obsahu. Ale jádro SpamBayesu založené na Pythonu a Hammondova
brilantní nadstavba (také napsaná v Pythonu) nás rychle přesvědčily.
Některé e-mailové programy, včetně programu Mail dodávaného s MacOS X,
používají bayesiánské techniky, a umožňují uživatelům vycvičit jejich systémy
tak, aby rozlišovaly spam a běžnou počtu (nazývanou také ham). Experti stále
diskutují, nakolik je termín bayesiánský relevantní této klasifikační "hře".
Každá zpráva přináší důkaz pro i proti hypotéze, že jde o spam. Vaše dispozice
ohledně každé zprávy testují obě hypotézy a systematicky zlepšují schopnost
filtru odlišit spam od hamu.

Outlook ve zbrani
Pokud používáte Outlook 2000 nebo Outlook XP, je snadné a zdarma vyzkoušet si
nadstavbu SpamBayes právě pro tyto aplikace. Pokud již máte nainstalovaný
Python, můžete si obstarat zdrojový kód a nainstalovat SpamBayes a nadstavbu
podle obvyklých pravidel pro programy open source. Tuto možnost jsme
vyzkoušeli, ale protože jsme si dobře vědomi toho, že typičtí uživatelé
Outlooku nemají nainstalovaný Python a nebudou se chtít zabývat instalací ve
stylu open source, otestovali jsme také binární instalační program, který je k
dispozici na webových stránkách
http://starchip.python.net/crew/mhammond/spambayes. Ten pracoval skvěle,
nainstaloval SpamBayes včetně subsetu Pythonu, který je třeba pro jeho provoz.
SpamBayes se následně objeví jako položka na nástrojové liště pod jménem
Anti-Spam. Pro efektivní využití nadstavby ji musíte nasměrovat na větší
množství žádoucí pošty hamu. Nebo také na celý obsah vaší složky příchozí
pošty, pokud ji udržujete v rozumné čistotě. Mohou ale také být umístěny v
jiných složkách. To je dobrá zpráva, protože my masivně používáme filtry
Outlooku pro směrování pošty od určitých odesílatelů do různých složek.
Budete také muset ukázat SpamBayesu velkou hromadu spamu. V našem případě to
byla složka se jménem NotToMe (NeProMě), kam filtr Outlooku už dlouho
shromažďoval zprávy, které nemají naši primární adresu ani v poli Komu, ani v
poli Kopie. Toto jednoduché pravidlo je natolik efektivní, že to byla naše
jediná obrana do doby, kdy jsme před několika měsíci nainstalovali
SpamAssassin. I pod ochranou SpamAssassinu nás však potíže s dolováním těch
několika žádoucích zpráv ze složky NotToMe (NeProMě) plus rostoucí množství
spamu směrované na primární e-mailovou adresu pobídly k dalšímu kroku.
Po skončení výcviku přiřadíte další složku my jsme tu naši nazval MaybeSpam
(MožnáSpam) určenou podezřelým zprávám. Tahle třetí kategorie je jakousi
třešničkou na dortu, kterou SpamBayes přidává k binární protispamové technice.
Zprávy mohou obsahovat konfliktní důkazní materiál to znamená, že mají vysoké
(nebo nízké) hodnocení zda se jedná o spam i ham. V těchto případech vás
SpamBayes požádá, abyste rozhodli.

Sbohem, spame
Po tomto nastavení zapnete filtr a čas od času sledujete provoz. Nadstavba
prožene zprávy mířící do složky Doručená pošta (nebo do jiných určených složek)
klasifikátorem SpamBayesu. Ten směruje nepochybný spam do složky Spam a to, co
by mohl být spam, do složky MaybeSpam. Všechny ostatní zprávy skončí ve složce
Doručená pošta nebo kdekoliv jinde, kam je směrují vaše obvyklé filtry. Ale
každá zpráva dostane do uživatelsky definovaného pole označení, které určuje
procento její "spamovitosti". Toto pole můžete přidat do uživatelských pohledů
Outlooku na složky a třídit podle něj užitečný způsob hodnocení, jak dobře jste
systém vycvičili.
Když ve složkách Spam nebo MaybeSpam skončí žádoucí zpráva, použijete jednoduše
tlačítko "Recover from Spam" (Obnovit ze spamu), které ji vrátí do původní
složky a "naučí" se ji jako dobrou zprávu. Obdobně použijete tlačítko Delete As
Spam (Odstranit jako spam) a vymažete nechtěnou zprávu, která přistála v
některé z "dobrých" složek, a systém se ji "naučí" jako špatnou zprávu.
Výsledky v našem případě byly okamžité a působivé. SpamBayes zachytil řadu
zpráv, které SpamAssassin nechal projít. SpamAssassin se například nechal
nachytat reklamou na pilulky na zvětšení penisu ve španělštině, zatímco
SpamBayes ji zachytil. Ale jiná "dopadení" vyžadují subtilnější rozlišovací
schopnost. Vypadá to, že SpamBayes se opravdu dokáže naučit rozlišovat mezi
zprávami o běžných produktech a službách, které nás zajímají, a mezi zprávami o
stejně běžných věcech, na kterých nám nezáleží.

SpamBayes for Outlook
+rozpoznávací schopnosti, produkt je zadarmo
-podpora pouze v rámci dokumentace výrobce
Poskytl: SpamBayes project, spambayes.sourceforge.net
Cena (bez DPH): ke stažení zdarma









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.