DNA bojuje proti spamu

O velmi zajímavém průsečíku biotechnologií a informatiky referoval časopis New Scientist. Hrdinou příběhu je algorit...


O velmi zajímavém průsečíku biotechnologií a informatiky referoval časopis New
Scientist. Hrdinou příběhu je algoritmus Chung-Kwei, který dokáže úspěšně
zachytit až 97 % spamu.
Na počátku byl software analyzující DNA založený na algoritmu označovaném jako
Teiresias. Tento systém dokázal řešit úlohu spadající do tzv. rozpoznávání
vzorů. Zjednodušeně řečeno byl určen k tomu, aby dokázal říci, jaké části DNA
kódují jaké proteiny, jaké části DNA nesou v rámci informačního kódu speciální
význam apod.
Thomas J. Watson z bioinformatické výzkumné skupiny IBM (který samozřejmě není
totožný s nositelem Nobelovy ceny a spoluobjevitelem struktury DNA Jamesem D.
Watsonem) si vzal Teiresias jako základ, z něhož vyvinul algoritmus Chung-Kwei
(jméno má údajně odpovídat jakémusi ochrannému amuletu z Feng-šuej). Tomuto
programu pak byla předložena databáze 65 000 spamů; za pomoci své schopnosti
rozpoznávání zde pak identifikoval vzory typické pro spam. Souběžně byly totiž
analyzovány normální e-maily a vzory nalezené paralelně v obou skupinách
vyřazovány.
Algoritmus Chung-Kwei nyní třídí e-maily podle toho, jaké procento "závadných"
vzorů obsahují. To má hned několik výhod. Regulérní dopisy mohou klidně
obsahovat třeba slovo "Viagra" a nejsou kvůli tomu automaticky vyřazeny.
Podíl povolených "závadných" vzorů vzhledem k celkové délce dopisu lze snadno
měnit a tím určovat, nakolik bude náš filtr "paranoidní". Pokud je systém
nastaven tak, aby odchytil 97 % spamů, označí za závadnou pouze jednu regulérní
zprávu z 6 000. Dalším vývojem algoritmu by se tato úspěšnost přitom měla
samozřejmě ještě zvyšovat.
Důležité je, že systém nerozpoznává přímo konkrétní závadné řetězce, ale právě
obecnější "vzory". Nedá se tedy obalamutit např. slovy Vi*gra nebo $ex. Tuto
vlastnost už musel mít původní algoritmus Teiresias, protože také rozpoznával
(např.) funkčně ekvivalentní, ale formálně odlišné struktury DNA. Při přepisu
DNA do struktury proteinů existuje totiž značná redundance různé trojice
(triplety) "písmenek" DNA kódují stejný protein, a algoritmus se je proto musí
naučit vnímat jako stejné. Nyní tato vlastnost najde uplatnění i v boji se
spamem.
Společnost IBM se údajně chystá zahrnout algoritmus Chung-Kwei do svého
komerčně dodávaného programu SpamGuru. Za slibnou označil celou koncepci i
Justin Mason, který vyvinul známý open source antispamový program SpamAssassin.
Podle Masona bude zřejmě na algoritmu udělat celou řadu práce; fascinující však
není ani tak konkrétní algoritmus, ale spíše mezioborový průnik, kdy se původně
bioinformatický software ukázal jako vhodný pro úplně jiný typ úlohy. Něco
podobného se ovšem v poslední době děje poměrně často.

Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.