Detekce spamu metodami dataminingu (2)

10. 8. 2013

Zatímco v minulém díle jsme se zaměřili na průběh celého dataminingového procesu při detekci spamu a odpovídající přípravu dat, dnes se budeme věnovat způsobům výběru vhodných modelů, které předpovídají proměnnou se dvěma stavy.

V našem případě mohou být zprávy spamem, nebo jím naopak nejsou. Mezi další podobné úlohy patří například retence odchodu zákazníka, prevence podvodů nebo segmentace klientů vzhledem k zájmu o nějaký výrobek.

V minulém díle jsme mimo jiné zdůraznili, že pro účely modelování je vhodné původní zprávy rozdělit na dvě části – na trénovací množinu, pomocí které modely vytvoříme, a na testovací, na níž budeme hodnotit jejich kvalitu a navzájem je porovnávat.

Nejjednodušším způsobem, jak toto rozdělení provést, je každou zprávu přiřadit náhodně se stejnou pravděpodobností buď do trénovací, nebo do testovací množiny. Vzniklé množiny sice nemusí být stejně velké, ale to vzhledem k principu nevadí, navíc je tento způsob rozdělení výpočetně nenáročný.

Cílová kategorie
Při modelování se k predikované proměnné přistupuje tak, že se jedna kategorie označí jako cíl. V tomto případě se uvažuje, že cílem bude „Zpráva je spam“. Poté lze zavést pojem senzitivita modelu, to jest citlivost modelu v procentech na správné označení cíle („Zpráva je spam“).

V naší situaci bude tedy senzitivita udávat, kolik procent spamu se správně odfiltrovalo. Analogicky se mluví o specifičnosti modelu. Ta bude informovat o tom, jaký podíl ostatních zpráv neskončilo chybně ve spamovém koši.

Hledání modelů
Ačkoliv jsou při detekování spamu oblíbené hlavně modely naivních Bayesovských klasifikátorů, není nezbytně nutné se omezovat pouze na ně. Při modelování je možné použít širokou škálu různých metod.

Mezi populární algoritmy patří například klasifikační stromy, logistická regrese, metoda nejbližších sousedů, podpůrné vektory anebo neuronové sítě. Většina těchto metod je navíc parametrizovatelná – jedním algoritmem tedy lze vytvořit více modelů pro různé parametry.

Při detekci spamu je k dispozici i blacklist zakázaných adres nebo účtů, o kterých se ví, že z nich chodí spam. Dále je možné na základě vlastní zkušenosti zprávě přiřazovat vysokou pravděpodobnost toho, že jde o spam – obsahuje-li například nějaké nevhodné slovo.

Tyto předem známé modely, založené na odborných zkušenostech, se nazývají expertní modely. Nabízí se tedy otázka, jakým způsobem rozhodování různých modelů zkombinovat, a vytvořit tak nově odvozené.

Kombinování modelů
Modely dichotomických nebo vícekategoriálních proměnných jsou kromě toho, že případ zařadí do jedné ze skupin, schopny taktéž spočítat konfidenci neboli spolehlivost svého odhadu. Například prvně jmenovaný model bude o zprávě tvrdit, že jde o spam, se spolehlivostí 60 procent.

Druhý naopak rozhodne obráceně a zprávu neoznačí jako spam se určitostí 80 procent. Je již nasnadě, že můžeme vytvořit nový model kombinací obou předchozích tak, že se bude rozhodovat hlasováním váženým podle konfidence těchto modelů. Ve výše uvedeném příkladu by takto nově vzniklý model zprávu za spam nepovažoval.

U více modelů lze toto hlasování dokonce sestavovat hierarchicky, a to znamená, že budou existovat skupiny podřízených modelů, které svým hlasováním vytvoří nové, nadřízené příslušným skupinám. Ty opět mezi sebou budou hlasovat, až nakonec tímto postupným hlasováním vznikne výsledné rozhodnutí.

Porovnávaní modelů pomocí matice záměn
Vytvořili jsme několik modelů, které vznikly různými technikami, změnou parametrů nebo kombinováním jiných modelů. Pojďme se nyní podívat, jakým způsobem se dají mezi sebou porovnávat a jak bychom mohli vybrat pro nás nejvhodnější.

Toto porovnání provedeme právě na testovací množině, která nevstupovala do učení modelu. Zprávy z testovací množiny tedy necháme modely ohodnotit. Jelikož víme, zda se jedná o spam či nikoliv, lze zjistit, v kolika procentech případů se model zmýlil.

Přeučené modely mohou zařadit zprávy z trénovací množiny vesměs správně, avšak na testovací množině by se ukázalo, že se rozhodovaly téměř náhodně.

Autor je analytikem společnosti Acrea CR

Našli jste v článku chybu?

Sdílet

Autor článku

Vojtěch Skubanič

Témata:

Mohlo by vás zajímat

Anketa

Využíváte už některé z inovativních metod šifrování?

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Spěcháte na návratnost investic AI? Je možné, že to bude drahé

Vyšlo nové číslo CFOworldu 4/2024

Vivolink představí svoje ProAV a systémová řešení na veletrhu ISE 2025 v Barceloně

Nedostatečné zabezpečení koncových zařízení ohrožuje firmy

Co se v roce 2025 mění pro firmy, zaměstnance a daňové poplatníky?

Arrow Electronics je AWS Rising Star Distributor Partner roku v regionu EMEA

Jak zabránit zneužívání umělé inteligence – je AI Akt řešením?

Novela zákoníku práce pohledem firem? Rychlejší výpovědi a nedořešení dohodáři

AT Computers je IDG Distributorem roku společnosti Lenovo

Detekce spamu metodami dataminingu (2)

Sdílet

Autor článku

Vojtěch Skubanič

Témata:

Mohlo by vás zajímat

Co je nejoblíbenější způsob použití umělé inteligence v práci?

Předpověď kybernetických hrozeb pro rok 2025: Připravte se na větší a odvážnější útoky

Europol zatnul tipec hackerům, chystali hromadný útok během Vánoc

Kybernetická bezpečnost: Podcast o tajemstvích bezpečnostních operačních center s Pavlem Hrabcem

Anketa

Využíváte už některé z inovativních metod šifrování?

Kvíz týdne

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Z našich webů

Spěcháte na návratnost investic AI? Je možné, že to bude drahé

Vyšlo nové číslo CFOworldu 4/2024

Vivolink představí svoje ProAV a systémová řešení na veletrhu ISE 2025 v Barceloně

Nedostatečné zabezpečení koncových zařízení ohrožuje firmy

Co se v roce 2025 mění pro firmy, zaměstnance a daňové poplatníky?

Arrow Electronics je AWS Rising Star Distributor Partner roku v regionu EMEA

Jak zabránit zneužívání umělé inteligence – je AI Akt řešením?

Novela zákoníku práce pohledem firem? Rychlejší výpovědi a nedořešení dohodáři

AT Computers je IDG Distributorem roku společnosti Lenovo

Dále u nás najdete

OpenAI zavádí do ChatGPT „Santa Mode“. Co říká na Ježíška?

Online nákupy pohodlně. Známe trendy v e-commerce pro rok 2025

Zkuste vánoční cukroví bez cukru. 5 vyladěných receptů

Simona Kijonková: Dívala jsem se na investice za 1,4 miliardy

Neplaťte si IT kurzy sami, využijte dotace od EU

Jak okresní města mění koeficienty k dani z nemovitostí

Outlook, jak ho známe, končí. Co ho nahradí a kdy?

Tipy na knihy: válka o čipy či Kotletova revoluce v AI.

Nové HDMI 2.2 už je za rohem

Udělejte si french toast ze zbylé vánočky

Změna komunikace Petra Fialy se nepovedla, je v ní vidět křečovitost

Ivanti dává hattrick třemi kritickými zranitelnostmi

Vyšetření krvácení do stolice jako prevence rakoviny nestačí

Při balení dárků nemusíte vůbec používat izolepu, dokonce ani papír

Kapr se dříve připravoval na modro. Dnes se hlavně smaží, vyzkoušejte podkovy

Tyhle věci nezapomeňte do konce roku udělat, ušetříte tisíce

OSA chce 90 Kč z každého prodaného chytrého telefonu

Smyčka se utahuje – americké restrikce omezí další firmy

Nejistota pro podnikatele, zásadní změny DPH ještě nejsou schváleny

Jaká jsou úskalí recenzí spotřebitele z pohledu podnikatele?