Schránky uživatelů elektronické pošty jsou zahlcovány množstvím nevyžádané pošty. Při jejím zpracování lze využít nástroje dataminingu s cílem vytvořit pravidlo pro vyhodnocení přicházející zprávy v reálném čase a odfiltrování zpráv považovaných za spam.
V elektronické poště se objevuje cokoliv. Často je to bohužel plevel v podobě nevyžádané korespondence, ať už jde o reklamu nebo dokonce o podvodné e-maily. Jejich přítomnost mezi skutečnou a často důležitou poštou pro uživatele e-mailové schránky je velice nepříjemná.
Při zpracování elektronické pošty a filtrování spamu lze využít nástroje dataminingu. Cílem je vytvořit pravidlo schopné vyhodnotit přicházející zprávy v reálném čase a odfiltrovat zprávy považované za spam. U filtrování spamu je dále třeba brát v potaz nechtěné odstranění zprávy, která spam neobsahuje. Musíme si tedy klást důležité otázky jako: „Kolik procent spamu se nám celkem podaří odfiltrovat?“ a „Kolik procent vyřazených zpráv nebylo spamem?“
První úprava
Vzhledem k tomu, že zprávy obsahují textová pole, spadá tento problém pod úlohy textminingu. Samotný text patří společně například s obrázky nebo audiovizuálními záznamy mezi takzvaná nestrukturovaná data. Prvním úkolem bude tyto údaje zpracovat a převést na konkrétní příznaky a číselné hodnoty parametrů každé zprávy. S takto upravenými daty lze již pracovat a modelovat hledanou závislost, zda je zpráva spamem nebo ne.
Při převodu textu na strukturované údaje se nejprve text rozloží na jednotlivá slova a znaky, tyto prvky se nazývají tokeny. Z tokenů lze již snadno odvodit relativní četnosti slov, slovních spojení nebo specifických znaků v textu, jako jsou například hvězdičky či vykřičníky.
Další úpravou, kterou lze použít při zpracování textu, je stemming. Slova jsou převedena na svůj kořen. Využití této úpravy je známé obzvláště při vyhledávání a umožňuje nalézt nejenom konkrétní slovo, ale i jeho odvozené gramatické tvary. Rozšířením tohoto přístupu je lemmatizace, kdy hledáme základní tvar slova. Například slovo „lepší“ vzniklo stupňováním slova „dobrý“, avšak došlo ke změně kořene a stemming by tato slova nepovažoval za příbuzné. Lemmatizace využívá připravené slovníky a oběma slovům by přiřadilo stejné lemma. Složitější situace nastává v případě slov mnohoznačných. Například slovo „ženu“ může být slovesem nebo podstatným jménem ve čtvrtém pádě, a je tedy možné jej zařadit do dvou lemmat. Při rozeznávání správného lemmatu mohou též pomoci dataminingové modely.
V textminingu se dále využívá poměrně náročné extrahování konceptů. Slovo nebo slovní spojení je přiřazeno podle svého významu v rámci celého textu do konceptu. Ten zahrnuje slova nebo spojení podobného významu.
Autor je analytikem společnosti ACREA CR