Dolování dat nastupující technologie na poli IT

Jedním z relativně nových termínů objevujících se v oblasti podnikových informačních systémů je dolování dat (v ...


Jedním z relativně nových termínů objevujících se v oblasti podnikových
informačních systémů je dolování dat (v originále Data Mining). Tento termín
může připomínat každodenní boj s oddělením IT o slíbené informace, či naopak
proces získávání údajů pro podnikový systém od specializovaných útvarů a
uživatelů. Druhým extrémem je představa zázračného prostředku, který po snesení
všech dat z podniku na jedno místo sám najde řešení všech problémů. Proto se na
tomto místě pokusíme objasnit, co je to vlastně dolování dat, jaké metody a
techniky se využívají pro dolování dat, a ukázat některé reálné úlohy řešené v
různých odvětvích.
Současný svět je charakterizován explozí objemu dat sbíraných a ukládaných do
databází. S požadavky na shromažďování informací se setkáváme ve všech
oblastech od služeb (objednávky zásilkových služeb či cestovních kanceláří,
rezervace jízdenek/letenek), přes bankovnictví, telekomunikace, státní správu
až po zdravotnictví nebo pojišťovnictví. V bankovnictví se jedná např. o
archivaci bankovních transakcí, žádostí o úvěr, historii splátek, v oblasti
telekomunikací zase o informace o telefonním provozu a platbách za něj (v
případě mobilních telefonů obsahuje záznam i informace o poloze atd.).
Státní správa je asi největším "sběratelem informací", ať už se jedná o daňová
přiznání, celní deklarace, žádosti o sociální podporu, nejrůznější registry a
řadu dalších oblastí. V poslední době začíná hrát důležitou roli v oblasti
koncového prodeje právě sběr údajů o zákaznících a to nejvíce u supermarketů.
Nejrůznější zákaznické karty slouží nejen pro získání množstevních slev, ale
hlavně pro vytvoření databanky informací o nákupu jednotlivých druhů zboží. V
oblasti pojišťovnictví se jedná o registrace pojistek a pojistných plnění, ve
zdravotnictví zase o archivaci zdravotních záznamů nebo údajů pro zdravotní
pojišťovny.
Jestliže u nás ještě nejsou některé, výše popisované zdroje dat, běžné v
elektronické podobě, pak ve vyspělých státech, pokud v elektronické formě přímo
nevznikají, tak v ní určitě končí, uloženy v databázích. Tato záplava dat je
obhospodařována transakčními systémy, které většinou zpracovávají aktuální
transakce, popřípadě je postupována do systémů navržených pro analýzy (systémy
na dodávání informací Information Delivery), jejichž úkolem je poskytovat
přehledné informace pro rozhodování. Základem moderních systémů na dodávání
informací je datový sklad (Data Warehouse) centrální úložiště sjednocující sběr
informací z celého podniku a ukládání historických dat, to vše optimalizované
pro analýzy a výkaznictví.
Zpracování dat z rozsáhlých databází a datových skladů má v dnešním světě
informačních technologií nejrůznější formy. Tradiční přístupy analyzující data
prostřednictvím sestav a výkazů jsou dnes většinou založeny na dotazovacích
nástrojích (SQL), pracujících nad relačními databázemi, případně na technikách
označovaných jako OLAP (On-Line Analytical Processing), které často využívají
uložení dat v multidimenzionálních databázích k rychlé prezentaci dat ve formě
tabulek sumovaných před různé hierarchicky uspořádané dimenze (např. rok,
čtvrtletí, měsíc versus kraje, okresy, obce). Tyto techniky umožňují udržovat
přehled o okamžité pozici podniku, či rychlou přípravu konsolidovaných
finančních reportů to vše i v rozsáhlých organizacích a během doby, která by se
před několika lety zdála nesplnitelná.
Přesto je mnoho úloh, na které tyto běžné přístupy nestačí. Ve většině těchto
úloh není specifikován konkrétní, třeba i složitý, dotaz na obsah databáze.
Naopak, cílem je nalézt, které údaje, či spíše jejich kombinace, jsou důležité
při komerčním využití dat z databáze. Pokud je obsahem tradičního databázového
dotazu otázka "V kterém kraji byl v tomto čtvrtletí nejúspěšnější prodejce
zboží typu X?", pak se úlohy dolování dat snaží nalézt řešení problému -"Jaké
podmínky (skladba produktů, demografie cílové skupiny) zabezpečují dlouhodobě
nejlepší výsledky prodeje?".
Definice dolování dat
Obecná definice dolování dat ho popisuje jako proces výběru, prohledávání a
modelování ve velkých objemech dat, sloužící k odhalení dříve neznámých vztahů
mezi daty, za účelem získání obchodní výhody. Obchodní výhoda je tedy označena
jako cíl dolování dat dolování by vždy mělo mít za cíl řešení konkrétního
obchodního problému či nalezení cesty k vylepšení procesu. Cíl by měl být
předem definován a jen na jeho základě by se měla připravovat data.
Pojem velký objem dat může samozřejmě znamenat různé objemy v různě velkých
organizacích, ale zdůrazňuje nutnost podpory managementu a IT při
zpřístupňování rozsáhlých dat z různých částí organizace. Data pro dolování by
ideálně měla být brána z datového skladu zahrnujícího historické hodnoty z
různých podnikových systémů.
Nasazení technologií dolování dat předpokládá přípravu podnikových procesů
umožňujících kontinuální využívání analýz a podporujících zpětné vazby od
uživatelů. Ty pak mohou ovlivňovat jak proces sběru dat, tak definice nových
cílů. Vedoucí firmy, dodávající řešení zahrnující dolování dat, mají pro tento
účel zpracovány metodologie procesu dolování, které pomáhají, jak s vlastními
projekty, tak s řízením navazujících podnikových procesů.
Dolování dat a datové sklady
Existuje mnoho důvodů pro úzkou návaznost datového skladu a dolování dat.
Zřejmě nejdůležitějším z nich je kvalita vstupních dat pro dolování.
Sebedokonalejší modelovací technika či analýza nepřinesou očekávaný výsledek,
pokud nejsou vstupní data očištěna od chyb, zkontrolována úplnost všech
požadovaných údajů a sjednoceny formáty z různých systémů. Procesní charakter
dolování dat vyžaduje, aby se jako vstup dolování dat používala průběžně
aktualizovaná data. Všem těmto požadavkům vyhovuje datový sklad. Rozšíření
datových skladů je naopak jedním z hybných prvků bouřlivého rozvoje
technologiie dolování dat.
Metody dolování dat
Dolování dat je označením třídy úloh, které řeší mnohdy zdánlivě nesouvisející
problémy z nejrůznějších oborů. Je pozoruhodné, kolik praktických aplikací má
několik obecných metod analýzy dat. Výběr metody, která bude použita pro řešení
daného problému, je jen jedním z kroků procesu dolování dat. Je třeba mít na
zřeteli cíl, pro jehož splnění lze použít více metod. Pak je dobré znát jejich
výhody a mít možnost porovnat jejich výsledky.
Prediktivní modelování je postup, kdy se, na základě známé množiny vstupních a
známých jim odpovídajících výstupních hodnot, hledá nejpravděpodobnější hodnota
výstupu pro předem neznámé kombinace vstupních hodnot. Elementárním příkladem
prediktivního modelování je např. hodnocení rizika úvěru v bankovnictví. Banka
soustřeďuje mnoho záznamů o svých minulých klientech a samozřejmě ví, kteří
jsou špatnými dlužníky. Po vytvoření prediktivního modelu popisujícího
hodnocení dlužníka (výstup) na základě informací o něm (vstupní data), lze
ohodnocovat rizika nově příchozích zákazníků (o kterých lze zjistit údaje
používané jako vstupní data modelu). Používanými technikami pro prediktivní
modelování jsou různé typy regrese, neuronové sítě a rozhodovací stromy.
Regrese
Je standardní statistická metoda schopná popsat stupeň důležitosti vstupních
proměnných na výstup. Její síla tkví v teoretické propracovanosti odhadu chyb
modelu a možnosti hledat i závislost na kombinaci vstupních proměnných. Dobře
jsou propracovány metody regrese pro odhad binárního výstupu (logistická
regrese) či regrese pracující s daty nabývajícími jen diskrétních (i
nečíselných) hodnot. Použití regrese je limitováno pracností a časovou
náročností vývoje složitějších modelů.
Neuronové sítě Představují novou moderní techniku prediktivního modelování,
vynikající velkou variabilitou možných modelů a snadností modifikace jejich
návrhu. Z pohledu regrese jsou neuronové sítě elegantní technikou pro hledání
parametrů modelu, založeného na velice flexibilním systému vnořených funkcí. Na
druhé straně model založený na neuronové síti nemá srozumitelnou interpretaci.
Rozhodovací stromy Získaly popularitu díky své snadné interpretaci. Popis
modelu pomocí rozhodovacího stromu je řadou jednoduchých rozhodovacích
pravidel, často prezentovaných ve formě grafu. Tyto grafy mohou být snadno bez
hlubokých znalostí statistických metod interpretovány řídícími pracovníky. Při
použití všech technik modelování je nutno řešit problémy s volbou počtu
parametrů modelu, jejich konvergence a odhadu chyb.
Klasifikace
Obecně je klasifikace metodou pro rozdělování dat do skupin dle jistých
kritérií. Pokud jsou tato kritéria předem známa, alespoň pro vzorek dat, lze
pomocí metod prediktivního modelování vyvinout model, jehož výstupem je
klasifikační proměnná. Mnohem častější případ je neřízená klasifikace, kdy
výsledná kritéria nejsou předem známa a úlohou klasifikace je jejich nalezení.
Používanou technikou v takovýchto případech je shluková analýza (Cluster
Analysis). Elementárním příkladem shlukové analýzy je např. nalezení skupin
obchodů na základě jejich obratu, sortimentů a typu zákazníků. Nalezené skupiny
lze pak použít např. pro specifikaci reklamní kampaně, zaměřené na jednotlivé
skupiny prodejen.
Analýza asociací
Nejčastějším použitím analýzy asociací, a zároveň jejím ilustrativním
příkladem, je tzv. analýza nákupního košíku. Ta se zabývá hledáním kombinací
produktů, které se ve vstupních datech (nákupním koši spotřebitelů) vyskytují
významně častěji spolu. Cílem je odhalit pravidla typu: při nákupu zboží A a C
spotřebitelé výrazně častěji nakupují zboží D a B. Odhalení takovýchto
kombinací pomáhá marketingovým odborníkům v organizování nabídky či společných
balíčků produktů.
Vzorkování
Vzorkování není algoritmem řešícím přímo nějaký zadaný úkol dolování dat, ale
je to jedna ze základních technik dolování dat, umožňující získat výsledek v
rozumném čase. Vzorkování je výběr omezené množiny dat ze základního souboru.
Nejjednodušším způsobem vzorkování je náhodný výběr, který slouží jen ke
zmenšení objemu zpracovávaných dat a tím k zrychlení výpočtů. Složitější metody
vzorkování, např. výběr stejného počtu záznamů daného typu (stejný počet
záznamů z každého tarifního pásma), umožňují redukci objemu zpracovávaných dat
při současné záruce požadované přesnosti výsledku. Vzorkování databáze pro
analýzy je jistě neobvyklé z pohledu klasických databázových aplikací
užívajících SQL nástrojů, ale objevují se již úvahy o nutnosti zařazení
takovýchto služeb do standardních databázových serverů.
Použití technik dolování dat
Následující výčet popisuje současné nejčastější použití technologie dolování
dat v různých oborech. Při jejich čtení je nutno si uvědomit, že některé
oblasti aplikace dolování dat zůstávají důvěrným firemním tajemstvím. To samé
platí i pro většinu získaných výsledků.
Analýza úvěrového rizika výběr a ověřování kandidátů žádajících o úvěr, lze
opět popsat prediktivním modelem, založeným na známém chování stávajících
klientů, Výhodou je v tom-to případě znalost mnoha dat o klientech.
Vyhodnocování marketingových kampaní tvorbou prediktivního modelu odezvy,
získaného na základě dat ze vzorku zákazníků, lze provést výběr z rozsáhlé
databáze zákazníků, který garantuje s největší pravděpodobností odezvy.
Analýza odchodu zákazníků (churn) prediktivní model získaný analýzou dat o
zákaznících lze použít pro plánování akcí, jež mohou zabránit odchodu
stávajících, nejrizikovějších zákazníků. V telekomunikacích je používán pojem
"churn" pro změnu poskytovatele služeb.
Segmentace zákazníků rozdělení zákazníků do skupin pro marketingové účely.
Segmenty pak mohou definovat různé cílové skupiny.
Detekce podvodů pomocí prediktivního modelování (nejčastěji neuronové sítě), či
shlukové analýzy, lze odhalit podezřelé chování při platebním styku.
Analýza produktů přímá aplikace analýzy asociací umožňuje definovat
komplementární produkty pro dané segmenty zákazníků. Lze pak cíleně oslovovat
zákazníky, kterým chybí část portfolia produktů či sestavovat požadované
balíčky služeb.
Analýza chování zákazníků predikce např. vývoje poptávky na základě
historických dat.
Analýza sekvencí výběr nejčastěji se vyskytující posloupnosti, či hledání stavů
předcházejících nějaké události (poškození iniciované více vlivy).
SAS Institute
SAS Enterprise Miner byl studií Yphise Software Evaluation Process vyhodnocen
jako nejkompletnější řešení zahrnující široký rozsah technik. Studie srovnávala
produkty v oblastech integrace s aplikacemi, administrace a sledování,
prostředí, správa dat, deskriptivní modely, vysvětlující modely a prediktivní
modely. Ve všech oblastech dominoval SAS Enterprise Miner s výrazným náskokem
před nástroji IBM Intelligent Miner a SGI Mineset. Současně je nutné
podotknout, že výsledky průzkumu pocházejí z května letošního roku, přičemž od
té doby už byly uvedeny nové verze některých produktů, nabízejících vylepšené
vlastnosti.
Společnost SAS Institute má více jak dvacetiletou tradici ve vývoji softwaru na
dodávání informací (Information Delivery). Firma nabízí ucelenou řadu nástrojů
pro tvorbu a řízení datových skladů, analýzy, modelování a prezentaci dat.
Enterprise Miner vznikl integrací různých modulů SAS Systemu. Některé moduly
shromažďují a vyhledávají data, jiné aplikují statistické modely a další
zobrazují výsledky. Řešení je možné uživatelsky upravovat. Podporuje prostředí
AIX, HP-UX, Solaris, Windows 95/NT.
Enterprise Miner je ovládaný pomocí grafického uživatelského prostředí a
umožňuje uživatelům bez hlubokých teoretických znalostí vytvářet prediktivní
modely (k dispozici jsou regrese, neuronové sítě i rozhodovací stromy), analýzu
shluků, asociací i sekvencí.
Řešení obsahuje i metodologii SAS Institute SEMMA (Sample vzorkování, Explore
zkoumání, Modify modifikování, Model modelování, Assess vyhodnocení), která
poskytuje uživatelům logický, organizovaný rámec pro dolování dat. Enterprise
Miner je snadno integrovatelný s datovým skladem, nabízí flexibilní sady
různých technik a grafické výstupy zaměřené na obchodní uživatele. Zkušenosti
SASu s realizací projektů na dolování dat jsou shrnuty do metodologie Data
Mining Project Methodology.
Silicon Graphics
SGI Mineset se vyznačuje silnými vizualizačními nástroji pro komplexní datové
sady. Nabízí pokročilou 4D vizualizaci 3D grafy se mohou měnit podle 2 dalších
proměnných dimenzí. Jedná se o proprietární řešení původně běžící pouze v
prostředí SGI Irix, výsledky mohou být zobrazovány přes webový prohlížeč. Má
menší množství modelů pro dolování dat, přičemž poslední verze 2.6 přináší API
plug-in architekturu, která umožňuje portaci jiných nástrojů pro dolování dat
do Minesetu.
Nová verze tohoto nástroje Mineset 2.6, ohlášená v polovině srpna, znamená pro
SGI bezpochyby krok správným směrem. Přináší řadu nových vlastností, jako např.
podporu 32 a 64bitové implementace (v prostředí IRIX 6.4) s možností využití
velké operační paměti a hlavně podporu práce v heterogenních prostředích Unix a
Windows NT. Dále umožňuje přístup k datům v databázích Oracle, Informix a
Sybase a jednoduchou integrovatelnost do prostředí intranetu. Změny zaznamenaly
i analytické metody, v jejichž seznamu lze nyní na-jít např. shlukovou analýzu,
regresní a rozhodovací stromy, rozhodovací tabulky nebo analýzy evidence.
IBM
Intelligent Miner je vyvážený produkt poskytující různé techniky, které jsou
integrovány do jednoho modulu. Uživatel je navigován pomocí wizardů,
nastavování parametrů je jednoduché. Nabízí nejlepší clustering. Běží v
prostředí AIX, MVS, OS/400, klient pod AIX, OS/2 a Windows NT/95.
K detailnějšímu popisu jednotlivých produktů se vrátíme v některém z dalších
čísel.
8 2671 / ram









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.