Jak těžit zlato z podnikových dat

Je možné z hory dat vytěžit zlato? Středně velká firma má často k dispozici terabajty dat informace o zákaznících,...


Je možné z hory dat vytěžit zlato? Středně velká firma má často k dispozici
terabajty dat informace o zákaznících, údaje o interakci s dodavateli, záznamy
o vnitřním chodu organizace. Uvnitř této hory dat se skrývají zlatá zrnka,
která mohou pomoci vyřešit obchodní problémy a iniciovat nové strategické
kroky. Dáte-li se do dolování informací ze svých datových zdrojů, budete
schopni lépe analyzovat data, která máte k dispozici.
Díky pokroku ve vývoji hardwaru i možnostech systémů pro správu databází jsou
možnosti technologií data miningu stále zajímavější. Rychle klesající náklady
na diskový úložný prostor přitom umožňují firmám uchovávat čím dál více dat.
Také výkon mikroprocesorů se stále zvyšuje a vývoj v oblasti symetrického
multiprocessingu značně snížil režijní zátěž, která dříve omezovala širší
využití data miningu.
Data mining není zázračný všelék ani náhrada za dobré ekonomické analytiky.
Nepředstavujme si data mining tak, že technologie prostě hlídkuje na serverech,
sleduje data a hledá zajímavé trendy, o nichž pak informuje správce báze dat.
Data mining rozšiřuje postupy tradiční statistické analýzy jakožto proces, při
němž obchodní organizace používá analytické nástroje k odhalování skrytých
vztahů v datových strukturách, které mohou být využity pro ověřování prognóz
navržených pro řešení obchodních problémů.
Data mining nachází široké využití ve velkém počtu oborů. Některé podniky
používají data mining pro řízení interakce se zákazníky. Tom Brady, prezident
společnosti The Destination Group Digital, pomocí technologií pro data mining
vyhledává vhodné nemovitosti a nabízí je k prodeji zákazníkům, kteří si
pronajímají ubytovací kapacity v South Beach na Floridě. "S využitím data
miningu jsme odfiltrovali soubor zajímavých položek na 7 000 vhodných objektů.
Následně jsme vydali informační bulletin, abychom zákazníkům poskytli potřebné
informace."

Zlaté nuggety v datech
Aby byla metoda dolování dat úspěšná, je třeba vnímat její jednotlivé fáze ne
jako lineární sled určitých kroků, nýbrž jako cyklický proces. V každé
strategii data miningu tvoří jeho jádro několik klíčových kroků.
První krok, který na první pohled vypadá jako samozřejmost, spočívá v definici
obchodního problému. Aby mohla být technologie pro data mining využita co
nejefektivněji, je třeba problém co nejpřesněji vymezit. Například
podnikatelský problém definovaný jako "Potřebujeme zvýšit odbyt na východním
pobřeží" přinese horší výsledky než problém popsaný jako "Potřebujeme stanovit,
jak na východním pobřeží zvýšit objem objednávek produktů řady rybářských
potřeb". Stejně tak otázka "Jakým způsobem převedení fondů společnosti do
zahraničí negativně ovlivní konečný výsledek obchodování" přinese jinou odpověď
než otázka "Jaký vliv bude mít převedení fondů společnosti do zahraničí na
udržení zákazníků".
David Lease, hlavní architekt společnosti Wam!Net Government Services,
upozorňuje, že "pokud je otázka v první fázi procesu data miningu příliš
široká, strategie nebude fungovat. Je třeba dotaz dostatečně upřesnit a myslet
přitom na konkrétní cíl."
Nezanedbatelné množství času v procesu data miningu zabere vybudování samotné
databáze pro dolování dat závisí to zejména na tom, v jakém stavu a nakolik
komplexní jsou potřebná data. Pro vybudování databáze musíte nejprve určit, kde
budou data umístěna, tedy jsou-li uložena v jedné či více operačních nebo
transakčních databázích, anebo přímo v datovém skladu.
Jakmile identifikujete příslušné zdroje dat, popište datové elementy, které
jsou k dispozici ve vybraných zdrojích. Bude třeba vytvořit report, který bude
definovat atributy dat, jako například datové typy a rozsah možných
potenciálních hodnot. Potom je potřeba identifikovat, kterou podmnožinu dat je
třeba pro řešení obchodního problému použít.
Po určení příslušné podskupiny dat je obvykle nezbytné prozkoumat jejich
kvalitu a rozhodnout, zda bude nezbytné provádět jejich vyčištění, které je pro
získání přesných výsledků často zcela nezbytné.
Během procesu vyčištění dat jsou kontrolována pole za účelem ověření, zda někde
nechybějí data, zda neexistují pole s nekorektními daty či pole s daty
problematickými z hlediska syntaxe. Někdy prakticky ani není možné vyřešit
všechny problémy spojené s daty, pokud se však alespoň pokusíte data před
zahájením samotného procesu data miningu co nejvíce pročistit, šance na úspěch
při hledání co nejpřesnějšího výsledku se rozhodně zvýší.
Analytikové pak budou muset určit, zda a jaká budou potřebná metadata pro
dolování dat, a následně definovat a provést proces naplnění data mining
databáze odpovídajícími daty. Tento proces by měl být implementován tak, aby
bylo možné jej provádět opakovaně, nelze jej vnímat jako jednorázovou událost,
protože data se rychle a často mění.
Po vybudování data mining databáze je nutné data před započetím modelování
prozkoumat. Analytikové používají pro selekci proměnných a záznamů a pro tvorbu
odvozených proměnných OLAP (On-Line Analytical Processing) aplikace, pomůcky
pro data mining analýzu a další nástroje. Počáteční průzkum dat pomůže určit,
jaký typ modelu se pro data mining nejlépe hodí.

Výběr správného modelu
Pro dolování dat lze použít množství různých typů modelů. Úvodní analýza dat
může zpočátku směřovat k využití jednoho z nich, avšak pouze analýza
využívající několik různých modelů pro řešení daného obchodního problému
zaručí, že se povede najít takový model, který bude přinášet nejspolehlivější
výsledky.
Když je zkonstruován datový model, je nezbytné provést jeho verifikaci ověřit,
že pro vybraný projekt představuje nejlepší možné řešení. Za tímto účelem bude
pravděpodobně nutné vyzkoušet napoprvé proces data miningu na malé podmnožině
dat z databáze. Kontrola míry chybovosti získaných výsledků indikuje, zda model
s dostatečnou přesností řeší obchodní problémy.
Jiný přístup, který pomůže ověřit správnost modelu, spočívá v použití tohoto
modelu proti malé podmnožině aktuálních, "živých" dat, tedy porovnání
skutečných dat s výsledky, které poskytuje model využívající data z data mining
databáze. Tento postup je vhodné aplikovat zejména v případech, kdy některé
elementy (například úrokové sazby) mohou způsobit odlišnost výsledků.
Poté, co je model ověřen a aplikován, je třeba posoudit a vyhodnotit výsledky a
určit, jaké další kroky podniknout, nebo výsledky tohoto modelu využít k
přidání dalších obchodních pravidel k již existujícím skupinám dat. To lze
realizovat formou indikátoru, který je nastaven, pokud určitá skupina dat
odpovídá modelu (například schopnost splácet úvěr). Nezbytné je také zvážit,
jak bude model udržován v průběhu doby vzhledem ke změnám tržního prostředí a
datových elementů.
Výběr nástrojů
Pro úspěšnou realizaci strategie data miningu existuje velké množství řešení. K
dispozici je také mnoho open source nástrojů, které se pro některé uživatele
mohou ve srovnání s komerčními protějšky ukázat jako stejně efektivní. Ať už si
vyberete jakékoliv nástroje, klíčové je implementovat data mining jako neustále
probíhající proces.

Provádíte skutečně data mining?
Často dochází k nejasnostem v tom, jaký je vztah data miningu k principům
datového skladu (data warehousing), datového tržiště (data mart) a OLAP
nástrojům. "OLAP se zaměřuje na to, co se stalo v minulosti, neboť poskytuje
pohled na již existující tabulky dat," vysvětluje David Smith, produktový
manažer společnosti Insight. "Pouze data mining využívá data pro tvorbu
predikcí, tedy pro odhadování, co se stane v budoucnosti."
Data mining není náhradou, nýbrž doplňkem (či nadstavbou) systémů a
technologií, jako jsou datové sklady a OLAP. Například uživatelé, kteří
provozují datové sklady, již pravděpodobně disponují pročištěnými daty.
Extrahovat z nich pak podmnožinu dat do datového tržiště a následně je využít
pro mining pak představuje celkem jednoduchý úkol.
Mnoho obchodních analytiků již k analýze dat používá OLAP systémů. Pokud
využijete tradiční nástroje pro dotazování a tvorbu reportů, uvidíte, co vaše
data obsahují. Nástroje OLAP analytikům umožňují jít ještě dále a porozumět
výsledkům určitých vztahů výstupních dat. Příkladem této funkce může být
rozhodování o schopnosti podniku splácet úvěr, které je založené na analýze
poměru příjmu vůči pohledávkám. Tento proces však vyžaduje, aby analytikové
nejprve vypracovali teorii a nástrojů OLAP pak použili pro zadávání dotazů,
která jejich teorii potvrdí, nebo vyvrátí.
Naproti tomu data mining při odkrývaní vztahů v datové struktuře nespoléhá
pouze na předem stanovené hypotézy. K identifikaci vztahů, které by se daly
využít při řešení obchodních problémů, používá samotná data. Použití data
miningu například při rozhodování o poskytnutí úvěru společnosti dokáže
propojit údaje o zisku a pohledávkách, jako vedlejší činitel při rozhodování
pak může přispět například také typická délka pracovního poměru zaměstnanců.
Systém OLAP pak může být využit pro tvorbu teorií o účincích výsledků data
miningu (například úvěruschopnosti firem) na klíčové prvky další činnosti
podniku. Technologie OLAP mohou také analytikům pomoci prozkoumat podniková
data a lépe jim porozumět ještě před zahájením samotného procesu data miningu.
V tomto ohledu mohou OLAP a data mining fungovat ve vzájemné součinnosti.









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.