Zbavte se nánosů špíny aneb Čištění dat

DEFINICE Čištění dat je procesem, při kterém jsou korigovány nebo mazány jednotlivé části pořízených dat, a to ...


DEFINICE
Čištění dat je procesem, při kterém jsou korigovány nebo mazány jednotlivé
části pořízených dat, a to ty, které jsou nesprávné, neúplné nebo duplikované.
Tento proces probíhá předtím, než jsou shromážděná data předávána do datového
skladu nebo do dalších aplikací.
Čištění dat lze realizovat ručně nebo prostřednictvím různých softwarových
nástrojů.
Proč je třeba čistit data, lze jednoduše ozřejmit na příkladu otázky
následujícího znění: Jsou Michal Malíček bydlící v Křížkovského ulici na Praze
3 v České republice a Michael Malicek s bydlištěm v Křížovského ul. na Praze
III v Československu ty samé osoby? Asi byste řekli, že s největší
pravděpodobností jsou. Ale počítač bude s těmito údaji nakládat tak, jako by
šlo o dva zcela odlišné lidi. Tedy pokud nebudete používat nějaký
specializovaný software.
Lidské oko a mysl rozezná, že rozdíly mezi dvěma sadami datových záznamů jsou
pravděpodobně jen výsledkem nějaké chyby nebo opomenutí při zadávání vstupních
dat. Oprava nebo mazání nekonzistentních, nesprávných nebo nekompletních dat je
činností, která se označuje jako čištění dat (v angličtině se používá termínů
data scrubbing nebo data cleansing).

Růst problémů
Nekorigovaná data jsou problémem od té doby, co jsou k jejich zpracování
používány počítače nebo možná už od doby, kdy se lidé začali pokoušet o sběr a
analýzu větších objemů informací. Pokud se na vstupu do počítače vyskytují
nekvalitní data, pak na výstupu nelze očekávat kvalitní výsledky. Z odpadků na
vstupu budou zase jen odpadky na výstupu.
Problém hygieny dat nabyl na důležitosti s tím, jak stále více společností
implementuje komplexní systémy pro správu vztahů se zákazníky (customer
relationship management, CRM) a staví datové sklady, které shromažďují a spolu
integrují data z různých zdrojů. Investice do těchto často finančně náročných
systémů by měla být vyvážena dalšími investicemi právě do čištění dat.
Bez pročištění dat čelí IT oddělení firem smutné perspektivě integrace vadných
nebo nekompletních částí dat z řady různých databází. Jeden kousek vadných dat
může na první pohled vypadat jako zanedbatelný problém, ale když tento
triviální problém vynásobíte tisíci nebo miliony kousků vadných, duplikovaných
nebo nekonzistentních dat, stává se to slušným základem nezměrného chaosu.

Zdroje špinavých dat
Při svém výzkumu zaměřeném na implementaci datových skladů v podnicích odhalila
v roce 2001 společnost Cutter Consortium následující zdroje tzv. špinavých,
tedy vadných, duplikovaných nebo nekonzistentních dat:
Špatné vkládání dat, které zahrnuje překlepy, prohození písmen a různé přepisy
stejně znějících slov.
Chybějící data v databázových polích, vzniklých na základě lajdáckého přepisu z
dotazníků nebo jako důsledek neúplně vyplněných dotazníků.
Chybějící podnikové nebo průmyslové standardy pro kódování dat, což je velkým
problémem například v oblasti zdravotní péče.
Vícenásobné databáze roztroušené po různých částech organizace, v nichž jsou
vždy data strukturována podle aktuální (a s ostatními nekompatibilní) potřeby
oddělení.
Starší systémy, které obsahují špatně dokumentovaná nebo zastaralá data.
Jak vyplývá z uvedeného seznamu, čištění dat se zaměřuje na více než jen na
eliminování chyb a redundance. Cílem je také vnést konzistenci do různých sad
dat, které mohly být vytvořeny na základě odlišných, navzájem nekompatibilních
obchodních pravidel. Pokud jsou takto sebraná data bez pročištění vložena do
datového skladu, který má sloužit k uspokojování různých potřeb oddělení v celé
organizaci, není výsledek nijak zvlášť užitečný.

Ruční čištění
V prvních dnech počítačového věku bylo čištění dat většinou prováděno ručně. A
když se na něm podíleli lidé, kteří nebyli příliš bystří (a při procházení
tisíců záznamů i bystří být mohli), nalezení, oprava nebo vymazání
nekorektních, nekompletních nebo duplicitních dat často vedla ke vzniku nových
chyb. Proces čištění se poměrně značně prodražoval, případně se ušetřilo na
úkor kvality nezanedbatelné množství chybných údajů v databázích zůstávalo.

Automatický úklid
Nyní jsou k dispozici specializované softwarové nástroje, které používají k
procházení dat sofistikované algoritmy, díky nimž data rozdělují,
standardizují, opravují, porovnávají a konsolidují. Jejich funkce se pohybují
od prostého čištění a rozšiřování jednoduchých sad dat k porovnávání, korekcím
a konsolidování databázových položek z různých databází i souborových systémů.
Mnohé z těchto nástrojů jsou schopny najít vztah mezi sobě odpovídajícími
datovými položkami a použít těchto vztahů k rozšíření základních dat nebo k
jejich opravě. Například data o zákaznících v systému CRM mohou být porovnávána
s dalšími informačními zdroji o zákaznících, jako třeba s databází obsahující
informace o příjmech domácností i další demografické údaje.

Možnosti voleb
Společnosti, které chtějí použít některý ze specializovaných nástrojů pro
čištění dat, ho mohou získat z několika zdrojů. Podle již zmíněné studie
společnosti Cutter Consortium však tyto firmy nejčastěji používají vlastní
softwarové produkty tedy software vytvořený přímo ve vlastní firmě vlastními
programátory. Z dotazovaných společností jich problém čištění dat řešilo tímto
způsobem 31 %.
Společnosti, které se rozhodnou koupit nějaký již hotový nástroj, mají řadu
možností. Odpovídající produkty nabízejí dodavatelé jako Oracle, Ascential
Software nebo Group 1 Software tito tři podle uvedeného průzkumu vedou peloton
výrobců, každý s tržním podílem 8 %. Další výrobci, jako např. PeopleSoft, SAS
Institute a Informatica, zůstali o několik procentních bodů pozadu. Hlavní
výrobci produktů pro tvorbu datových skladů a systémů BI (Business
Intelligence) zahrnují funkcionalitu pro čištění dat do svých produktů.
Firmy jako Acxiom nebo Sagent Technology nabízejí on-line čištění dat a jejich
rozšiřování jako službu. V jejím rámci dochází k čištění dat a k dodávání
dalších informací záznam po záznamu prostřednictvím internetu. Zákazníci tak
nemusejí věnovat čas výběru vhodných nástrojů, na druhou stranu ale musejí
pustit svá data mimo vlastní firmu.

Nejen čistota
Ačkoli je datová hygiena nezbytná pro získání užitečných informací z jakékoli
aplikace, neměla by být podle analytiků zaměřených na otázky spojené s BI
pletena dohromady s dalším důležitým parametrem, kterým je kvalita dat. Kvalita
dat totiž ve skutečnosti nemá s jejich čistotou nebo znečištěností žádný přímo
úměrný vztah. Tam jde jen o to, zda jsou data dobrá (platná), anebo špatná
(neplatná). Platnost dat je měřítkem relevance dat pro zpracování. Měření této
relevance je tedy závislé na účelu, pro který jsou data využita. V ideálním
případě jsou vyčištěná data prosta všech chyb a jsou konzistentní. Některý
čisticí software pro ně při zpracování dokonce určí, zda (a jak moc) jsou
užitečná k nějakému účelu. V praxi se samozřejmě nikdy nic nenachází v ideálním
stavu, jde ale o to, se k ideálu alespoň přiblížit. Čištění dat je nezbytným
předpokladem pro jakoukoli další IT operaci, jde ale nicméně pouze o první
krok.









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.