Datové sklady a jejich architektura

Do vědomí informatiků a dnes i do vědomí řady běžných uživatelů informačních technologií se dere řada pojmů, j...


Do vědomí informatiků a dnes i do vědomí řady běžných uživatelů informačních
technologií se dere řada pojmů, jejichž přesnější vymezení je předmětem
teoretických i praktických diskusí. Řada z těchto pojmů má zpočátku charakter
novosti, marketingového hesla a často je jejich cílem upoutat a uplatnit na
trhu novou technologii, či nástroj. U větších informačních systémů se již
několik let setkáváme se třemi pojmy, které postupně nabývají hmatatelnějšího
obsahu a stávají se obecně uznávanými. Jsou to pojmy EIS (Executive Information
System), DATA WAREHOUSE a DATA MINING. Pro všechny tyto 3 pojmy je společné, že
se za nimi skrývá snaha mnohem výrazněji podpořit rozhodovací procesy manažerů
(manažerské aplikace). O tento cíl se usilovalo sice i v minulých desetiletích
využívání IT, ale výsledky (tj. reálná podpora rozhodovacích činností a aktivní
zapojení manažerů) byly nedostatečné. Poslední desetiletí otevřelo nové
možnosti pro podporu rozhodování, k čemuž přispěl vysoký nárůst výkonů počítačů
i všech typů periferií, schopnost vytvářet stále větší datové základny, nové
způsoby ukládání dat a stále rychlejší přístupy k nim. Budeme umět tyto
možnosti opravdu využít pro manažery?
Od EIS k DATA WAREHOUSINGU
Na počátku 90. let se začal výrazněji používat pojem EIS, který vyjadřoval
stav, kdy na základě specificky připravených dat je podporováno rozhodování na
úrovni vrcholového managementu (tzv. strategické rozhodování). Při vzniku
nástrojů EIS bylo výrazně zdůrazňováno, že oproti tradičním transakčním
informačním systémům, které mohou podpořit spíše operativní a částečně i
taktické rozhodování, je nutno vytvořit "jinak upravenou" datovou základnu pro
vrcholové rozhodování. Postupně se vykrystalizovala představa ponechat pro
rutinní rozhodování tradiční datové základny a vedle ní vytvořit odvozenou
datovou základnu pro vrcholové rozhodování (bez zbytečných detailů, s řadou
agregací, odvozených dat, odhadů apod.). Později se ukázalo, že specificky
připravenou datovou základnu pro rozhodování nepotřebují zdaleka pouze
vrcholoví manažeři, ale řídící pracovníci na všech úrovních řízení. Tak jsme se
dostali do situace, kdy vykrystalizoval pojem "DATAWAREHOUSE" neboli "Datový
sklad".
Malý pohled zpět
Při zvýrazňování úlohy a potřeby datových skladů sehrály roli 2 zajímavé
skutečnosti.
Tisíce informatiků byly "zjednodušeně" vychovávány v přesvědčení, že v
klasických datových základnách se ukládají pouze či převážně primární data a
všechna odvozená data lze z těchto primárních snadno, rychle a dle okamžité
potřeby odvodit (příslušným algoritmem). Také klasické datové modely (ERA)
obsahují hlavně primární data a odvozená data jsou na periferii zájmu. Tento
"zjednodušující pohled" příliš nepřipouští, že často už nelze s odstupem času
odvození dat provést, bývá příliš náročné, musí se pracně několikrát opakovat
apod. Proti tomuto pohledu vystupuje jako protipól nový fenomén "datový sklad";
ve skladu jsou vždy data odvozená, různě agregovaná a vhodně předpřipravená pro
hlavní cíl: rychle podpořit rozhodovací rutiny manažerů.
Představu složení dat v datawarehousu ukazuje obr. 1.
Druhou skutečností je, že tradiční datové základny odrážejí často "právě platná
provozní data" v organizaci. Vše minulé (stará jména zaměstnanců, staré platy,
staré normy výroby, zrušené organizační jednotky atd.) se přepisuje a staré se
odhazuje do "bezedného odpadkového koše" a prakticky mizí. Může se zdát, že
řada kvalitních aplikačních systémů nabízí možnosti sledování vybraných prvků v
čase, ale zpracování těchto historických dat je často málo podpořeno návaznými
analytickými postupy. U datových skladů je pro potřeby rozhodování často
využíváno časových řad, kdy je zapotřebí držet dlouhodobě minulá data či jejich
agregáty a časová dimenze je jednou z hlavních dimenzí každého datového skladu.
Manažeři obvykle nepotřebují pro vyšší typy rozhodování aktuální provozní data,
ale spíše odvozená a relativně statická data z datového skladu.
Fenomén zvaný "datový sklad"
Zjednodušeně řešeno, datový sklad umožňuje vhodně sbírat data z různých zdrojů,
vhodně je uspořádávat a na tomto základě poskytovat informace pro rozhodování
manažerů. Z praktického hlediska je to rozsáhlá soustava nástrojů (programů)
umožňujících extrakce dat z provozních a jiných databází, převody a
standardizaci dat, jejich odvozování a vyhodnocování, rychlé výběry dat a
perfektní prezentaci pro různé typy rozhodování.
Koncept datového skladu formuloval již koncem 80. let William Inmon, který
definuje datový sklad jako specifickou databázi, která je organizována tak, aby
sloužila jako "neutrální datový prostor".
Ve větších institucích je provozováno obvykle více informačních projektů.
Existuje zde proto i více produkčních databází, kte-ré jsou koncipovány pro
potřeby konkrétního projektu, jsou poplatny době svého vzniku a konkrétnímu
databázovému prostředí a proto jsou i obtížně propojitelné. Produkční databáze
sloužily dobře pro vybrané oblasti řízení, pro širší okolí však byly obvykle
málo přístupné a mezi sebou nekonzistentní. Situaci názorně ukazuje obr. 2.
Datový sklad však není v žádném případě kopií produkčních databází. Neutrální
datový sklad prezentuje spíše vybraná data, dává je do standardní podoby,
odstiňuje specifika jednotlivých produkčních databází a dále pracuje již v
homogenním prostředí "neutrálního datového skladu".
Produkční databáze jsou orientovány spíše na relativně jednoduché a opakované
transakční zpracování (pro operativní řízení) a tomu je přizpůsobeno i vnitřní
uspořádání dat. Datový sklad je jiná databáze, vnitřně uspořádaná tak, aby
uměla rychle a kvalitně uspokojovat rozhodovací postupy manažerů.
Tři základní komponenty datového skladu
Nejčastěji se setkáváme se 3 komponentami, které tvoří komplex datového skladu.
Grafické znázornění těchto komponent a vztahy mezi nimi jsou zřejmé z obr. 3.
U produktů, které se deklarují jako podpora datového skladu, se vždy tyto 3
základní komponen-ty vyskytují. Rozbor jednotlivých komponent je uveden v
následujících odstavcích.
1. komponenta:
Import a příprava dat
Z obr. 3 je patrné, že jednotlivé provozní databáze jsou obvykle základním
zdrojem dat v datovém skladu; poslední ikona naznačuje, že existují i jiné
zdroje (cizí, ruční, Internet atd.).
Představa, že ve střední či větší organizaci jsou provozovány všechny aplikace
(databáze) v jednotném počítačovém prostředí, je v praxi spíše nedostižnou vizí.
Uveďme si příklad z jedné naší banky: je zde provozován nosný transakční
bankovní systém pro styk s klienty, a dále řada systémů pro specifické účely
pro podporu mezinárodního platebního styku, pro podporu obchodování na burze,
pro podporu úvěrových operací, pro podporu obchodování na Internetu, pro
podporu řízení bankovních rizik a samozřejmě vnitřní personální systém a řada
dalších. Není třeba zdůrazňovat, že tato řada aplikací pochází od různých
dodavatelů, je realizována různými technologiemi, pracuje v odlišném
počítačovém a databázovém prostředí. Spíše je nutno zdůraznit, že tato
různorodost nezajímá manažery, kteří požadují podporu svých rozhodnutí.
Prakticky každá instituce se potýká s heterogenností dat, které patří do
různých provozních databází. Na tuto výzvu odpovídá koncept DATAWAREHOUSU tím,
že přináší obsáhlou soustavu nástrojů umožňujících extrakce dat z tradičních
provozních databází a jejich vhodnou standardizaci do společného neutrálního
skladu. Datový sklad se obvykle opírá o jednotně formátovaná a jednotně
uspořádaná data. Proto se při vstupu dat realizují tyto činnosti:
lStandardizace dat (převod do shodného formátu).
lČištění (filtrace) dat odstranění nekompletních záznamů, odstranění
nevyhovujících záznamů.
lOpatření dat časovým údajem (tzv. časové rozlišení).
lU vyšších nástrojů se lze setkat i se systémem detekce změn v provozních
databázích tak, že u významných dat je vyvolávána (v určeném intervalu) i
aktualizace dat v datovém skladu.
Zdroje dat pro datový sklad můžeme klasifikovat takto:
lProvozní databáze data extrahovaná z těchto databází jsou jednoznačně hlavním
zdrojem dat v datovém skladu. Extrahovaná data však nezůstávají ve své původní
podobě, ale jsou agregována, odvozována z nich jiná data a ta teprve ukládána v
datovém skladu.
lMinulá provozní data jedná se o data, která aktualizací provozních databází
mizí a kterých je zapotřebí pro časové analýzy
lRučně vkládaná data jedná se hlavně o data o budoucnosti (odhady vývoje,
trendy, budoucí limity apod.). Dnes jsou tato data udržována často v osobních
databázích realizovaných např. v ACCESS apod.
lData z vnějších zdrojů a institucí (předpisy, trh s akciemi, úrokové sazby,
data o konkurenci atd.). V současnosti prudce narůstá objem dat získávaných
prostřednictvím INTERNETU.
Import a příprava dat do datového skladu z provozních databází probíhá obvykle
v pravidelných časových intervalech.
2. komponenta:
Vlastní datový sklad
a) Rozdíly datového skladu od tradičních datových základen
lDatový sklad obsahuje vnitřně standardizovaná data, se kterými lze snadno a
rychle manipulovat (vybírat, odvozovat, měnit pohledy na data apod.).
lDatový sklad obsahuje jen málo primárních dat, a naopak z větší části jsou to
data agregovaná, odvozená či jinak vhodně předpřipravená a předem připraveny
jsou i přístupové cesty k nim (indexy).
lVelká část dat je časově označena a připravena pro realizaci časových analýz.
lPředpokládá se rychlý výběr dat pro rozhodovací činnosti a tomuto výběru je
přizpůsobena logická i fyzická struktura databáze, která je jiná než u
tradičních transakčních databází.
lData Warehouse neslouží k provádění transakcí, ale k podpoře rozhodovacích
činností, proto řada principů nutných u klasických databází jako např.
lockování či konkurentnost je zbytečných. Manažeři většinou potřebují data
pouze číst a nikoliv aktualizovat a proto si prakticky nekonkurují.
Výše uvedené rozdíly napovídají, že pro potřeby datových skladů se ukázaly jako
nedostačující možnosti stávajících databází relačního typu a byly intenzivně
hledány nové způsoby uspořádání dat. Tyto nové způsoby jsou spojovány s pojmem
multidimenzionální databáze.
Pro představu, co vše se realizuje v této druhé komponentě, je vhodné ukázat,
co se definuje při popisu datového skladu v tzv. REPOSITORY.
V této vrstvě najdeme:
lpopis datového skladu pomocí slovníku dat a schémat skladu,
ldefinice odvozování dat (definování součtů, algoritmy pro odvození dat),
ldefinice transformací a převodů dat,
ldefinice členění a granulity dat,
ldefinice předdefinovaných dotazů a sestav,
ldefinice indexů urychlujících přístup k datům,
lpodpora systémových akcí pro datový sklad (archivace, obnova, replikace,
bezpečnost, přístupová práva).
Vyjmenované definice vyjadřují komplexnost, kterou by datový sklad měl
garantovat. Konkrétní realizace od různých dodavatelů jsou však různě bohaté a
často jsou "silné" pouze v některých aspektech.
b) Vnitřní organizace datového skladu a navrhování datového skladu
S nástupem multidimenzionálních databází se řeší problémy spojené s udržováním
více dimenzí v databázi, problémy spojené s ukládáním tzv. řídkých dat, s
využitím různých kompresních algoritmů a návrh celkové koncepce uspořádání MDB
(multidimenzionálních databází).
Jednou z možností při tvorbě multidimenzionálních databází je využití tzv.
společné hyperkostky, ve které jsou uloženy všechny předpokládané dimenze. S
růstem sledovaných dimenzí však exponenciálně narůstá objem databáze. Takováto
hyperkostka je proto obrovsky náročná na paměťové prostory a je výrazně
neúsporná. Je proto realizovatelná v případech menších aplikací a u menších
organizací.
Druhý, více používaný způsob, je realizován pomocí tzv. "multikostek", kdy se
pro ukládání multidimenzionálních dat používá více fyzických datových kostek.
Jedna multikostka je obvykle spojena s jednou dimenzí pohledu na data, použití
více multikostek zamezuje neúměrné "řídkosti" databáze. Realizaci datového
skladu pomocí multikostek výstižně ukazuje obr. 4.
U tradičních transakčních databází je možno při navrhování datového modelu
využít osvědčených metodik a nástrojů CASE. Jak však modelovat
multidimenzionalitu?
V této oblasti se objevují nové nástroje, které se postupně prosazují do praxe;
mezi tyto nástroje lze řadit schémata zvaná "Snowflake". V těchto schématech
jsou vedle tabulek s fakty definovány i tabulky definující jednotlivé dimenze
(např. podnik-závod-středisko-dílna nebo rok-čtvrtletí-měsíc-den) a tzv.
prohledávací tabulky.
Z předchozího výkladu jasně plyne, že s datovými sklady přicházejí nové způsoby
navrhování a uspořádání dat, které se teprve postupně prosazují v praxi.
3. komponenta:
Využití a prezentace dat
Tato komponenta je směrována na koncového uživatele datového skladu (manažera).
Z předchozích 2 komponent máme data vhodně standardizována, předzpracována a
uspořádána a můžeme je proto využít pro podporu rychle se měnících požadavků
manažerů při rozhodování.
Třetí komponenta obsahuje řadu nástrojů, které slouží pro datové analýzy a
rozbory. Rozsahem a kvalitou nástrojů se však komerčně nabízené produkty mohou
výrazně lišit. Uveďme proto obvykle používané nástroje:
lnástroje pro předdefinované sestavy,
lnástroje pro rychlé ad-hoc dotazování,
lsložitější analytické a statistické nástroje,
lnástroje typu "data mining".
Poněkud podrobněji specifikuje nástroje prezentace ve své knize Data
Warehousing R. Mattison:
ljednoduché AD-HOC dotazování,
ltradiční jednoduché dotazovací jazyky (QBE, QMF, MS-Query),
ldotazovací možnosti v dalších produktech osobní informatiky (EXCEL,ACCESS),
ltradiční generátory výstupních sestav,
lsofistikované DATA_MINI NG aplikace,
lnástroje s podporou vizualizace,
lrozšířené možnosti tradičních statisticko-analytických balíků,
lmožnosti "surfování" v datovém skladu,
lvyužití simulačních modelů,
lvyužití prvků umělé inteligence,
lspecifické nástroje pro přístupy do datového skladu využívající výhod
konkrétního uspořádání datového skladu.
Od datových skladů k datovému tržišti
Základní myšlenky datových skladů se ukázaly jako velmi inspirativní. Neznalý
pozorovatel by očekával, že desítky institucí budou urychleně budovat datové
velkosklady a využijí je pro zkvalitnění rozhodovacích rutin. Budování datových
velkoskladů však vedle nepopiratelných přínosů vyvolává v praxi též řadu
obtíží, mezi něž patří:
lsložitý návrh centrálního datového skladu tak, aby vyhovoval stovkám a spíše
tisícům různorodých požadavků manažerů (potřeba většího počtu dimenzí),
lnáročnost při praktické realizaci datových skladů (nové způsoby modelování
databáze, problémy s řešením řídkých matic, vysoké nároky na paměťová média
atd).
Na základě těchto zkušeností se dostává do popředí pojem "Data Mart" (datové
tržiště). Jedná se o datový sklad pokrývající potřeby jedné oblasti řízení či
určitého okruhu uživatelů-manažerů. Oproti budování centrálního datového
skladu, kde se předpokládá spíše postup shora-dolů, se v tomto případě
postupuje zdola-nahoru, tj. buduje se více datových skladů pro různé účely.
Objem dat v dílčích datových skladech, tj. v datových tržištích, je přitom lépe
zvládnutelný a přitom jsou zachovány základní principy práce s datovými sklady
(extrakce dat, zajištění konzistence a jednotného formátu dat, vytváření řady
dimenzí, možnost agregací a odvozování dat a nástroje pro prezentaci výsledků).
Osobně se domnívám, že postup zdola-nahoru je v našich podmínkách nadějnější,
protože zpočátku vyžaduje zvládnutí jen nejjednodušších nástrojů pro
rozhodování (dotazovací jazyky QBE, dotazovací možnosti produktů typu EXCEL,
ACCESS).
Teprve potom se přistupuje k návrhu a využívání datových skladů na úrovni Data
Martu a po těchto zkušenostech je snadnější pustit se do integrovaného Data
Warehousu. Tam, kde se nenaučili nejdřív nižší stupně podpory rozhodování, je
pravděpodobné, že nevyužijí možností a výhod, které koncepce datového skladu
bezesporu přináší.

8 0850 / ram









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.