Přístupy k budování datového skladu

V posledních letech se stále více setkáváme s novými termíny, jako data warehouse, datawarehousing či data mart. V č


V posledních letech se stále více setkáváme s novými termíny, jako data
warehouse, datawarehousing či data mart. V čísle 18 jsme si stručně vysvětlili
jednotlivé pojmy používané v této oblasti a uvedli si 2 základní teorie chápání
data warehousu. Dnes se podíváme podrobněji na zmiňované definice.
Pod pojmem datawarehousing si můžeme představit procesy spojené s extrakcí dat
z provozních aplikací, jejich ukládání do datového skladu, příp. data martu
(datového tržiště) a monitorování aktivit uživatelů. Lze říci, že
datawarehousing představuje proces tvorby a správy datové architektury určené
pro přístup k datům a jejich analýzu koncovým uživatelem.
Všichni dodavatelé, kteří se v této oblasti pohybují, nabízejí jakási řešení
data warehousu. Při podrobnějším zkoumání zjistíme, že svým přístupem se liší,
avšak vždy je výsledným produktem datový sklad. Rozdílnost v přístupu k
implementaci data warehousu se promítá do vlastní, převážně interní, metodiky.
V další části se proto zaměříme na výklad dvou hlavních přístupů k budování
datových skladů. Představiteli těchto rozdílných přístupů jsou William H.
Inmon, též nazývaný "otcem warehousingu", a Ralph Kimball. Oba lze považovat za
jakési "guru" v této oblasti.
Bill Inmon
William H. (Bill) Inmon je zastáncem centralizovaného data warehousu se
závislými data marty. Data warehouse zde představuje oblast, v níž jsou
soustředěná data jak z podnikových informačních systémů, tak z externích
datových zdrojů. Granularita dat je na nejnižší možné úrovni, tj. jedná se o
tzv. atomární data, což vychází z definice data warehousu podle Billa Inmona.
Na obr. 1 máme zachycen stav, kdy podnikové informační systémy (např.
logistika, objednávky, nákup apod.) jsou zdrojem dat pro data marty (marketing,
finance, prodej apod.). Takto vzniklé data marty jsou některými dodavateli
označovány jako nezávislé, tj. jejich zdrojem dat jsou přímo jednotlivé
produkční aplikace podniku.
Data marty jsou budovány pro podporu činnosti jednotlivých podnikových útvarů.
Praxe ukazuje, že zřídkakdy existuje jednotná definice pro pojmy používané v
podniku, což vede k rozdílnosti údajů získaných např. z modulů Marketing a
Finance. Z toho přímo vyplývá, že data nejsou integrována, uživatelé definují
jiný formát dat ukládaných do jednotlivých data martů apod.
Proto, aby se zamezilo redundancím dat, nejednotnému výkladu pojmů v rámci
podniku a aby se zredukoval počet rozhraní, přišel Bill Inmon se svou koncepcí.
Mezi jednotlivé, nezávislé data marty, vložil databázi, kterou nazýváme data
warehouse. Tím došlo ke snížení počtu rozhraní a k definici pojmů tvořících
znalostní podnikovou bázi.
Data warehouse je místem, kam jsou ukládána podniková data, která "prošla"
procesy ETT (Export Transformace Transport). Tímto došlo k vytvoření jednoho
místa v podniku, které uchovává validní podniková data a poskytuje je pomocí
jednotlivých data martů útvarům podniku. Výsledná architektura data warehousu
dle Inmona je zachycena na obr. 2.
Celopodnikový datový sklad bývá nejčastěji navržen v normalizovaném entitně-
relačním (E/R) schematu. Pojem normalizované E/R schéma lze zjednodušeně
přiblížit tak, že se každý údaj vyskytuje pouze jednou. To znamená, že
aktualizace údaje, např. adresa_klienta, se odehrává pouze na tom místě, kde se
příslušný údaj vyskytuje.
Ralph Kimball
Ralph Kimball prezentoval svůj přístup k budování architektury pro data
warehousing ve své knize "Data Warehouse Lyfecycle Toolkit". Popisuje zde
architekturu, která je nazývána "Data Warehouse BUS Architecture". Ústředními
pojmy této architektury jsou data mart, podnikové dimenze a podniková fakta.
Samozřejmě, že sem také patří techniky návrhu databáze.
Na obrázku 3 je uvedena architektura BUS pro datový sklad odpovídající
Kimballově definici. Podíváme-li se zpětně na obrázek 1, můžeme dojít logicky k
závěru, že se jedná o datový sklad v pojetí Kimballa. Inmon má k tomuto pojetí
určité výhrady, z nichž některé jsou prezentovány ve stati "Building the data
mart or the data warehouse first?" (Tech Topic, Pine Cone Systems, 1996). S
některými námitkami je možné souhlasit, např. redundance dat, větší počet
rozhraní mezi produkčními systémy a data marty. Na druhé straně stojí finanční
náročnost a doba implementace takovéhoto řešení.
Praktické postřehy
V praxi jsem se setkal s řešením vycházejícím z pojetí Kimballa u jedné z
českých bank. Byly zde zbudovány data marty pro potřeby jednotlivých útvarů a
podle svého účelu byly i pojmenovány Marketing, Úvěry a další. Došlo však k
situaci, kdy údaje o úvěrech, získané z data martu Marketing, poskytly odlišný
výsledek pro stejný dotaz nad daty v data martu Úvěry.
Co se stalo? Odpověď na tuto otázku není až tak složitá, jak by se mohlo zdát.
Jedná se o to, že nebyly definovány podnikové dimenze (jimi omezujeme pohled na
data) a podniková fakta (údaje které potřebujeme zobrazit). Právě tyto společné
dimenze a tato fakta tvoří klíčový faktor Kimballova přístupu k budování data
warehousu. Jinými slovy to znamená, že nebyl vytvořen slovník pojmů platící
průřezově v celé bance. Proto mohlo, a také došlo, k tomu, že vykazovaná data
nebyla mezi sebou konzistentní.
Podnikové dimenze
Těmto nekonzistentnostem mají zamezit už zmiňované podnikové dimenze a fakta.
Podniková dimenze je identická ve všech jednotlivých data martech. Jako obvyklý
příklad je uváděn zákazník, produkt, kalendář apod. Lze říci, že datový sklad
nemůže fungovat jako integrující celek, pokud se nedbá na přísné dodržování
správy a založení podnikových dimenzí a faktů.
Podobně jako v případě podnikových dimenzí, platí toto pravidlo i pro podniková
fakta. Ta představují údaje, které musí v každém z data martů vykazovat stejnou
hodnotu pro zadaný dotaz. Za příklad těchto faktů mohou posloužit pojmy jako
zisk, obrat, standardní cena apod.
Velmi významnou a rozsáhlou část data warehousingu představují procesy práce s
daty před jejich uložením do datového skladu. Mohli bychom se bavit o řadě
dalších pojmů a problémů, s nimiž se můžeme setkat při budování data warehousu,
ale to už je námět na příští článek.
Závěrem
Problematika přístupu k budování data warehousu není jednoduchá. Ukazuje se, že
existují různé přístupy, z nichž jsme se zmínili o 2 hlavních směrech. Praxe
ukazuje potřebu mít přehled o těchto způsobech výstavby datových skladů, neboť
jednotlivé dodavatelské firmy na tomto trhu využívají právě jeden nebo druhý
postup.

9 1305 / ramn

William H. Inmon (Bill)
"Podnikový data warehouse obsahuje detailní, atomicky integrovaná historická
data."
Bill Inmon je považován za "otce" data warehousu. Má více jak 26letou praxi v
databázových technologiích a návrzích datových skladů. Publikoval na 36 knih a
více jak 350 článků v hlavních počítačových časopisech. Jeho knihy byly
přeloženy do devíti jazyků. Je zakladatelem počítačových firem Pine Cone
Systems, spoluzakladatelem Prism Solution. Inmon je odpovědný za high-level
návrh produktů Pine Cone. Pracoval jako konzultant pro American Management
Systems a Coopers&Lybrand.
Ralph Kimball
"Data warehouse není nic víc než sjednocení všech konzistentních data martů."
Ralph Kimball byl spolutvůrcem pracovní stanice Xerox Star. Byl viceprezidentem
společnosti Metaphor Computer Systems a zakladatelem společnosti Red Brick
Systems. Získal doktorát na Standfordově univerzitě. Je hlavním zastáncem
dimenzionálního přístupu k návrhu datových skladů. Vyučuje datawarehousový
design a pomáhá klientům se specifickými návrhy architektury pro
datawarehousing. Kimball publikoval své články v magazínu DBMS a v současnosti
píše pro Intelligent Enterprise.









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.