Základní pojmy a teorie v oblasti datových skladů

Rychlost, flexibilita a uplatnění prozíravosti při plánování jsou prioritními charakteristikami určujícími úspěš...


Rychlost, flexibilita a uplatnění prozíravosti při plánování jsou prioritními
charakteristikami určujícími úspěšnou společnost. Podniky 90. let by proto měly
mít implementovaný management procesů pro monitorování a controlling organizace.
Decentralizace procesu rozhodování je potřebná např. pro analýzu reakcí na
konkurenční změny. Ústřední složkou, podporující rovnováhu mezi kontrolou a
flexibilitou, jsou sdílené znalosti. Znalosti, získané jak z externích tak i
interních datových zdrojů, konvertují k informacím, které mohou být snadno
interpretovatelné.
Znalostní báze tvoří intelektuální kapitál podniku, který organizace
nepřetržitě transformuje do své vědomostní báze v kontextu podnikových
strategií. Informační systém hraje významnou roli při tvorbě a distribuci
znalostí. Speciálně data warehouse (datový sklad), jako centrální archiv
předmětově orientovaných originálních dat z podnikových transakčních systémů a
externích datových zdrojů, se stává kritickým informačním systémem podniku.
Datový sklad je tedy místem, z něhož lidé čerpají informace
pro využití své znalostní báze, tj. využívají přístupu k potřebným datům. V
každém podniku se nahromadilo značné množství dat, která jsou uložena v
produkčních systémech (tzv. OLTP systémech), případně se získávají z externích
datových zdrojů. Takto získaná data poté slouží k řešení dotazů kladených
managementem společnosti. Činnost jednotlivých odborných útvarů podniku,
realizujících požadavky jednotlivých úrovní vedení společnosti, můžeme nazvat
jako proces "naslouchání potřebám managementu".
Aby odpovědi na dotazy byly korektní a včasné, je nutné dodržet určité
požadavky na vlastnosti datového skladu, jako např.: společný přístup k
podnikovým datům,
k disposici jsou konsistentní data,
data warehouse nejsou jenom data, ale také množina nástrojů pro dotazování,
analýzu a současné informace,
data warehouse je místem, kde "publikujeme" použitá data,
kvalita dat v data warehouse je řízena podnikovým BPR.
Datový sklad můžeme chápat jako "srdce" manažerských informačních systémů,
které jsou označovány jako EIS (Executive Infomation System) a DSS (Decision
Support System). Aby aplikace typu EIS a DSS mohly být využívány, je potřeba
jednak z vlastních tak i externích datových zdrojů vytvořit integrovanou a
validovanou datovou základnu, kterou je právě data warehouse. Úspěšná
implementace datového skladu má významný efekt v procesu podporování kultury
sdílení podnikových znalostí.
Architektura datového skladu
Datový sklad představuje ucelenou architekturu jednotlivých komponent, jako
data warehouse, data mart (závislý, nezávislý), operation data store
(operativní datové úložiště) a staging area (záchytná oblast). K těmto pojmů je
potřeba přiřadit pojmy extrakce dat, transformace dat a transport dat. Uvedené
procesy souhrnně označujeme jako ETT (Export-Transform-Transport) procesy. Tyto
procesy jsou v obrázku zachyceny šipkami.
Na obrázku je uvedena architektura datového skladu jako celku, který je možné
použít pro návrh vlastní architektury. Proto, abychom jej mohli použít, je
potřebné definovat pojmy, které jsou ve schématu použity. Takto pojatá
"šablona" architektury data warehousu dává prostor pro návrh vlastní
architektury.
Zdrojový systém (OLTP)
OLTP systémy (produkční) jsou systémy jejichž hlavní funkcí je uchovávání
transakčních informací o procesech podniku. Hlavní prioritou těchto systémů je
aktualizace dat, zadávání nových transakcí a jejich přístupnost. Předpokládáme,
že zdrojové systémy udržují data s malou historií a že reportování z
produkčních systémů je obtížné. Dále předpokládáme, že každý zdrojový systém je
přirozeným zdrojem, odkud lze získat s malými nebo žádnými investicemi základní
dimenze, jako produkt, zákazník, lokalita, kalendář a další.
Data Staging Area (DSA)
Data Staging Area (neboli záchytná oblast) zahrnuje jak vlastní ukládání dat,
tak i definovanou množinu procesů čištění, transformace, kombinování,
odstraňování duplicit, archivaci a přípravu zdrojových dat pro jejich použití v
data warehousu. DSA je cokoliv mezi zdrojovými systémy (On-Line Transactional
Processing, OLTP) a data warehousem, příp. nezávislým data martem. DSA je
zároveň oblastí zahrnující jednoduché aktivity třídění a sekvenčních procesů.
V praxi se můžeme setkat s tím, že tato oblast je budována v relační
technologii a extrahovaná data jsou ukládána do relační databáze (RDBMS), která
je navržena v normalizované formě. Pro tuto oblast však platí určitá omezení
vyplývající ze skutečnosti, že není přístupná pro dotazování.
Data Mart
Data Mart (nebo také datové tržiště) představuje koherentní podmnožinu
podnikových aktivit, které jsou určeny jednotlivým útvarům (oddělením)
společnosti, příp. analytikům. V rámci architektury data warehousu rozlišujeme
dva typy data martů, které jsou znázorněny na obrázku:
-závislý data mart,
-nezávislý data mart.
Závislý data mart je v rámci architektury data warehousu umisťován až za
vlastní data warehouse (např. celopodnikový). Poslání závislého data martu je
shodné s námi popsanou vlastností data martu. Rozdílný název vyplývá ze způsobu
výstavby a aktualizace dat. Jejich zdrojem je právě data warehouse.
Nezávislý data mart je data martem, který příslušná data získává extrakcí přímo
z produkčních systémů podniku. Pojem nezávislý data mart úzce souvisí s
výstavbou data warehouse architektury. Je nutno podotknout, že některé
dodavatelské společnosti nabízejí data warehousová řešení, přičemž se nakonec
ukazuje, že tyto společnosti de facto budují právě nezávislý data mart.
Operation Data Store (ODS)
Operativní datový sklad je, podobně jako data warehouse, možné chápat rozličně.
V našem případě budeme chápat ODS jako integrovanou databázi operativních dat s
krátkou historií. V data warehousu jsou naopak uložena data s histiorií až
několika let.
Závěrem
Cílem článku bylo představit a vyložit stavební prvky architektury data
warehouse. Ve stručnosti jsme se zmínili, že existují rozdílné přístupy k data
warehousingu. Jednotliví dodavatelé pro výstavbu DW používají některý z těchto
přístupů. Na základě zvoleného přístupu (Inmon, Kimball) vytvořily jednotlivé
firmy své interní metodiky. Následující článek se proto bude věnovat hodnocení
přístupů Kimballa a Inmona k budování datových skladů.
9 1006 / ramn
Data Warehouse
Existuje několik rozdílných definic data warehousu definovali ho např. Ralph
Kimball, Bill Inmon a další. Ralph Kimball popisuje DW jako sjednocení všech
konsistetních data martů.
Naproti tomu Bill Inmon chápe data warehouse jako datové úložiště, které je
odděleno od OLTP systémů podniku a je využíváno pro dotazování uživateli.
Představuje integrovanou datovou základnu standardního podnikového modelu,
obsahuje data s určitou časovou peridicitou a je předmětově orientovaný
(předmětem je např. "Zákazník"). Dalším rysem je stabilita data jsou
aktualizována periodicky, nikoliv na individuální bázi a datový sklad je
přístupný uživateli i s omezenými počítačovými znalostmi.
Podívejme se na tyto pojmy trochu podrobněji. Pro Ralpha Kimballa představuje
výstavba data warehousu tvorbu jednotlivých data martů. To vede k tomu, že jsou
určitá data v multiplicitách, ať už z pohledu faktových nebo dimensionálních
tabulek. Bill Inmon definuje data warehouse jako podnikový datový sklad, který
obsahuje jak detailní, tak i "slabě" agregovaná data uložená v normalizovaném
RDBMS, kterým může být např. Oracle, Red Brick, Informix, IBM DB/2, NCR
Teradata a další.
V tomto místě se dostáváme do kritického místa pro rozhodování jakým způsobem
budeme budovat architekturu podnikového data warehousu. Je potřeba si zvolit
jednu z uvedených definic a na jejím základě poté definovat ostatní komponenty
prostředí datového skladu.
Vzhledem k tomu, že dodavatelé konkrétních řešení DW pracují s oběma definicemi
datového skladu, budeme se v dalších pokračováních zabývat oběma přístupy. Oba
přístupy mají také dopad do způsobu výstavby kompletní architektury DW včetně
data martů. Existují 2 základní přístupy k budování datového skladu společně s
data marty, a to "Bottom to Up" a "Top to Down". Jak je patrno, jedná se o
případ, kdy vycházíme z definice DW dle Billa Inmona.
Tak například firmy SAS Institute a Oracle chápou data warehouse ve smyslu
Ralpha Kimballa. Tomu napovídá i nástroj pro výstavbu data mart (Oracle "Data
Mart Suit"). Oproti tomu firma NCR chápe data warehouse v hrubých rysech, dle
definice Billa Inmona.









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.