Architektura DW dle Billa Inmona

Základním vstupem pro plné využití data warehousu je pochopení toho, co data warehouse představuje. To znamená schopno...


Základním vstupem pro plné využití data warehousu je pochopení toho, co data
warehouse představuje. To znamená schopnost předpovídat jeho konečnou podobu a
strukturu. Uživatelé datového skladu potřebují znát jeho rysy a komponenty
dříve, než zahájí seriózní diskuze o jeho možném použití.
V minulém článku jsme věnovali pozornost klasifikaci způsobů přístupů k data
warehousingu. Seznámili jsme se se základními rozdíly mezi přístupy
reprezentovanými Billem Inmonem a Ralphem Kimballem. Dříve než přistoupíme k
vlastní architektuře datového skladu, připomeňme si, jak ho definuje Bill Inmon.
Data warehouse (DW) je podle něj předmětově orientovaná, integrovaná, stálá a
časově rozdílná kolekce dat podporující rozhodovací procesy. Data v DW
pocházejí z neintegrovaných produkčních systémů podniku. Jednou ze základních
charakteristik datového skladu je to, že je fyzicky oddělen od produkčních
systémů.
Základní rysy
Data v DW jsou organizována kolem hlavních "předmětů" podniku. Tato orientace
způsobuje, že návrh datového skladu je datově řízen. Předmětová orientace je v
kontrastu s klasickými aplikačně-funkčními systémy, jako jsou aplikace pro
správu úvěrů, úspor apod.
Předměty, kolem kterých je DW organizován, jsou v praxi reprezentovány pojmy
jako "Klient", "Dodavatel", "Produkt" apod. Data warehouse by neměl obsahovat
data, která nejsou používána v DSS procesech.
Důležitým charakteristickým rysem datového skladu je také
jeho integrovanost. Integrace dat se dá ukázat na příkladech jmenných konvencí,
konzistence měřitelných veličin, konzistence fyzických atributů dat apod., viz
obr. 1.
Časově rozdílná data
Všechna data v data warehousu jsou přesná pouze k určitému momentu. Přesnost
dat samozřejmě úzce souvisí s tzv. aktualizační strategií dat, která definuje
periodicitu aktualizace pomocí připravených procedur.
Časovou rozdílnost dat je možné demonstrovat následujícími příklady:
Data v DW jsou uložena v časovém horizontu několika let, např. 5-10 let,
zatímco v OLTP systémech jsou uchovávána po dobu mnohem kratší, např. 60-90 dní.
Data v DW jsou uložena pouze jednou a nemohou být aktualizována (ve smyslu
použití standardních aktualizačních procedur typu Insert, Insert/Replace,
Replace, Change). Tyto operace jsou naopak zcela běžně podporovány aplikacemi
produkčních systémů. Data v datovém skladu tedy představují dlouhou časovou
řadu "časových snímků" produkčních systémů.
Stálá data
Tato vlastnost dat dělá z DW statické prostředí. Produkční systémy jsou na-opak
prostředím dynamickým. To znamená, že data v produkčním systému jsou neustále
pod vlivem změn, např. aktualizací, vložení nových dat a dalších. V data
warehousu jsou data nahrána a pak zpřístupněna koncovému uživateli. Dynamičnost
obou prostředí je zachycena na obr. 2.
Je tedy zřejmé, že DW představuje prostředí odlišné od klasických produkčních
OLTP systémů, které jsou zdrojem dat. To může vést k závěru, že mezi nimi
existují masivní redundance dat. Faktem ale je, že těchto redundancí je velice
málo, což potvrzují následující fakta:
Data jsou filtrována a poté jsou ukládána do datového skladu. Mnohá data z
produkčních OLTP systémů se nedostanou do data warehousu, neboť nepodporují DSS
procesy.
DW obsahuje také sumarizovaná data, což v OLTP systémech není možné, resp.
nenajdeme zde takovéto údaje.
Struktura DW
Přistupme ale k samotnému popisu jednoduché struktury datového skladu, který se
skládá z několika základních komponent současná detailní data, starší detailní
data, úrovně sumarizace dat, metadata.
Existence detailních dat je důležitá hned z několika důvodů. Např. opětovné
provedení agregací jednotlivých úrovní je
možné pouze za předpokladu
existence těchto detailních dat. Obr. 3 zachycuje komponenty data warehousu,
včetně jejich vzájemného postavení. Architektura zobrazená na schématu je
použitelná např. pro nadnárodní společnosti, protože produkční systémy firem v
jednotlivých zemích jsou z pohledu HW a SW vybavení velmi různorodé. Jednotlivé
pobočky jsou samostatné, a proto pro okamžité (operativní) rozhodování není
nutné mít k dispozici celosvětový obraz finanční situace.
Tento příklad však neplatí třeba pro finanční instituce, jako jsou banky. Každá
banka disponuje několika produkčními systémy, jež podporují jednotlivé činnosti
banky. Pro potřeby operativního rozhodování je nutné, aby byla k dispozici
integrovaná báze dat z různých produkčních systémů. Tento požadavek se promítne
do architektury tak, že se vytvoří další komponenta, která bude mít podobné
vlastnosti jako data warehouse.
Operativní úložiště
Hledanou komponentou je Operational Data Store (operativní datové úložiště),
který představuje rozšíření DW směrem k produkčním systémům (obr. 4). ODS
poskytuje základ pro uchování dat produkčních systémů v krátkém časovém
intervalu.
Co je ale vlastně ODS? Jednoduchá definice ho popisuje jako předmětově
orientovanou, integrovanou a aktualizovatelnou množinu dat obsahující data
aktuální nebo blízká a sloužící pro podporu day-of-day procesů založených na
detailních datech. Odlišnost DW oproti ODS tedy spočívá v posledních bodech
definice, tedy v možnosti aktualizace dat a v jejich historické délce.
Existuje několik rozdílů mezi ODS a DW. Největší z nich spočívá v tom, že ODS
obsahuje jen současná nebo blízká data, zatímco DW obsahuje jak historická, tak
i současná a historicky blízká data. ODS uchovává výhradně detailní data,
zatímco v DW jsou uložena jak detailní, tak i sumarizovaná (agregovaná) data.
Objem dat v obou prostředích je tedy zcela odlišný.
Existují snahy spojit ODS s DW, a vytvořit tak jednotné prostředí, které umožní
nejen integraci dat z různých produkčních systémů, ale také podporu podnikových
rozhodovacích procesů. S ohledem na definice těchto dvou prvků však není jejich
integrace doporučována.
9 1577 / ramn









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.