Principy datových skladů a proces jejich vytváření

Provozní systémy nedokáží řešit úlohy spojené se zpracováním a analýzou velkého objemu historických dat z někol...


Provozní systémy nedokáží řešit úlohy spojené se zpracováním a analýzou velkého
objemu historických dat z několika zásadních důvodů. Prvním z nich je
nedostatečná historie dat způsobená tím, že z kapacitních důvodů jsou udržována
pouze data stará několik měsíců a starší se přehrávají do archivu, kde mají
velice omezenou využitelnost.
Techniky a nástroje pro zpracování dat jsou v těchto systémech nedostatečné,
protože provozní systémy většinou disponují sadou připravených reportů, které
jsou navíc orientovány spíše na sledování procesů a jednotlivých transakcí než
na globální pohled.
Provozní systémy také neumožňují zpracovávat data z jiných aplikací. Drtivá
většina společností používá více než jeden systém, byť existují velmi mohutná
řešení, jako je např. SAP R/3. Řada dat navíc vzniká mimo provozní systémy
třeba i jako původně pouze osobní aplikace. Důležitá data rovněž pocházejí z
externích zdrojů ať se jedná např. o údaje z finančních trhů anebo data o
průzkumu trhu.
A nakonec je důležitý nepříznivý dopad na výkonnost provozních systémů
způsobený případným zpracováváním souhrnných přehledů a analýz. Důsledkem této
zvýšené zátěže se prodlužuje doba odezvy transakčních systémů pro běžné
uživatele.
Koncept datového skladu
Požadavky na provozní systémy a na zpracování dat pro rozhodování (tyto systémy
se v zahraničí označují jako Information Delivery dodání informací) jsou
natolik rozdílné, že vyžadují 2 druhy systémů provozní systémy a datový sklad
(Data Warehouse). Datový sklad je fyzicky a logicky oddělen od provozních
systémů a představuje další krok v budování informačních systémů. Data z
provozních systémů se převádějí do datového skladu, kde se po transformaci
ukládají způsobem, který vyhovuje analytickému a prezentačnímu zpracování
výstupů.
Datový sklad představuje uložení dat, které má určité jasné charakteristiky.
Nejdůležitějšími z nich jsou integrace dat z různých zdrojů do jednoho systému
a přítomnost historických dat (jsou k dispozici data i za několik minulých
let). Data jsou ve skladu uložená na různých úrovních sumarizace, jsou
uspořádána podle jednotlivých subjektů a jejich načítání probíhá periodicky z
provozních systémů (většinou v noci a o víkendech). Uživatelé mohou data pouze
číst, tj. neprovádějí jejich zadávání ani je nemění. Data z datového skladu se
využívají pomocí širokého spektra metod pro prezentace a analýzy dat.
Načítání dat Do datového skladu se data nezadávají, ale načítají se z
provozních systémů. Načítání se většinou provádí v čase, kdy nejsou provozní
systémy příliš zatíženy, aby se neprodlužovala doby odezvy pro uživatele těchto
systémů. Základní schéma načítání do DW je znázorněno na obrázku 1. Nástroje
datového skladu musí umožňovat extrakci dat z provozních systémů, což ve
většině případů znamená komunikovat určitým způsobem (ODBC, nativní ovladače,
textové soubory) s relační nebo síťovou databází či případně systémem souborů.
Protože jsou data v datovém skladu uložena jiným způsobem než ve zdrojových
systémech, je nutné provést jejich transformaci. Zatímco provozní systémy
používají v naprosté většině normalizovaný entito-relační datový model, u
datového skladu se jedná o kombinaci několika datových modelů (schéma hvězda,
schéma sněhová vločka, normalizovaný entito-relační model, denormalizovaný
entito-relační model, multidimenzionální datový model).
Transformace dat se skládá z těchto dílčích operací:
validace ověření správnosti dat,
čištění odstranění či změna nesprávných dat,
integrace dosažení konzistence dat pocházejících z různých systémů (datové
typy, formáty),
derivace vytvoření derivovaných dat na základě vstupních dat,
denormalizace snížení potřeby spojování tabulek při využívání DS,
sumarizace vytvoření požadovaných souhrnů z detailních dat.
Prostředí datového skladu musí poskytovat dostatek nástrojů a metod pro
zvládnutí všech těchto kroků, vzhledem k povaze těchto procesů nepostačuje
pouze SQL jazyk, ale je nutné používat specializované prostředky. Konečné
ukládání dat je možné provádět na základě 2 různých strategií. Buď se pokaždé
uloží celý obsah datového skladu znovu, což je použitelné pouze u velmi malých
objemů dat a pro úvodní načtení, nebo se ukládají pouze přírůstky a změněná
data v tomto případě musí být k dispozici systém zajišťující rozpoznání
změněných údajů.
Architektura V současné době existují 2 základní koncepty datového skladu
nezávislé datamarty (datová tržiště) a integrovaný datový sklad. V případě
nezávislých datamartů se řeší potřeby jednotlivých útvarů či aplikací víceméně
odděleně a vytváří se samostatná datová úložiště tzv. datamarty, která se někdy
označují jako útvarové datové sklady. Celková struktura je patrná z obrázku 2.
Výhodou tohoto uspořádání je snazší a rychlejší implementace a z toho
vyplývající rychlejší přínosy pro uživatele. Nevýhodou je naopak fakt, že může
docházet k nekonzistencím mezi jednotlivými datamarty a načítací procesy jsou
poměrně komplikované (velký počet, náročné na údržbu). Navíc s rostoucí
velikostí datového skladu začínají nevýhody převažovat nad výhodami a proto byl
vytvořen druhý přístup.
Integrovaný datový sklad
Při této koncepci se data z provozních systémů ukládají do centrálního datového
úložiště, ze kterého se následně odvozují datamarty pro potřeby jednotlivých
útvarů či aplikací (viz obr. 3). Výhody integrovaného skladu jsou především v
konzistentci jeho obsahu, v menším počtu a jednodušší správě načítacích procesů
z provozních systémů a ve snazší tvorbě nových datamartů (detailní data jsou
již k dispozici v DW).
Nevýhodou je naopak složitější realizace, pomalejší implementace (lze
eliminovat vhodnou metodologií) a sekundární načítací procesy (z centrálního DW
do datamartu). Vzhledem k tomu, že požadavek na konzistentnost obsahu datového
skladu je naprosto zásadní, tento přístup v současnosti převládá.
Komponenty Centrální datový sklad slouží jako společný zdroj vyčištěných a
ověřených detailních dat (z provozních systémů i externích zdrojů). Následně
jsou odvozovány datamarty pro jednotlivé útvary či aplikace. Data jsou uložena
buď v relační databázi s možnými
datovými modely Star Schema, Snow Flake Schema a entito-relační model, anebo (v
případě potřeby zpracovávat obrovské objemy dat) v uložení pro paralelní
zpracování dat s využitím bitmapového indexování.
Útvarové a aplikační datamarty slouží pro zajištění rychlé doby odezvy a
selektivního přístupu k historickým datům data sumarizovaná na roční bázi jsou
obvykle požadována za několik let zpětně, kdežto např. týdenní sumarizace pouze
za poslední rok. Datamarty představují vrstvu uložení dat, které je odvozená
buď z centrálního datového skladu, nebo z provozních dat. Formáty uložení dat
je nutné z důvodů různých aplikací kombinovat (jiné uložení dat vyžaduje např.
multidimenzionální analýza, jiné statistické analýzy a analýzy časových řad a
zcela jiné
dolování dat). Základní formáty jsou sumarizované relační uložení,
multidimenzionální databáze (MDDB) a databáze pro dolování dat. Fyzicky mohou
být datamarty uloženy na různých počítačích.
V některých případech je před centrální datový sklad předřazeno úložiště
operativních dat, které obsahuje transformovaná data za poslední období, např.
měsíc. Primární a sekundární načítání
Procesy primárního načítání jsou určené k plnění centrálního datového skladu
daty z provozních systémů a z externích zdrojů. Tyto procesy musí umožňovat
extrakci prakticky z libovolného formátu dat, transformaci dat, jejich načtení
do výstupního formátu a podporu pro správu a údržbu. Procesy sekundárního
načítání zase slouží k plnění datamartů na základě nových nebo změněných dat v
centrálním datovém skladu. Archiv
Pokud to použitá technologie umožňuje, je požití archivu velmi užitečné,
jelikož eliminuje velikost poměrně drahých diskových kapacit. Uživatelé ve
většině případů totiž požadují okamžitý přístup k detailním datům pouze za
krátké období (typicky rok), starší data je tedy možné uložit do archivu.
Podmínkou použití je, že aplikační prostředí DW musí umožňovat transparentní
použití archivu.
Metadata
Metadata jsou pomocná data o vlastních datech, která tvoří obsah datového
skladu. Metadata lze rozdělit na 2 skupiny technická a obchodní. Technická
metadata definují atributy, které popisují fyzické vlastnosti položek odkud
pocházejí, jak byly transformovány, kdo je za to zodpovědný, kdy byly naposledy
načteny atd. Obchodní metadata jsou důležitá pro uživatele DW, protože obsahují
informace jako jsou definice dat, hodnoty atributů a domén, obchodní pravidla,
vztahy mezi daty atd. Ukládání a využívání metadat umožňuje automatické
načítání dat a údržbu DS.
Nástroje a aplikace
Nástroje, které lze používat bez nutnosti vytvářet aplikace, tvoří jeden z
hlavních způsobů, jak uživatelé využívají datový sklad. Sada nástrojů musí být
co nejširší, aby mohli uživatelé získat co nejvíce přínosů z DW zdroje
integrovaných, ověřených a aktuálních dat z celé organizace a externích zdrojů.
Vyšším stupněm uživatelských nástrojů jsou aplikace. Součástí řešení DW by mělo
být prostředí, které umožní vytvářet aplikace pro jednotlivé skupiny uživatelů
manažerské informační systémy, aplikace umožňující multidimenzionální analýzu a
specializované aplikace.
Využití datového skladu
Přínosy z realizace DW jsou tím větší, čím větší jsou možnosti pro analýzy a
prezentace dat.
Nejzákladnějšími metodami jsou operativní dotazy (předem nepřipravené) na
určité hodnoty a sestavy, které mohou být standardní generované dávkově a
operativní vytvářené podle potřeby.
Vyšším stupněm je multidimenzionální analýza OLAP, tj. rychlé prohlížení dat
sumarizovaných na různých úrovních z různých pohledů neboli dimenzí. Dále
nejrůznější statistické a finanční analýzy ekonometrické modelování, termínové
modely.
Analýzy časových řad a tvorby předpovědí slouží k předpovědi budoucích hodnot a
identifikaci sezonních výkyvů. Jedním z posledním hitů v této oblasti je
dolování dat, kterému jsme se věnovali v jednom z minulých vydání. Připomeňme
jen, že se jedná o specializované techniky pro zpracování velkých objemů dat a
hledání skrytých vzorů a souvislostí.
Vizualizace dat nabízí prohlížení dat v dynamicky provázaných grafech pro
identifikaci neobvyklých a extrémních hodnot a závislostí mezi daty. Mezi
důležité aplikace patří i geografické informační systémy, které převádějí
hodnoty proměnných na geografickou prezentaci (např. zabarvení okresů podle
počtu zákazníků) a manažerské informační systémy (EIS), které kombinují OLAP,
reporting, přehledné zobrazení kritických veličin, jednoduché předpovědi a
nabízejí ideální podklady pro manažerské rozhodování.
Co je důležité při realizaci DW
Důležitým parametrem je rozšiřitelnost a škálovatelnost řešení. I když DW bude
zpočátku nevelký rozsahem a objemem dat, je nutné mít na paměti jeho budoucí
růst a je tedy nutné mít možnost přecházet na výkonnější platformy bez nutnosti
přepracovávat aplikace. Dále je důležitá podpora hardwarových a softwarových
platforem, podpora pro architekturu klient/server a pro webové technologie.
Součástí řešení by měly být nástroje pro extrakci dat (databázové systémy,
systémy souborů a datové soubory) a nástroje pro transformace dat (validace,
čištění, integrace, derivace, denormalizace, sumarizace).
Způsoby uložení dat v centrálním datovém skladu a v datamartech se mohou lišit
a je potřeba mít navrženou strukturu odpovídající potřebám firmy.
Dalšími důležitými vlastnostmi je způsob využití metadat, využívání prostředků
pro zajištění bezpečnosti dat, nástrojů pro správu datového skladu a nástrojů
na využití datového skladu.
Datové sklady v českých podmínkách
Situace v České republice z pohledu datových skladů není příliš progresivní. Ve
vyspělých zemích byl koncept datových skladů již běžně akceptován a ve většině
firem datový sklad již existuje, či je alespoň připraven plán na jeho
realizaci.
U nás naproti tomu existuje málo společností, které se orientují v této
problematice alespoň natolik, že vědí, co to datový sklad je a uvažují o jeho
realizaci. Co se týká vlastní realizace, je implementace datového skladu
výjimkou. Například v bankovním sektoru je známa pouze jedna banka, která má
implementován datový sklad.
V českých podmínkách se nejčastěji v této souvislosti mluví o manažerských
informačních systémech, což je pouze jeden ze způsobů využití datového skladu.
Tyto systémy jsou ale většinou chápány jako aplikace v Excelu či další modul
provozních systémů. V lepším případě je EIS realizován jako OLAP aplikace to
znamená v podstatě datamart.
Řada firem žije i nadále v přesvědčení, že provozní systémy vyřeší všechny
jejich potřeby včetně dodání informací pro rozhodování. Ke změně jejich názoru
možná přispěje i skutečnost, že i firma SAP začíná dodávat řešení pro datový
sklad.
8 2805 / ram









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.