Jak se neutopit v záplavě různých podnikových dat

Datový sklad a databáze Datový sklad (data warehouse) je od standardní databáze od základu odlišný a vyžaduje mnohá...


Datový sklad a databáze
Datový sklad (data warehouse) je od standardní databáze od základu odlišný a
vyžaduje mnohá přizpůsobení standardních paradigmat relačních databází. Data
warehousing například namísto standardní 3. normální formy používá pro datové
modely hvězdicové schéma (star-schema), kde se rozlišují dva základní typy
tabulek: tabulky faktů obsahující sledované ukazatele a dále tabulky dimenzí,
popisující hlediska, podle nichž jsou fakta analyzována. Máme-li například
sledovaná fakta jako počet prodaných kusů a tržby, mohou být dimenze zákazník,
výrobek, prodejna a čas. Dimenze obsahují uměle generované klíče (číslo
zákazníka), které jsou obsaženy jako cizí klíč v tabulce faktů. Pro urychlení
dotazů by bylo nejlépe denormalizovat fakta spolu s dimenzemi do jediné
tabulky, tento přístup by však vedl k velkému plýtvání místem. Vysoce
denormalizované jsou pouze tabulky dimenzí (například údaje pro rok spolu s
údaji pro měsíc a den), které jsou relativně malé. Typický dotaz "Jaký byl
loňský obrat za zubní kartáčky v prodejně v Pelhřimově?" pak vyvolá spojením
tabulky faktů s tabulkou produktů, prodejen a času dotazovací filtr pouze na
hodnoty "zubní kartáček", "2000" a "Pelhřimov" a následnou agregaci.
Ačkoli existují i opačné přístupy, databáze datového skladu je obyčejně zcela
samostatná a replikuje data ze zdrojového systému. Kromě výše zmíněných
požadavků na datový model, zcela jiný druh zátěže a z ní vyplývající
optimalizace zde mluví pro samostatnou databázi i to, že pro operativní chod
podniku (OLTP) je podstatných několik posledních období, pro analýzy je
důležitá celá historie.
Na rozdíl od takzvaných OLTP systémů, kde data vznikají (pokladny, účetnictví,
obsluha přepážky) a které jsou optimalizovány pro velké množství malých
(paralelních) operací, je datový sklad určen k publikaci dat (reportování,
OLAP, datamining) a je optimalizován pro velké množství (paralelních) dotazů,
které mohou prozkoumávat velké objemy dat. Databáze datového skladu je pro
koncového uživatele zpravidla tzv. read-only (pouze pro čtení). Výjimkou mohou
být analytické modely, kdy uživatel provádí what-if analýzy nebo sestavuje plán.
DS není krabicový produkt
Datový sklad zatím nelze považovat na rozdíl od relační databáze za klasický
produkt, ale spíše za sadu technologií. Pro přesun dat z OLTP systému do
databáze datového skladu se používají tzv. ETL skripty, pro uchování dat se
používají relační databáze, pro analýzy se používají reportovací nástroje,
specializované OLAP nástroje a data mining. Každý nástroj z výše zmiňovaných
skupin může mít jiného výrobce. Velmi důležitou roli proto hraje konzultační
tým, který data warehouse implementuje. Dalším rysem, vyplývajícím z velkého
množství nástrojů, je potřeba jednotné správy metadat. Například přidání
jednoho sloupce ve zdrojové databázi může vést ke změně ETL skriptů, k přidání
sloupce do databáze a do cílového reportu. V metadatech (popisu dat, jakýchsi
datech o datech) je uložen popis zdrojových databází, popis sloupců ve
zdrojových systémech, popis databáze datového skladu, popis dimenzí a faktů pro
OLAP. Řízení metadat tedy může správu datového skladu postupně urychlit. V
posledních několika letech se jako velmi slibný ukazuje jazyk XML. Na vytvoření
jednotného XML standardu pro databáze, OLAP a ETL pracuje už několik skupin.
Ačkoli je databáze datového skladu jádrem data warehousingového řešení,
nesměšujme ji s celým datovým skladem. Do technologií používaných v datovém
skladu neodmyslitelně patří i nástroje ETL a OLAP.
Nástroje ETL
Úkolem nástrojů ETL (Extraction, Transformation, Loading) je naplnit databázi
datového skladu. Transformace obvykle nejsou jedna k jedné, ale je nutno
vyřešit referenční integritu, konzistenci dat, doplnit chybějící hodnoty,
vyčistit špatné, případně aplikovat složitá obchodní pravidla. Psaní ETL
skriptů je obvykle nejdéle trvající práce na budování datového skladu.
Příkladem ETL nástrojů je DTS (Data Transformation Services) firmy Microsoft,
Powermart/PowerCenter firmy Informatica nebo Ab Initio.
Nástroje OLAP
Nástroje OLAP (On Line Analytical Processing) slouží k rychlé analýze velkého
množství dat. Data z datového skladu jsou nahrána do cache, která obsahuje
zdrojová data uložená v multidimenzionální matici. Pro rychlé odezvy obsahuje
cache i předpočítané agregace pro ukazatele. OLAP může obsahovat serverovou
část, která definuje a zpracovává multidimenzionální cache a klientskou část,
která data zobrazuje a obsahuje nástroje pro interaktivní tvoření sestav.
Typickým příkladem je opět Microsoft, který dodává MS OLAP Server s přesně
definovaným rozhraním a nechává na svých partnerech, aby sami dodali vlastní
klientskou část. Jiným příkladem řešení OLAP je Cognos nebo Microstrategy.
Některé nástroje umožňují využít i ROLAP řešení, kdy se neimplementuje cache,
ale dotazují se data přímo z databáze, kde mohou být předpočítané agregace.
HOLAP (Hybrid OLAP) umožňuje výše zmíněné přístupy kombinovat.
Důležitým prvkem grafického rozhraní OLAP je možnost hierarchického rozpadu.
Takový rozpad využívá hierarchické struktury dimenzí (např. rok-měsíc-den pro
čas, kraj-okres-prodejna pro prodejny) pro definici dalšího pohledu. Například
po klepnutí na výsledek za celý rok se vyvolá hierarchický rozpad, který
zobrazí výsledky pro jednotlivé měsíce. Klepnutím na konkrétní měsíc se zase
zobrazí výsledky za dny. Podezřelé (příliš malé nebo velké) hodnoty ukazatelů
mohou být analyzovány rozpadem na hodnoty, ze kterých se skládají, a nalezena
tak pravá příčina problému. Byly nízké hodnoty prodejů v lednu způsobené nízkým
prodejem v některých krajích, nebo nízkým prodejem v některých dnech? Ve
kterých? Právě OLAP vygeneruje rychlou odpověď pro další kvalifikované
rozhodnutí.
o
Dostatečný prostor
Marek Kolín
V současné době se stále více setkáváme s klíčovou situací, kterou je oblast
ukládání dat. Informační systémy k nim totiž vyžadují velmi rychlý a spolehlivý
přístup. Obecně proto platí pravidlo, že "data jsou až na prvním místě". Pokud
dojde k jejich ztrátě, znamená to obrovské komplikace, a tomu se právě snaží
předejít například disková pole, která umožňují různými stupni zabezpečení
ztrátu dat eliminovat. Nastiňme proto některé trendy v oblasti ukládání dat.
V heterogenním prostředí, kde každá aplikace nebo server vyžaduje přístup ke
zpracovávaným datům, se nevyhneme situaci, kdy každý z těchto systémů musí
disponovat vlastním homogenním subsystémem pro jejich ukládání. Spravovat více
systémů od několika výrobců pro různé platformy operačních systémů je
samozřejmě složité a nákladné.
Logicky se tedy nabízí možnost datové prostory centralizovat v rámci jednoho
vysoce výkonného diskového subsystému, který je zpřístupní v heterogenním
prostředí a zajistí jejich vysokou dostupnost. Také zotavení z výpadku lze v
centralizovaném prostředí provést podstatně levněji a jednodušeji než u
jednotlivých oddělených systémů. Takovéto datové subsystémy dnes nabízejí
všichni hlavní hráči na trhu EMC, Compaq, IBM, nebo Hewlett-Packard.
Centrální datové úložiště
Centrální datové úložiště se pak dá implementovat do sítí SAN (Storage Area
Network). SAN není nic jiného než dedikovaná síť, určená pro přenos dat mezi
jednotlivými servery a datovými subsystémy na bázi přenosů optickými vlákny
(technologie Fibre Channel). Díky přenosovému médiu, optickým kabelům, je
výrazně omezen vliv různých rušivých signálů.
SAN je obecnou strukturou paměťových systémů, hardwaru a softwaru, ESN
(Enterprise Storage Network) je pak prostředím, které na SAN staví a rozšiřuje
ji o služby a dohled.
1 1051 / voxn









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.