Datové sklady v podání Sybase

Sybase patří na poli databázových systémům ke "starým ma-zákům", kteří mají tradici, vybudovanou uživatelskou z...


Sybase patří na poli databázových systémům ke "starým ma-zákům", kteří mají
tradici, vybudovanou uživatelskou základnu a rozsáhlý systém produktů,
metodik a navazujících služeb. K tvorbě datových skladů přistupuje pomocí
vlastní metodiky SAFE/DW a postupuje obvykle "z druhé strany" tzn. že nezačíná
tvorbou centrálního datového skladu, ale naopak datovými tržišti.
Důvodem je značná časová a finanční náročnost projektů centrálního datového
skladu. Dále je také třeba si uvědomit, že zákazníci (firmy jako celek i
jejich jednotlivá oddělení) obvykle nemají ujasněno, jaká data budou
potřebovat, jaká data jsou k dispozici v použitelné podobě a často ani
nevědí, co mají od datového skladu očekávat. Proto Sybase doporučuje začít
tvorbou datových tržišť (data marts). Během jejich budování se tyto problémy
obvykle vyřeší, a zákazník tak nemusí podstupovat nákladný vývoj DW s rizikem,
že projekt z nějakého důvodu skončí neúspěchem.
Současně je možno s dlouhodobou perspektivou jako paralelní proces vytvářet
centrální datový sklad, který bude původních datových tržišť využívat jako
datových zdrojů. Na druhé straně Sybase doporučuje co nejdříve po vytvoření
prvních datových tržišť definovat architekturu celopodnikového datového
skladu, neboť tím se zákazník vyvaruje nebezpečí nekoncepčního přístupu a
nekoordinovaného budování (a následných problémů při integrování jednotlivých
částí systému).
Nástroje pro DW
Hlavním balíkem firmy pro tuto oblast je Warehouse Studio. To se skládá z
poměrně velkého množství produktů pro analýzu, integraci, správu a prezentaci
dat. Tyto produkty je samozřejmě možné zakoupit také samostatně. Pro analýzu a
návrh datových skladů slouží nástroj WarehouseArchitect, který je součástí
balíku CASE nástrojů PowerDesigner. Jedná se o nástroj pro modelování logické
a fyzické struktury datových skladů a generování metadat pro OLAP nástroje.
WarehouseArchitect umožňuje nahlížet na analyzovaný sklad z pohledu faktů
(ukazatelů) a dimenzí, definovat předpočítané agregace a definovat mechanismy
pro import. Pracuje jak s hvězdicovými schématy (star schema), tak i se
schématy sněhové vločky (snow-flake schema). WarehouseArchitect umožňuje též
automatické generování datových skladů pro různé databázové platformy i
modifikaci již existujících. Podklady pro tvorbu datových skladů je možné
získat analýzou struktury provozních databází.
Důležitým nástrojem pro plnění datových skladů daty z provozních databází je
PowerStage. Přesněji řečeno, jedná se o vizuální nástroj na extrakci, čištění,
transformaci a integraci dat. Proces zavádění dat do datového skladu je
rozložen do čtyř kroků. Prvním krokem je extrakce dat z provozních databází.
Tento nástroj umožňuje získávat data z 25 OLTP systémů, které jsou
připojitelné prostřednictvím proprietárního middlewaru DirectConnect
sloužícího jako brána pro připojení k dalším databázím. Jsou to např. systémy
Sybase, Oracle, Microsoft SQL Server, UniVerse, Informix apod.
Další krok spočívá v transformaci dat do podoby vhodné pro datový sklad (tedy
do podoby potřebné pro analytické systémy). Jedná se o přepočítání na jiné
jednotky, výpočet agregací apod.). Třetím krokem je čištění, které slouží k
eliminaci (případně opravě) chybných dat. V této fázi jsou kontrolována (a
případně i modifikována) metadata. Poslední krok (integrace) zajišťuje
mapování získaných a očištěných dat na cílové databázové schéma.
Nástroj PowerStage se skládá z několika částí. Nejdůležitější z nich je
vizuální Designer, který slouží k navrhování procesu naplňování datových
skladů. Pro prohlížení metadat je možné použít Repository Manager a pro
plánování naplňovacích procesů a jejich testování slouží Director.
Administrator slouží pro administraci celého procesu, nastavování
uživatelských oprávnění, konfigurace globálních parametrů apod. Vlastní
transformaci a čištění dat provádí komponenta PowerStage Server.
Ukládání dat
Pro ukládání dat nabízí Sybase architekturu Sybase Adaptive Server. Jedná se o
rodinu serverů, které používají společný jazyk pro přístup k datům, stejný
globální katalog a stejné nástroje pro replikaci a administraci, ale
používají různá (optimalizovaná) úložiště dat. Tato úložiště jsou
optimalizována pro různé druhy dat a pro různé způsoby přístupu. Podíváme se
především na dva typy Adaptive Server Enterprise, který je navržen jako velká
OLTP databáze, a Adaptive Server IQ, který je určen pro rozsáhlé OLAP
databáze. Oba tyto servery jsou označovány jako rozšiřitelné, škálovatelné s
maximální podporou víceprocesorových stojů. Oba systémy také maximalizují
paralelní přístupy ke sdíleným prostředkům. Jsou k dispozici pro platformy
Windows NT i pro různé UNIXy.
Ačkoliv je Adaptive Server Enterprise primárně určen pro OLTP systémy, má svůj
význam také při budování datových skladů. Umožňuje čištění a konsolidaci dat,
reporting a může být použit pro rozsáhlé centrální datové sklady a datové
sklady pracující v reálném čase (které uložená data ihned zpřístupňují pro
analýzu). Pro tyto účely nabízí Adaptive Server Enterprise přiřazování
prostředků systému k jednotlivým uživatelům nebo aplikacím, a tím možnost
kontroly výkonu celého systému.
Adaptive Server IQ je určen pro klasické analytické aplikace a systémy pro
podporu rozhodování. Firma Sybase si na této databázi velice zakládá, neboť IQ
přináší mnoho unikátních vlastností a technologií. Jednou z nich je vertikální
ukládání dat. Typické relační databáze ukládají jednotlivé záznamy do
databázových stránek "vedle sebe". IQ ukládá data "po sloupcích", takže poblíž
sebe leží hodnoty z různých záznamů. Pro další zrychlení přístupu jsou data
ukládána do tzv. Bit-Wise indexů, což je patentovaná technologie firmy
Sybase. Takto jsou předindexována veškerá data v databázi, takže použití
dalších indexů není nutné. IQ též používá poměrně výkonnou datovou kompresi,
takže databáze příliš nenabývá na objemu. Nově nyní Sybase dodává verzi IQ
Multiplex, která poskytuje prakticky neomezenou rozšiřitelnost až na systémy
se stovkami procesorů, 16 TB vnitřní paměti, tisíci současně pracujícími
uživateli a petabytovými databázemi.
Použití Adaptive Server IQ přináší oproti konkurenčním produktům řadu výhod.
Jako hlavní výhoda se však udává výkonnost celého systému. Její měření je
velmi obtížné, neboť u různých typů dotazů dochází k různému zrychlení.
Údaje, které naměřili vybraní zákazníci Sybase, jsou uvedeny v tabulce. Další
výhodou je, že databáze příliš nenabývá na objemu velikost databáze zpravidla
nepřekročí objem čistých dat. To je veliká výhoda oproti konkurenčním
systémům, kdy databáze po indexování naroste na několikanásobek čistých dat. V
porovnání s multidimenzionálními databázemi je tato úspora ještě markantnější.
Zajímavé jsou i výsledky dvou referenčních instalací v České republice ve
Středisku správy cenných papírů ČR a u firmy SPT Telecom. Např. Středisko
cenných papírů, které používá Adaptive Server IQ jako databázi transakcí s
cennými papíry, dosáhlo zmenšení velikosti databáze z původních 150 GB na 30
GB a zrychlilo dobu odezvy z řádově hodin na minuty až sekundy.
Pro správu datového skladu nabízí Sybase dva nástroje Warehouse Control Center
a Sybase Central. Pro běžnou správu databází je určen Central, který obsahuje
nástroje pro práci s datovými strukturami, indexy, uloženými procedurami,
uživatelskými právy apod. Pro správu metadat je určen Warehouse Control
Center. Ten umožňuje např. spravovat přesun dat a metadat mezi centrálním
datovým skladem a jednotlivými datovými tržišti nebo budování sémantických
úrovní metadat pro dotazovací, reportovací a analytické nástroje.
Jedním z posledních článků architektury je PowerDimensions, který je určen pro
analýzu a prezentování vybraných dat koncovým uživatelům. Tento produkt
přináší novou architekturu pro analýzu dat Dynamic OLAP, jež umožňuje
vybudovat analytické systémy ve velmi krátké době (hodiny až dny). Z
uživatelského hlediska umožňuje PowerDimensions graficky modelovat a
vyhodnocovat různé multidimenzionální problémy. Pro tvorbu těchto modelů je
možné využívat finanční, statistické, logické a jiné matematické funkce.
Součástí nástroje je také "What-if" analýza, která je nabízena ve třech
podobách řízená hodnotou (value-based), strukturální (structure based) a
procesní (formula based). Součástí tohoto nástroje jsou také funkce na
kontrolu integrity, referenční integrity a pro auditování modelu. Užitečnou
vlastností je rovněž možnost publikování interaktivních tabulek a grafů na
Internetu (případně intranetu) v podobě javových appletů.
Sybase také dodává vývojové nástroje pro přístup k datům. Tvůrci aplikací
mohou pro přístup k databázi použít speciální ovladače, ale i běžné ODBC a
JDBC ovladače. Pro tvorbu aplikací nabízí např. nástroje PowerBuilder a
PowerJ. Pro tvorbu sestav je možné použít nástroj InfoMaker. Podobně jako jiné
firmy nabízí nyní i nástroj pro dotazování v běžné angličtině English Wizard.
Sybase je firma, která se v současnosti značně orientuje na služby, a proto
svým zákazníkům nabízí komplexní podporu v průběhu celého procesu budování
datového skladu.

9 1913 / ramn

Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.