Vysoké požadavky na skladování dat

Datový sklad (data warehouse) hraje při podnikovém zpracování dat klíčovou roli. To se odráží i ve skutečnosti, že...


Datový sklad (data warehouse) hraje při podnikovém zpracování dat klíčovou
roli. To se odráží i ve skutečnosti, že je dnes využíván ve firmách prakticky
ze všech možných oblastí: od dodavatelských řetězců přes finančnictví a
controlling až po styk se zákazníky. Vzhledem ke stále větším nárokům na tyto
systémy zřejmě jejich funkcionalita i výkon v následujících letech projdou
podstatnými proměnami.
Nástroje a metody pro integraci, ukládání a úpravu podnikových dat představují
ústřední komponenty každého datového skladu. Aby zajistily úspěch realizovaných
projektů, musejí především technicky dobře podporovat extrakci, transformaci a
nahrávání dat (ETL). Stále důležitější roli přitom hraje zjišťování stavu a
měření kvality existujících dat (data profiling), stejně jako proti poruchám
odolné prohledávání a čištění dat pro konkrétní aplikace či případy použití
(data cleansing).
Zatímco zavedení prodejci databází se v této oblasti teprve začínají
orientovat, bezpočet specialistů dodavatelů BI (Business Intelligence) a ETL
(Extraction, Transformation and Loading) řešení už nabízí vlastní nebo koupené
produkty tohoto typu. Například společnost SAS Institute získala firmu
Dataflux, která se zaměřuje na kvalitu dat, zatímco Ascential Software nabízí
produkt pro profilování a čištění doplňující klasické ETL v podobě Quality
Stage. Jejich konkurenti Informatica a Oracle už ale také uvedli na trh první
verze svých řešení pro data profiling. K dalším příkladům patří specialista na
kvalitu dat Group 1, který si dostupnost ETL techniky zajistil akvizicí firmy
Sagent, podobně jako společnost Trillium, jež se zaměřuje na cleansing a
nedávno převzala metodu datového profilingu od firmy Avellino.

Analýza a integrace
Další trend souvisí s datovým skladem fungujícím v reálném čase. Cílem je lepší
dohled nad obchodními procesy (Business Activity Monitoring, BAM) a signalizace
výskytu z obchodního hlediska důležitých událostí pomocí výstražných funkcí
(alerting). Z technického hlediska to vyžaduje zejména kombinaci dosavadního
dávkového zpracování s metodami messagingu, jaké nabízí software pro integraci
podnikových aplikací (Enterprise Application Integration, EAI).
Mezi příklady produktů, které jsou kombinací ETL a EAI řešení, patří enginy
využívající listener technologií od společností jako Ascential a Informatica,
funkce messagingu v systému Data Integrator firmy Business Objects nebo
Business Warehouse začleněný do platformy pro firemní infrastrukturu Netweaver
u společnosti SAP. Do této kategorie dále spadají ETL produkty rozšířené o
funkce pro hromadný přenos transakčních dat náleží sem Ascential, který koupil
firmu Mercator, nebo společnost Inway Software, jež převzala adaptéry od firmy
Actional specializující se na EAI.
Díky rostoucím objemům dat se mimoto může u datového skladu stát velkou výzvou
zajištění přiměřené doby ukládání a dotazování. Mnozí dodavatelé zkoušejí těmto
problémům čelit prostřednictvím využití 64bitového hardwaru, nasazení massive
parallel databází nebo pomocí kombinace technologií typu symetric
multiprocessing (SMP) a massive parallel processing (MPP), jaké vyvíjejí
společnosti IBM, NCR nebo Netezza. Naproti tomu Oracle sází spíše na cenově
výhodné hardwarové architektury coby bázi pro řešení datového skladu a využívá
také linuxové počítače propojené v síti.
ETL nástroje však při zpracování hromadných dat často vykazují výkonnostní
problémy související s propustností dat. Pomoc zde slibují metody jako
paralelizace aplikací, již využívá Ascential, nasazení nástrojů typu Bulk
Loader nebo ještě výkonnější operace doplňování polí cílové databáze prováděné
s využitím skriptovacího jazyka samotného ETL řešení, což nabízí například
Hummingbird ve svém produktu Genio.
Multidimenzionální databáze (MDB) jsou velmi užitečné jako decentralizovaně
spravovaná datová tržiště v technických odděleních nebo coby doplněk relačních
datových skladů (RDB) pro agregovaná data s vysokými požadavky na rychlost
zpracování dotazů. Oba typy implementací jsou však často odlišné jak co se týká
datového modelu, tak pokud jde dotazovací jazyk nebo rozhraní. Cestu k
integraci otevírají kupříkladu Microsoft a SAS nebo Oracle, který v 10g
sdružuje obě techniky ukládání. Kromě toho posilují výrobci jako Applix,
Hyperion, MIS či MIK možnosti provázání svých řešení a výměny dat s dalšími
databázemi.
Protože vývoj datových skladů neustává, nabývá na důležitosti řízení životního
cyklu (lifecycle management), které zahrnuje správu základních dat, kontrolu a
optimalizaci databázových zdrojů nebo kalkulace a zabezpečení potřebného
výkonu. Jako příklad je možné uvést optimalizaci dotazů či ukládacích struktur
u IBM a NCR. Modelování a udržování stále se měnících struktur datových skladů
může být navíc podporováno na úrovni datové integrace, a to prostřednictvím ETL
nástrojů (jako Cognos Decisionstream), aplikačních serverů (SAP BW) nebo
speciálních aplikací (řešení firmy Kalido).
Dalším trendem je modernizace datových skladů, neboť jejich architektura bude
do budoucna muset podporovat webové technologie a zahrnovat robustní
škálovatelný aplikační server. Mnohé funkce dnes přebírá databáze například
tvorbu modelů pro reporting a analýzu (data mining) nebo mechanismy pro
aktuální dohled a upozorňování (alerting). Podobně je pak například tvorba
standardních reportů přebírána zvláštními servery nebo databázemi datových
skladů, neboť ty pak dovolují provádět historizaci nebo integraci dat z různých
zdrojů jinak než v samotných provozních systémech. Mezi takové produkty patří
Reporting Services od Microsoftu, jakož i řešení pro hromadnou tvorbu reportů
od společností Actuate, Business Objects, Cognos, Information Builders nebo
Microstrategy.

Vytoužená metadata
Značný význam při využití datových skladů by měl být v budoucnu spatřován
rovněž v metadatech. Ta už nebudou představovat pouze technické informace, jako
například údaje o datových typech, ale budou uchovávat také obchodně
orientované informace. Analogicky pak budou vyžadovány i nové metody pro
ukládání, výměnu a poskytování metadat. Standardizovaný formát pro jejich popis
a výměnu nabízí specifikace Common Warehouse Metamodel (CMW), jejímž vývojem se
zabývá skupina OMG (Object Management Group). Oracle, Hyperion a SAS ji už sice
využívají, nicméně převážně pro jednoduchou výměnu datových modelů. Speciální
metody založené na využití metadat nabízí také Ascential se svým MetaBrokerem
nebo Informatica v podobě produktu SuperGlue. Právě tak slouží k integraci a
analýze metadat i mnohé ETL nástroje, avšak provázanost se zpracováním dat a
nástroji koncových uživatelů je zde teprve v plenkách.
Do budoucna mohou uživatelé konečně očekávat také využití nestrukturovaných
dat. Až 80 % veškerých dat či potenciálních informací bývá k dispozici ve formě
textu, obrázků nebo audiosouborů, které zpravidla nejsou integrovány se
strukturovanými daty datového skladu. V tomto směru je možné očekávat řešení na
všech úrovních podnikových systémů. IBM dodává v podobě Information Integratoru
middleware pro integraci dat a všichni databázoví výrobci pracují na metodách
ukládání XML a nestrukturovaných dat. Hummingbird začleňuje do svých produktů
za účelem zpracování takových dat vyhledávací engine, zatímco Microsoft
dovoluje tvorbu referencí na tento typ informací pomocí Smart Tags.









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.