Od pouhých souborů k relačním databázím

První možností, která se nabízí pro uchovávání dat, jsou klasické diskové soubory, které se pro uchovávání dat ...


První možností, která se nabízí pro uchovávání dat, jsou klasické diskové
soubory, které se pro uchovávání dat používaly a používají. Soubory využívá
namísto databázového řešení ještě dnes nejedno účetnictví napsané u nás krátce
po roce 1989. Jak vývojáři, tak uživatelé však brzy přišli na množství nevýhod,
které tento přístup má. Namátkou můžeme uvést neexistenci indexů pro zrychlené
vyhledávání dat nebo nemožnost zotavení z chyb. Problémem je také model dat,
který chápe databázi pouze jako soubory záznamů bez jakýchkoli vazeb mezi
soubory.
Hierarchické databáze modelují data jako strom, například: Učitel učí předměty,
na které jsou zapisováni žáci. Jeden učitel může vyučovat několik předmětů, na
jeden předmět může být zapsáno několik studentů. Hierarchický model byl výborný
pro řešení vztahů 1 : N (jeden učitel, několik předmětů nebo jeden předmět,
několik studentů). Potíž hierarchického modelu byla v realizaci vztahů M : N.
Síťový datový model umožňoval modelovat i vztahy M : N. V tomto modelu byl
zobecněn datový model tak, že pro data namísto stromu použil orientované grafy.
Bylo však obtížné jej implementovat i spravovat, navíc byl tento model výhodný
spíše pro programátory než pro koncové uživatele.
Relační databáze poskytly řešení na mnohé výše zmíněné problémy. Data jsou
modelována jako tabulky, mezi nimiž existují vazby. Jsou teoreticky podloženy
aparátem relační algebry a jejich chování je tedy možno teoreticky zkoumat a
dokázat. Poskytují i koncovým uživatelům poměrně jednoduchý aparát na
manipulaci s daty i jejich dotazování v jazyce SQL. Relační databáze jsou však
o něco pomalejší než databáze síťové nebo hierarchické. Jejich klady však tento
zápor mnohonásobně převyšují a už se staly standardem.
Dnešní relační databáze proto obsahují mnoho rysů, které si pokrok postupem
času vynutil. Jedním z nich je architektura klient//server, kde se aplikace
rozdělí na dvě části: serverovou, jejímž úkolem je zachytávat požadavky z
klientů a vracet jim odpovědi, a klientskou, která klade otázky a zachytává
odpovědi. Architektura klient-server je dnes u středních a větších databází
standardem. Většina činnosti SQL serverů spočívá v zachytávání SQL dotazů a
vracení jejich výsledků.
Dalším rysem databází je tzv. log, česky někdy nazývaný žurnál nebo (zápisový)
protokol. Log totiž v podstatě zapisuje každou operaci, která se v databázi
stala, takže při případném výpadku serveru je možné tyto operace provést znovu,
a databázi tak uvést do stavu před jejím havarováním.
Proč datový sklad?
Ukládání dat do databází po dlouhý čas vedlo přirozeně k otázkám, jak informace
v nich uložené využít. Archivní pásky ukládané jedna vedle druhé pro případ
havárie a nutnosti obnovit systém ze zálohy by neměly být jediným využitím
historických dat. Vždyť data uchovávají důležité informace o zákaznících, o
vývoji firmy a mohou obsahovat důležité podklady pro analýzy, které mohou
pomoci lépe rozhodovat. Úkolem datových skladů je poskytnout podklad pro
dostatečně rychlé a konzistentní analýzy historických dat.

Datové sklady jsou základem
Informační systémy provozované v dnešních firmách mají společné především to,
že slouží k automatizaci provozních činností a obchodních procesů. Z těchto
důvodů se také označují jako provozní systémy či jako transakční systémy (což
reflektuje, že jejich podstatou je zpracování transakcí OLTP OnLine Transaction
Processing). Příkladem takového systému může být například některý z balíkových
informačních systémů ERP.

Tyto systémy plní velice dobře to, k čemu byly navrženy, vytvořeny a
implementovány umožňují evidovat zákazníky, vystavovat objednávky, rezervovat
místenky či zboží ve skladě, plánovat výrobu, kontrolovat plnění zakázek,
evidovat transakce na účtu zákazníka, vystavovat faktury, párovat došlé platby
od zákazníků a převádět data do účetnictví. Jejich používáním vzniká velké
množství dat, která mohou být zdrojem velmi cenných informací.
Problémy ale nastávají, pokud se pomocí stejných systémů mají vzniklá data
následně zpracovat tak, aby je bylo možné použít pro rozhodování či analýzy
např. porovnat prodeje jednotlivých výrobků v různých regionech za posledních
12 měsíců, předpovědět počet zakázek na příští dva měsíce, posoudit trend v
příjmech s eliminací sezónních výkyvů, seskupit zákazníky do segmentů se
společnou charakteristikou, zjistit, jací zákazníci mají tendenci přejít ke
konkurenci atp. Provozní systémy nedokáží tyto úlohy odstraňovat z několika
zásadních důvodů, proto nastupují další technologie, které řeší následující
problémy.
Nedostatečná historie dat. Provozní systémy udržují z kapacitních důvodů data
stará pouze několik měsíců, starší data se přehrávají do archivu, kde mají
velice omezenou využitelnost.
Nedostatečné techniky a nástroje pro zpracování dat. Provozní systémy většinou
disponují sadou připravených reportů, které jsou navíc orientovány spíše na
sledování procesů a jednotlivých transakcí než na globální pohled.
Nemožnost zpracovat data z jiných aplikací. V žádné společnosti není používán
pouze jeden systém, byť existují velmi mohutná řešení jako je např. SAP R/3.
Řada dat navíc vzniká mimo provozní systémy třeba i jako původně pouze osobní
aplikace. Důležitá data rovněž pocházejí z externích zdrojů ať se jedná např. o
údaje z finančních trhů anebo data o průzkumu trhu.
Nepříznivý dopad na výkonnost provozních systémů. Zpracování dat v provozních
systémech k souhrnným přehledům a analýzám představuje další zátěž a vede k
prodlužování doby odezvy transakčních systémů pro běžné uživatele.
Výše uvedené důvody vedou k zásadnímu konceptu datových skladů:
Požadavky na provozní systémy a na zpracování dat pro rozhodování (tyto systémy
se v zahraničí označují jako Information Delivery dodání informací) jsou
natolik rozdílné, že vyžadují dva druhy systémů provozní systémy a datový sklad.
Datový sklad je fyzicky a logicky oddělen od provozních systémů a představuje
další krok v budování informačních systémů.
Data z provozních systémů se převádějí do datového skladu, kde se po
transformaci ukládají způsobem, který vyhovuje analytickému a prezentačnímu
zpracování výstupů.

Architektura skladu
Prosadily se dva základní koncepty datového skladu: nezávislé datamarty
(virtuální datový sklad) a integrovaný datový sklad.

Využití datového skladu
Přínosy z realizace DS jsou tím větší, čím větší jsou možnosti na analýzy a
prezentace dat. Nejdůležitější metody jsou následující:
Operativní dotazy (tj. předem nepřipravené dotazy na určité hodnoty).
Sestavy (jak standardní generované dávkově, tak operativní vytvářené podle
potřeby).
Multidimenzionální analýza (OLAP, tj. rychlé prohlížení dat sumarizovaných na
různých úrovních z různých pohledů neboli dimenzí).
Statistické analýzy (např. zjišťování závislosti veličin, identifikace
důležitých proměnných, vytváření segmentů).
Finanční analýzy (např. ekonometrické modelování, termínové modely).
Analýzy časových řad a tvorbu předpovědí (např. předpovědi budoucích hodnot a
identifikace sezónních výkyvů).
Vizualizaci dat (prohlížení dat v dynamicky provázaných grafech pro např.
identifikaci neobvyklých a extrémních hodnot a závislostí mezi daty).
Dolování dat (data mining, specializované techniky pro zpracování velkých
objemů dat a hledání skrytých vzorů a souvislostí).
Geografické informační systémy (převádění hodnot proměnných na geografickou
prezentaci např. zabarvení okresů podle počtu zákazníků).
Manažerské informační systémy EIS (připravené aplikace pro vedoucí pracovníky
se snadným ovládáním kombinující OLAP, reporting, přehledné zobrazení
kritických veličin, jednoduché předpovědi).

V českých podmínkách
Situace v České republice z pohledu datových skladů není příliš progresivní. Ve
vyspělých zemích byl koncept datových skladů již běžně akceptován a ve většině
firem datový sklad již existuje, či je alespoň plán na jeho realizaci. V České
republice naproti tomu existuje málo společností, které se orientují v této
problematice alespoň natolik, že vědí, co to datový sklad je a uvažují o jeho
realizaci. V našich podmínkách se nejčastěji hovoří o tzv. manažerských
informačních systémech (což je v podstatě pouze jeden ze způsobů využití
datového skladu), které jsou chápány jako aplikace v Excelu či další modul
provozních systémů. Případně je realizován EIS jako OLAP aplikace (tj. v
podstatě datamart). Řada firem žije i nadále v přesvědčení, že provozní systémy
vyřeší všechny jejich potřeby včetně dodání informací pro rozhodování.
1 1052 / vox









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.