Sběr a správa dat

DEFINICE Databáze je organizovaným souhrnem informací. Datový sklad je velmi rozsáhlou databází, která je vybavena sp...


DEFINICE
Databáze je organizovaným souhrnem informací. Datový sklad je velmi rozsáhlou
databází, která je vybavena speciální sadou nástrojů pro vytěžování a filtraci
dat z operačních systémů a pro analýzu získaných dat. Datové tržiště je
specializovanou podsestavou datového skladu, která je zaměřena na jednu oblast
dat její uspořádání umožňuje rychlé analytické zpracování těchto dat.
Správa a organizace dat nabyla na významu spolu s explozí e-businessu a s
následným růstem množství dostupných informací. Častokrát slyšíme termíny jako
databáze, datový sklad a datové tržiště, ale rozdíly mezi nimi nebývají zcela
jasné. Někteří odborníci uvádějí, že například rozdíl mezi datovým tržištěm a
datovým skladem spočívá spíše v pojetí než v reálném využití. K odlišení
uvedených pojmů si můžeme pomoci několika pravidly založenými na selském
rozumu. A vezměme to pěkně od začátku. Za data označujeme syrové kusy
informací, které lze přemisťovat a ukládat. V širokém slova smyslu je pak
databáze souhrnem nebo agregací nezpracovaných základních dat a informací
provázaných prostřednictvím vzájemných souvislostí mezi těmito daty (např.
jméno člověka, jeho výška a váha).
Databáze bývá zcela typicky uspořádána do záznamů jeden záznam na jednu
položku, například objednávku a tyto záznamy jsou rozděleny do jednotlivých
polí, kde každé pole obsahuje informaci o specifickém hledisku nebo atributu
zadané položky. V případě objednávky to mohou být údaje o zákazníkovi, čísla
součástí, ceny a poskytnuté slevy.
Z teoretického hlediska databáze ani nevyžaduje počítač. V případě, kdy je však
databáze provozovaná na počítači, může být skutečně efektivně využito jeho
možností např. pro vyhledávání v datech nebo při jejich třídění či řazení.
Dobrým příkladem databáze může být papírový kapesní adresář vyhledávání
zadaných kontaktů podle měst nebo oborů v něm vyžaduje procházení jednotlivých
stránek.

Dva významy
Systémy řízení báze dat (SŘBD), tedy software, který má na starosti uchovávání
dat a jejich zpracování, nabízejí např. společnosti Microsoft, Oracle nebo IBM.
V češtině se SŘBD často označují slovem databáze a je potom třeba odlišit
databázi jako software a databázi ve významu sebraných dat.
"Kromě ukládání dat se software SŘBD stará také o bezpečnost dat a o řízený
přístup k nim," upozorňuje Mike Schiff, analytik společnosti Current Analysis z
Virginie. Nástroje Business Intelligence (BI) pak vyhledají požadovaná data a
provádějí jejich analýzu. Systémy řízení báze dat mohou být organizovány
různými způsoby. Např. relační databáze ukládají informace do tabulek a potom
spojují nebo kombinují tabulky přes definovaná společná pole. Hierarchická
databáze ukládá data ve stromové struktuře; v takovém případě má záznam
objednávky každou položku řádku uloženou ve stromové struktuře (např. databáze
registry ve Windows). Objektově orientovaná databáze v sobě zahrnuje data a
definovanou logiku. XML databáze zase nativně podporují standard XML a dokáží
ho efektivně využívat pro rozpoznání typu dat, který je v nich uložen.

Datové sklady
Datové sklady a datová tržiště jsou vzájemně velmi podobné technologie, se
kterými ale obvykle pracují různí klienti. "Například pro datový sklad je
typické, že obsahuje ohromné objemy dat z celé firmy," říká John Kopcke, CTO
(Chief Technology Officer) firmy Hyperion Solutions z Kalifornie, kde se
zabývají vývojem analytického softwaru. "Datová tržiště jsou obvykle menší a
bývají určeny jediné divizi nebo jediné linii produktů ve firmě," dodává.
"Datový sklad se podobá skutečnému skladu s potravinami, kde jsou uloženy
objemné zásoby potravin a odkud probíhá distribuce podskupin určitých produktů
do samoobsluh (obdobou jsou datová tržiště), kde jsou zpřístupněny lidem, aby
si je prohlédli anebo koupili," vysvětluje Kopcke. "Velikost datového tržiště
může být od několika megabajtů až po gigabajty," říká Tho Nguyen, ředitel
strategického vývoje datových skladů v SAS Institute ze Severní Karolíny.
"Velikost datových skladů se počítá v gigabajtech a terabajtech," dodává.
"Představte si datové tržiště, které podporuje provozovnu na výrobu izolepy.
Může obsahovat potřebná fakta týkající se výroby tohoto produktu včetně
informací o dodavatelích, dodávkách, cenových sazbách, kontroly jakosti a
podobně," vysvětluje Schiff. "Avšak nekontrolovatelný růst datových tržišť se
může stát noční můrou pro oddělení IT ve firmě, pokud se nebude v jednotlivých
datových tržištích důsledně dodržovat standardní názvosloví, struktury třídění
a kompatibilní formáty dat. Jistě si nikdo nepřeje mít ve firmě datová tržiště,
která mezi sebou nedokážou komunikovat," dodává. Uživatelé mívají tendenci
sestavit datový sklad z různých technologických částí a potom celou sestavu
modifikovat tak, aby vyhověla jejich požadavkům, místo aby raději přistoupili
na standardní ucelené řešení. Schiff poznamenává, že datové sklady bývají často
budovány na základě relačních databází, neboť relační model dokáže efektivněji
ukládat a organizovat ohromná množství informací, která tvoří velkokapacitní,
víceúčelový datový sklad. Ale je třeba dodat, že získávání dat z rozsáhlých
relačních tabulek může vyžadovat masivní objemy zpracování a ukládání dat. Pro
účely takovéto analýzy datová tržiště používají multidimenzionální databáze
vybavené prvky pro paralelní zpracování s cílem dosáhnout rychlé odezvy. Často
vyhledávaná data se z datového tržiště zavedou do menší databáze, nazývané
datová kostka (data cube). Tak je umožněno rychlejší zpracování a zvýšení
efektivnosti celé operace.

Dolování dat
S pojmem datového skladu úzce souvisí také termín dolování dat. Zatímco datové
sklady shromažďují data do formátu vhodného pro analýzu, proces dolování dat
mezi nimi následně vyhledává zajímavé a užitečné souvislosti.
Rozdíl v procesu analýzy dat v běžném datovém skladu a v procesu dolování dat
lze vysvětlit na následujícím příkladě: V prvním případě si uživatel vytvoří
nějakou hypotézu a poté nechá vyhledat data pro její podporu. Např. nechá
datový sklad vyhledat dodavatele, kteří budou mít problémy s dodávkami v
letních měsících, na základě předpokladu, že to budou ti, kteří již v minulých
letech vykazovali podobné nedostatky. V případě dolování dat je proces opačný:
Hypotéza vzniká až na základě procesu dolování. Příslušný nástroj se probírá
daty a hledá podklady pro zjištění, kdo obyčejně mívá problémy s dodávkami
možná to jsou firmy, které měly problémy již dříve, ale možná, že ne.
Tímto způsobem lze řešit nejrůznější typy problémů. Základním předpokladem je
však vlastnictví dostatečného objemu odpovídajících dat.









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.