Technologie pro data warehousing a data mining

4. 6. 2007

Data warehousing a data mining jsou dnes běžně používanými pojmy ve většině velkých a středních institucí. Následující řádky vám objasní, co všechno se pod těmito pojmy skrývá a proč firmy do těchto řešení investují nemalé prostředky.Data warehousing tvoří spolu s data miningem páteř tzv. business inteligence (BI) řešení, jehož smysl je prozaický – poskytnout uživatelům rychlou, přesnou a úplnou informaci o jejich klientech, zaměstnancích produktech či o hospodaření společnosti.

Být informován znamená vědět, kterým klientům je možné nabídnout po telefonu úvěrovou kartu, u kterých klientů je vysoké riziko, že odejdou ke konkurenci, znát vývoj tržeb za posledních 30 dní v členění dle regionů a produktů, anebo také jak se liší skutečný výkon společnosti od toho plánovaného. Mít informace také znamená vědět na základě kliknutí myší detailní profil o každém klientovi, který se dovolá na call centrum.

Získat cennou informaci však není až tak triviální, jak se může zdát. K hlavnímu zdroji informací patří jednak systémy přímo určené pro provoz firmy (ERP, SCM, CRM), jednak externí databáze (například číselníky adres, obcí, telefonní seznamy, registry ekonomických subjektů, databáze neplatičů apod.).

Tyto „generátory“ dat však většinou nejsou schopny požadovanou informaci uživatelům poskytnout, a to hned z několika důvodů:

Rozšiřování o nové produkty, zavádění nových systémů, fúze a akvizice společností vede k tomu, že data jsou uložena na mnoha místech, platformách a odlišných strukturách i formátech.
Data na pobočkách či call centrech se pořizují ve stresu, a proto nejsou často úplná, obsahují chyby, překlepy či neplatné hodnoty.
Provozní systémy, které tvoří hlavní zdroj dat, jsou navíc natolik vytížené svým provozem, že nějaké složité analýzy zde ani nepřipadají v úvahu. Ale i kdyby to možné bylo, data většinou nejsou uložena ve strukturách vhodných pro analýzy a obsahují často pouze aktuální stav bez historie. Primární systémy mají jediný cíl – zajistit operativu fungování firmy.

Schéma architektury typického datového skladu.

Získat agregovanou informaci pro zlepšení byznysu tak znamená v první fázi převést data do vhodných struktur – datového skladu (DWH, data warehouse). Data warehouse není nic jiného než databáze, obsahující konsolidovaná data ze všech dostupných provozních systému, a optimalizovaná nikoli pro rychlé zpracování transakcí, nýbrž pro reporting, analýzu a archivaci dat. Data z datového skladu se často stávají pro firmu natolik užitečná a provozně důležitá, že jeho omezení či vyřazení může znamenat ochromení chodu celé společnosti.

ETL - datové pumpy

K převodu dat do datového skladu se využívají ETL (Extraction, Transformation, Loading) nástroje, jež jsou většinou součástí balíku zvolené databázové technologie. Lze ovšem zvolit i specializovaný nástroj. Jejich úkolem je v co nejkratší době – většinou bez jakýchkoli úprav – vytáhnou potřebná data ze zdrojových systémů (Extraction) a uložit je do dočasného úložiště (DSA, Data Staging Area). Pak následuje fáze transformací (Transformation), během které dochází k nejpodstatnější části celého řešení – k čištění dat (doplnění chybějících hodnot, odstranění překlepů, převedení na shodné formáty, spárování na jednotné číselníky/dimenze), k datové konsolidaci (unifikaci hlavních entit – zákazníci, zaměstnanci, dodavatelé, partneři, produkty apod.) a k výpočtu agregací podle hlavních entit.

K čištění se používají inteligentní nástroje obsahující typické vzorky nečistot a často napojené na externí číselníky jmen, adres, titulů atp. Teprve takto připravená data je možné nahrát (loading) do centrálního úložiště datového skladu. Tam by již data měla být čistá, úplná, konzistentní, historizovaná a konsolidovaná.

Tyto „generátory“ dat však většinou nejsou schopny požadovanou informaci uživatelům poskytnout, a to hned z několika důvodů:

Rozšiřování o nové produkty, zavádění nových systémů, fúze a akvizice společností vede k tomu, že data jsou uložena na mnoha místech, platformách a odlišných strukturách i formátech.
Data na pobočkách či call centrech se pořizují ve stresu, a proto nejsou často úplná, obsahují chyby, překlepy či neplatné hodnoty.
Provozní systémy, které tvoří hlavní zdroj dat, jsou navíc natolik vytížené svým provozem, že nějaké složité analýzy zde ani nepřipadají v úvahu. Ale i kdyby to možné bylo, data většinou nejsou uložena ve strukturách vhodných pro analýzy a obsahují často pouze aktuální stav bez historie. Primární systémy mají jediný cíl – zajistit operativu fungování firmy.

Schéma architektury typického datového skladu.

ETL - datové pumpy

Tyto „generátory“ dat však většinou nejsou schopny požadovanou informaci uživatelům poskytnout, a to hned z několika důvodů:

Rozšiřování o nové produkty, zavádění nových systémů, fúze a akvizice společností vede k tomu, že data jsou uložena na mnoha místech, platformách a odlišných strukturách i formátech.
Data na pobočkách či call centrech se pořizují ve stresu, a proto nejsou často úplná, obsahují chyby, překlepy či neplatné hodnoty.
Provozní systémy, které tvoří hlavní zdroj dat, jsou navíc natolik vytížené svým provozem, že nějaké složité analýzy zde ani nepřipadají v úvahu. Ale i kdyby to možné bylo, data většinou nejsou uložena ve strukturách vhodných pro analýzy a obsahují často pouze aktuální stav bez historie. Primární systémy mají jediný cíl – zajistit operativu fungování firmy.

Schéma architektury typického datového skladu.

ETL - datové pumpy

Našli jste v článku chybu?

Whitepapers

Sdílet

Autor článku

Lubomír Hanuseka

pat

Témata:

Mohlo by vás zajímat

Anketa

Využíváte už ve firmě autonomní agenty postavené na bázi umělé inteligence?

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Vsadili jste na digitální transformaci? Čekají vás neustálé změny a úpravy

Třetí čtvrtletí letošního roku ryze českých investic

Canalys: Příprava na AI je v plném proudu, investice do cloudové infrastruktury vystřelily o 21 %

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Na co mají zaměstnanci nárok, pokud se starají o nemocné blízké?

Arrow Electronics v EMEA spouští Cloud Amplification Program

Raspberry Pi: jaké příslušenství zvolit pro začátek?

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Coffee break: Když Wi-Fi potřebuje překonávat i kovové zdi

Technologie pro data warehousing a data mining

Sdílet

Autor článku

Lubomír Hanuseka

pat

Témata:

Mohlo by vás zajímat

Podcast: Kybernetická bezpečnost v Česku – dokážeme čelit novým hrozbám?

Co se dočtete v novém Computerworldu 11/2024?

Windows Recall: Kontroverzní funkce sledující obrazovku má další zpoždění!

Anketa

Využíváte už ve firmě autonomní agenty postavené na bázi umělé inteligence?

Kvíz týdne

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Z našich webů

Vsadili jste na digitální transformaci? Čekají vás neustálé změny a úpravy

Třetí čtvrtletí letošního roku ryze českých investic

Canalys: Příprava na AI je v plném proudu, investice do cloudové infrastruktury vystřelily o 21 %

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Na co mají zaměstnanci nárok, pokud se starají o nemocné blízké?

Arrow Electronics v EMEA spouští Cloud Amplification Program

Raspberry Pi: jaké příslušenství zvolit pro začátek?

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Coffee break: Když Wi-Fi potřebuje překonávat i kovové zdi

Dále u nás najdete

Bezplatný Microsoft PC Manager vylepšen

Edge zkouší nový trik na uživatele Chromu

Oznámení o osvobozených příjmech: shrnutí povinností

Osvědčené způsoby, jak snížit vysoký krevní tlak

Opatrně s kofeinovým práškem, už jedna lžička je životu nebezpečná

Šestka nad čtyřkou? Zastaralé. Čtyřka nad šestkou!

Firmy mají řešit byznys, ne hledat účtenky, razí Fidoo

Nitroděložní tělíska jsou spolehlivá a hodí se i pro mladé ženy

Jihlava a Havlíčkův Brod mění daň z nemovitostí. Co další města?

Balík od DPD si nově můžete vyzvednout i na České poště

Papírové letáky budou zpoplatněny, může jít o desetník za kus

Kdy začít péct cukroví? Vhodná doba nastává o adventu

Podnikatelé s nižšími příjmy si za celý rok připlatí skoro o 13 tisíc víc

Nejlepší dobou, kdy začít péct perníčky, je měsíc před Vánoci

Horké nápoje: Zkuste recepty na šest nejznámějších

Dřívější neplodnost dnes řeší miniinvazivní operace

V aplikaci Záchranka je rozcestník péče pro nevyléčitelně nemocné

Vyzkoušeli jsme test, který ukazuje, co jsme zdědili po předcích

Čeští středoškoláci očekávají vypuštění své družice

Digitální transformace znamená neustálé změny a úpravy