Technologie pro data warehousing a data mining

4. 6. 2007

Sdílet

Data warehousing a data mining jsou dnes běžně používanými pojmy ve většině velkých a středních institucí. Následující řádky vám objasní, co všechno se pod těmito pojmy skrývá a proč firmy do těchto řešení investují nemalé prostředky.Data warehousing tvoří spolu s data miningem páteř tzv. business inteligence (BI) řešení, jehož smysl je prozaický – poskytnout uživatelům rychlou, přesnou a úplnou informaci o jejich klientech, zaměstnancích produktech či o hospodaření společnosti.

Data warehousing a data mining jsou dnes běžně používanými pojmy ve většině velkých a středních institucí. Následující řádky vám objasní, co všechno se pod těmito pojmy skrývá a proč firmy do těchto řešení investují nemalé prostředky.Data warehousing tvoří spolu s data miningem páteř tzv. business inteligence (BI) řešení, jehož smysl je prozaický – poskytnout uživatelům rychlou, přesnou a úplnou informaci o jejich klientech, zaměstnancích produktech či o hospodaření společnosti.

Být informován znamená vědět, kterým klientům je možné nabídnout po telefonu úvěrovou kartu, u kterých klientů je vysoké riziko, že odejdou ke konkurenci, znát vývoj tržeb za posledních 30 dní v členění dle regionů a produktů, anebo také jak se liší skutečný výkon společnosti od toho plánovaného. Mít informace také znamená vědět na základě kliknutí myší detailní profil o každém klientovi, který se dovolá na call centrum.

Získat cennou informaci však není až tak triviální, jak se může zdát. K hlavnímu zdroji informací patří jednak systémy přímo určené pro provoz firmy (ERP, SCM, CRM), jednak externí databáze (například číselníky adres, obcí, telefonní seznamy, registry ekonomických subjektů, databáze neplatičů apod.).

Tyto „generátory“ dat však většinou nejsou schopny požadovanou informaci uživatelům poskytnout, a to hned z několika důvodů:

  • Rozšiřování o nové produkty, zavádění nových systémů, fúze a akvizice společností vede k tomu, že data jsou uložena na mnoha místech, platformách a odlišných strukturách i formátech.
  • Data na pobočkách či call centrech se pořizují ve stresu, a proto nejsou často úplná, obsahují chyby, překlepy či neplatné hodnoty.
  • Provozní systémy, které tvoří hlavní zdroj dat, jsou navíc natolik vytížené svým provozem, že nějaké složité analýzy zde ani nepřipadají v úvahu. Ale i kdyby to možné bylo, data většinou nejsou uložena ve strukturách vhodných pro analýzy a obsahují často pouze aktuální stav bez historie. Primární systémy mají jediný cíl – zajistit operativu fungování firmy.



Schéma architektury typického datového skladu.

Získat agregovanou informaci pro zlepšení byznysu tak znamená v první fázi převést data do vhodných struktur – datového skladu (DWH, data warehouse). Data warehouse není nic jiného než databáze, obsahující konsolidovaná data ze všech dostupných provozních systému, a optimalizovaná nikoli pro rychlé zpracování transakcí, nýbrž pro reporting, analýzu a archivaci dat. Data z datového skladu se často stávají pro firmu natolik užitečná a provozně důležitá, že jeho omezení či vyřazení může znamenat ochromení chodu celé společnosti.

ETL - datové pumpy

K převodu dat do datového skladu se využívají ETL (Extraction, Transformation, Loading) nástroje, jež jsou většinou součástí balíku zvolené databázové technologie. Lze ovšem zvolit i specializovaný nástroj. Jejich úkolem je v co nejkratší době – většinou bez jakýchkoli úprav – vytáhnou potřebná data ze zdrojových systémů (Extraction) a uložit je do dočasného úložiště (DSA, Data Staging Area). Pak následuje fáze transformací (Transformation), během které dochází k nejpodstatnější části celého řešení – k čištění dat (doplnění chybějících hodnot, odstranění překlepů, převedení na shodné formáty, spárování na jednotné číselníky/dimenze), k datové konsolidaci (unifikaci hlavních entit – zákazníci, zaměstnanci, dodavatelé, partneři, produkty apod.) a k výpočtu agregací podle hlavních entit.

K čištění se používají inteligentní nástroje obsahující typické vzorky nečistot a často napojené na externí číselníky jmen, adres, titulů atp. Teprve takto připravená data je možné nahrát (loading) do centrálního úložiště datového skladu. Tam by již data měla být čistá, úplná, konzistentní, historizovaná a konsolidovaná.

 

Data warehousing a data mining jsou dnes běžně používanými pojmy ve většině velkých a středních institucí. Následující řádky vám objasní, co všechno se pod těmito pojmy skrývá a proč firmy do těchto řešení investují nemalé prostředky.Data warehousing tvoří spolu s data miningem páteř tzv. business inteligence (BI) řešení, jehož smysl je prozaický – poskytnout uživatelům rychlou, přesnou a úplnou informaci o jejich klientech, zaměstnancích produktech či o hospodaření společnosti.

Být informován znamená vědět, kterým klientům je možné nabídnout po telefonu úvěrovou kartu, u kterých klientů je vysoké riziko, že odejdou ke konkurenci, znát vývoj tržeb za posledních 30 dní v členění dle regionů a produktů, anebo také jak se liší skutečný výkon společnosti od toho plánovaného. Mít informace také znamená vědět na základě kliknutí myší detailní profil o každém klientovi, který se dovolá na call centrum.

Získat cennou informaci však není až tak triviální, jak se může zdát. K hlavnímu zdroji informací patří jednak systémy přímo určené pro provoz firmy (ERP, SCM, CRM), jednak externí databáze (například číselníky adres, obcí, telefonní seznamy, registry ekonomických subjektů, databáze neplatičů apod.).

Tyto „generátory“ dat však většinou nejsou schopny požadovanou informaci uživatelům poskytnout, a to hned z několika důvodů:

  • Rozšiřování o nové produkty, zavádění nových systémů, fúze a akvizice společností vede k tomu, že data jsou uložena na mnoha místech, platformách a odlišných strukturách i formátech.
  • Data na pobočkách či call centrech se pořizují ve stresu, a proto nejsou často úplná, obsahují chyby, překlepy či neplatné hodnoty.
  • Provozní systémy, které tvoří hlavní zdroj dat, jsou navíc natolik vytížené svým provozem, že nějaké složité analýzy zde ani nepřipadají v úvahu. Ale i kdyby to možné bylo, data většinou nejsou uložena ve strukturách vhodných pro analýzy a obsahují často pouze aktuální stav bez historie. Primární systémy mají jediný cíl – zajistit operativu fungování firmy.



Schéma architektury typického datového skladu.

Získat agregovanou informaci pro zlepšení byznysu tak znamená v první fázi převést data do vhodných struktur – datového skladu (DWH, data warehouse). Data warehouse není nic jiného než databáze, obsahující konsolidovaná data ze všech dostupných provozních systému, a optimalizovaná nikoli pro rychlé zpracování transakcí, nýbrž pro reporting, analýzu a archivaci dat. Data z datového skladu se často stávají pro firmu natolik užitečná a provozně důležitá, že jeho omezení či vyřazení může znamenat ochromení chodu celé společnosti.

ETL - datové pumpy

K převodu dat do datového skladu se využívají ETL (Extraction, Transformation, Loading) nástroje, jež jsou většinou součástí balíku zvolené databázové technologie. Lze ovšem zvolit i specializovaný nástroj. Jejich úkolem je v co nejkratší době – většinou bez jakýchkoli úprav – vytáhnou potřebná data ze zdrojových systémů (Extraction) a uložit je do dočasného úložiště (DSA, Data Staging Area). Pak následuje fáze transformací (Transformation), během které dochází k nejpodstatnější části celého řešení – k čištění dat (doplnění chybějících hodnot, odstranění překlepů, převedení na shodné formáty, spárování na jednotné číselníky/dimenze), k datové konsolidaci (unifikaci hlavních entit – zákazníci, zaměstnanci, dodavatelé, partneři, produkty apod.) a k výpočtu agregací podle hlavních entit.

K čištění se používají inteligentní nástroje obsahující typické vzorky nečistot a často napojené na externí číselníky jmen, adres, titulů atp. Teprve takto připravená data je možné nahrát (loading) do centrálního úložiště datového skladu. Tam by již data měla být čistá, úplná, konzistentní, historizovaná a konsolidovaná.

 

Data warehousing a data mining jsou dnes běžně používanými pojmy ve většině velkých a středních institucí. Následující řádky vám objasní, co všechno se pod těmito pojmy skrývá a proč firmy do těchto řešení investují nemalé prostředky.Data warehousing tvoří spolu s data miningem páteř tzv. business inteligence (BI) řešení, jehož smysl je prozaický – poskytnout uživatelům rychlou, přesnou a úplnou informaci o jejich klientech, zaměstnancích produktech či o hospodaření společnosti.

Být informován znamená vědět, kterým klientům je možné nabídnout po telefonu úvěrovou kartu, u kterých klientů je vysoké riziko, že odejdou ke konkurenci, znát vývoj tržeb za posledních 30 dní v členění dle regionů a produktů, anebo také jak se liší skutečný výkon společnosti od toho plánovaného. Mít informace také znamená vědět na základě kliknutí myší detailní profil o každém klientovi, který se dovolá na call centrum.

Získat cennou informaci však není až tak triviální, jak se může zdát. K hlavnímu zdroji informací patří jednak systémy přímo určené pro provoz firmy (ERP, SCM, CRM), jednak externí databáze (například číselníky adres, obcí, telefonní seznamy, registry ekonomických subjektů, databáze neplatičů apod.).

Tyto „generátory“ dat však většinou nejsou schopny požadovanou informaci uživatelům poskytnout, a to hned z několika důvodů:

  • Rozšiřování o nové produkty, zavádění nových systémů, fúze a akvizice společností vede k tomu, že data jsou uložena na mnoha místech, platformách a odlišných strukturách i formátech.
  • Data na pobočkách či call centrech se pořizují ve stresu, a proto nejsou často úplná, obsahují chyby, překlepy či neplatné hodnoty.
  • Provozní systémy, které tvoří hlavní zdroj dat, jsou navíc natolik vytížené svým provozem, že nějaké složité analýzy zde ani nepřipadají v úvahu. Ale i kdyby to možné bylo, data většinou nejsou uložena ve strukturách vhodných pro analýzy a obsahují často pouze aktuální stav bez historie. Primární systémy mají jediný cíl – zajistit operativu fungování firmy.



Schéma architektury typického datového skladu.

Získat agregovanou informaci pro zlepšení byznysu tak znamená v první fázi převést data do vhodných struktur – datového skladu (DWH, data warehouse). Data warehouse není nic jiného než databáze, obsahující konsolidovaná data ze všech dostupných provozních systému, a optimalizovaná nikoli pro rychlé zpracování transakcí, nýbrž pro reporting, analýzu a archivaci dat. Data z datového skladu se často stávají pro firmu natolik užitečná a provozně důležitá, že jeho omezení či vyřazení může znamenat ochromení chodu celé společnosti.

ETL - datové pumpy

K převodu dat do datového skladu se využívají ETL (Extraction, Transformation, Loading) nástroje, jež jsou většinou součástí balíku zvolené databázové technologie. Lze ovšem zvolit i specializovaný nástroj. Jejich úkolem je v co nejkratší době – většinou bez jakýchkoli úprav – vytáhnou potřebná data ze zdrojových systémů (Extraction) a uložit je do dočasného úložiště (DSA, Data Staging Area). Pak následuje fáze transformací (Transformation), během které dochází k nejpodstatnější části celého řešení – k čištění dat (doplnění chybějících hodnot, odstranění překlepů, převedení na shodné formáty, spárování na jednotné číselníky/dimenze), k datové konsolidaci (unifikaci hlavních entit – zákazníci, zaměstnanci, dodavatelé, partneři, produkty apod.) a k výpočtu agregací podle hlavních entit.

bitcoin_skoleni

K čištění se používají inteligentní nástroje obsahující typické vzorky nečistot a často napojené na externí číselníky jmen, adres, titulů atp. Teprve takto připravená data je možné nahrát (loading) do centrálního úložiště datového skladu. Tam by již data měla být čistá, úplná, konzistentní, historizovaná a konsolidovaná.