Použití nástroje DataFlux pro řízení datové kvality

27. 10. 2008

Sdílet

Přečtěte si studii o použití nástroje DataFlux pro řízení datové kvality.

Komponenty produktu

Nástroj se skládá z klientské aplikace dfPower Studio, přestavující sloužící především pro tvorbu byznys pravidel, a DataFlux Ingegration Server, poskytujícího platformu pro vytvoření tzv. Data Integration HUB, tedy báze integrující datovou kvalitu napříč celou organizací. DataFlux tak neposkytuje pouze nástroj pro datovou kvalitu, ale i pro Master Data Management.

Znalostní báze

Jádro řešení DataFlux tvoří tzv. QKB (Quality Knowledge Base), obsahující ke každému sémantickému typu definice datové kvality a na ně navěšené gramatiky, fonetické knihovny (např. pravidla pro záměnu zdvojených samohlásek), knihovny regulárních výrazů, standardizační schémata a slovníky. Všechny její části jsou snadno přizpůsobitelné individuálním potřebám uživatele. Lze je snadno upravit nebo doplnit o vlastní pravidla, empiricky zjištěná na datech při konkrétních projektech. Snazšímu přizpůsobení QKB napomáhá vestavěný nástroj dfCustomize, resp. jeho součásti (Vocabulary Editor, Grammar Editor, Regex Editor, Phonetics Editor, Chop Table Editor a Scheme Builder), spustitelné též smostatně přímo z hlavního rozhraní aplikace dfPower Studio.

Přístup k datům

Pro konektivitu na datové zdroje využívá DataFlux připojení pomocí ODBC. S instalací DataFlux dfPower Studio uživatel získá celou řadu driverů, mezi nimiž rozhodně nechybí ty pro konektivitu na základní RDBMS jako je Oracle, MS SQL Server, Sybase či Informix. Specifické je připojení na SAS data sety, které lze provést přímo, bez nutnosti definice ODBC zdroje. Samozřejmá je možnost přímého načítání textových souborů jak s oddělovačem, tak i s pevnou šířkou sloupce. Zajímavou funkcionalitu představuje možnost načítání metadat tabulky, nadefinované jako ODBC zdroj. Uživatel ji docení jak při verifikaci dat proti metadatům, tak i při aktuálně populárním čištění metadat, doposud neprávem opomíjené oblasti datové kvality.

Pro úpravu datových zdrojů prostřednictvím Query Builderu (Query By Example), anebo přímo pomocí napsaného dotazu v SQL se syntaxí kompatibilní s ANSI SQL slouží aplikace DBViewer, spustitelná ze základního rozhraní dfPower Studio.

Work flow procesu datové kvality

K vytváření work flow procesu datové kvality slouží integrovaná aplikace dfPower Architect.. Schéma lze rozdělit do více stránek, které lze spouštět i jednotlivě či nastavit pořadí spouštění jednotlivých stránek.Vzorek výsledku běhu jednotlivých nodů (uzlových bodů work flow) lze zobrazit v okně Preview. Jednotlivé nody i jejich skupiny lze volně kopírovat / přesouvat jak mezi jednotlivými stránkami work flow, tak i mezi více otevřenými okny aplikace.

Profilace a verifikace dat

Hlavním cílem profilace je porozumění vlastním datům na základě zjištěných charakteristik a verifikace dat proti metadatům a definovaným omezením.

dfPower Architect poskytuje řadu nodů, které např. umožňují zjištění základních popisných statistik a identifikaci vzorů ve formátech hodnot analyzovaných atributů. Jejich kombinací lze na základě četností jednotlivých vzorů identifikovat „obvyklý“ formát zápisu daného atributu a ostatní varianty na něj během následné standardizace převést. Pro účely verifikace dat lze použít node Validation, který mimo jiné umožňuje filtrovat vstupní záznamy na základě sady nadefinovaných pravidel a do dalšího zpracování pouštět jen ty, které tímto filtrem projdou, resp. neprojdou.

dfPower Explorer je další integrovaná aplikace sloužící pro identifikaci redundantních dat a extrakci metadat ze zdrojových systémů, nadefinovaných jako ODBC zdroj nebo jako fyzické úložiště SAS data setů. Takto lze analyzovat primární a cizí klíče, indexy, uložené procedury, názvy atributů, či odvodit některé vztahy mezi atributy ze vzorku dat. Nástroj např. nalezne atributy shodného názvu, vyskytující se ve více tabulkách, a doplní k nim procento shody. Může tak posloužit k verifikaci referenční integrity. Rovněž je schopen identifikovat atributy, které svým názvem vyhovují některé definici z QKB (např. u atributu s názvem fax odhadne, že se jedná o součást kontaktního údaje jednotlivce).

Pro verifikace dat dfPower Architect nabízí nody pro identifikaci pohlaví na základě porovnání jména (resp. příjmení) s QKB. Na podobném principu je rovněž založen node, identifikující, zda vstupní atribut obsahuje název firmy či jméno fyzické osoby.

Standardizace

Standardizace spočívá ve vybrání určitého etalonu a následné převedení stávajících hodnot na tento standard, ať již se jedná o sjednocení formátu zápisu tokenů v jednotlivých atributech, či o převedení chybných hodnot na hodnoty správné. V oblasti čištění adres se může např. jednat o sjednocení variant zápisu označení náměstí („nám.“, „n.“, „náměstí“) na hodnotu „nám.“.

Zde dfPower Architect poskytuje nody umožňující sjednocení velikosti znaků, aplikaci standardizačního schématu (ve formátu původní hodnota / standardizovaná hodnota) na zvolený atribut, ale i nody, s jehož pomocí lze do QKB přímo nahrát vlastní standardizační schéma, vytvořené např. v MS Excel.

Alternativně lze standardizační schéma vytvořit pomocí specializovaného integrovaného nástroje Scheme Builder. Jako zdroj je optimální použít výstup analýzy četností jednotlivých variant z kroku profilace dat, ať již provedené pomocí příslušného nodu dfPower Studia, či pomocí další integrované aplikace, nástroje dfProfile Configurator. Vytvořené schéma je možné přímo v Scheme Builderu rozšířit o další funkce odpovídající nodům dfPower Architekt a výsledek exportovat jako work flow.

Porovnávání, slučování a obohacení dat

Porovnávání a slučování úzce souvisí s problematikou eliminace duplicitních záznamů. V této fázi procesu jde především o identifikaci takového záznamu v referenčních datech, kterému je záznam vstupující do systému nejvíce podoben. V případě dosažení určité shody je záznam označen jako duplicitní a je sloučen s existujícím záznamem z referenční tabulky. Pokud vstupní záznam obsahoval dodatečné atributy, nevyplněné u stávajícího referenčního záznamu, lze o ně původní záznam v rámci tohoto kroku obohatit.

DataFlux pro tento účel vytváří nový atribut tzv. Match Code, generovaný ze stávajících atributů na základě uživatelem zadané míry senzitivity a eventuelně i doménové znalosti o typu atributu. Na takto vytvořený Match Code lze poté aplikovat node pro přesný join a snadno jej porovnat s odpovídajícím Match Code v referenční tabulce. Pokud není pro účely eliminace duplicit k dispozici odpovídající referenční tabulka, lze duplicity odstranit tak, že s pomocí specializovaných nodů vytvoříme přes Match Code shluky a poté na základě definovaných pravidel identifikujeme v rámci těchto shluků reprezentativní záznam jako tzv. Surviving Record. Vytvořené shluky při různé míře senzitivity lze porovnávat a posléze rozhodnout, který z nich vede k lepšímu určení přeživších záznamů. Jako alternativu k nodům dfPower Architect DataFlux opět nabízí integrovanou specializovanou aplikaci (dfPower Match).

DfPower Architect rovněž obsahuje řadu nodů, které lze přímo použít pro verifikaci adresy proti externí databázi (databáze US Postal Service, databáze QAS, atd.) a případné obohacení dat o v ní obsažené dodatečné atributy. Funkcionalitu těchto nodů lze do značné míry nahradit prostým připojením příslušného registru (např. UIR-ADR) jako ODBC zdroje.

Monitoring

Business Rule Manager slouží k definici monitorovacích úloh. Úloha je zde vytvořena na základě uživatelem definovaných pravidel (resp. jejich množin) a metrik. Pravidla a metriky jsou nadefinovány pomocí obecných atributů (tzv. Fields) na něž jsou skutečné atributy namapovány až v okamžiku, kdy je úloha exportována buď jako work flow (obsahující node Monitoring), a nebo jako služba na vzdáleném serveru. Při vytvoření úlohy lze určit konkrétní události reagující na výskyt chyby (např. spuštění některé aplikace, spuštění work flow dfPower Architect, zapsání do logu, apod.).

Doplňující funkcionalita

dfPower Architect nabízí také nody pro load dat z nadefinovaných ODBC zdrojů,. SAS data setů aktualizaci původních zdrojů opravenými hodnotami nebo export vyčištěných záznamů do nově vytvořených entit (tabulek, SAS data setů, či txt souborů). Další nody slouží pro doplnění inkrementálního klíče, rozdělení work flow do více větví, SQL lookup do číselníku nadefinovaného jako ODBC zdroj, SQL dotaz proti ODBC zdroji (včetně možnosti volat uloženou proceduru), či spuštění vnořeného jobu. Nechybí zde ani node pro kódování hodnot atributů s cílem zajistit jejich lepší přenositelnost mezi platformami a snazší SQL dotazy odstraněním diakritiky, mezer a non-ASCII znaků.

Tuto funkcionalitu je možné rozšířit s pomocí nodů podporujících Expression Engine Language (EEL), začlenění třídy jazyka Java, případně nodu COM Plugin, umožňujícího spouštění kódu napsaného v C++, VB či v jazyku Delphi. Dva poslední uvedené nody jsou zatím začleněny jako experimentální. Za hlavní nástroj pro rozšíření funkcionality lze považovat EEL.

Veškeré výsledky profilace dat, definované metriky, uživatelem vytvořená standardizační pravidla a výsledky monitorování jsou uchovány v uživatelem nadefinované repository. To je libovolný RDBMS přístupný jako ODBC zdroj nebo SQLite rps soubor. Výhodou koncepce externího úložiště je možnost centralizace v repository obsažených informací v rámci celé organizace a možnost jejich využití i v jiných nástrojích, než je DataFlux.

Zhodnocení práce s nástrojem DataFlux

Nástroj DataFlux hodnotím jako velmi silnou zbraň v boji s nekvalitními daty. Nejedná se pouze o doménově orientovaný nástroj, řešící datovou kvalitu jen v rámci konkrétní předmětné oblasti (např. pouze v rámci problematiky čištění adres). Díky snadné přizpůsobitelnosti QKB je možné jej nasadit prakticky v libovolném prostředí. Komu by pro řešení konkrétního projektu nestačila stávající funkcionalita, může si ji navíc rozšířit prostřednictvím EEL (node X+Y Extension), případně pomocí vlastního kódu napsaného v Javě (spustitelného prostřednictvím nodu Java Plugin) nebo v jazyce C++, VB nebo Delphi (spustitelného pomocí nodu COM Plugin).

Pro usnadnění implementace dodává DataFlux současně s dfPower Architect předpřipravená work flow, řešící obvyklé standardní situace v řízení datové kvality, tzv. akcelerátory.

DataFlux lze úspěšně nasadit i tam, kde má zákazník vybudováno BI na jiné platformě, než je SAS.

Reference

[1] Wheatley, M.; Operace čistá data. Business World. 2004, no. 11, s. 20 – 25.

[2] DataFlux. DataFlux [online]. [cit. 2008-06-22]: Methodology. Dostupný z WWW: <http://www.dataflux.com/Technology/Methodology/>.

[3] Dyché, Jill; Levy, Evan. Customer Data Integration – Reaching a Single Version of Truth. Hoboken: John Wiley & Sons, Inc., 2006, xxiv, 294 s. ISBN 0-471-91697-8.

[4] DataFlux. DataFlux [online]. Last modif. 9 July 2008 [cit. 2008-06-22]. Press Releases: DataFlux Positioned in Leaders Quadrant for 2008 Data Quality Tools Magic Quadrant. Dostupný z WWW: <http://www.dataflux.com/News-and-Events/press-release-detail.asp?pid=174>.

[5] Zelený, M.; Management Support Systems: Towards Integrated Knowledge Management, Human Systems Management. Vol. 7 (1987), No. 1, pp. 59 – 70.

[6] Zelený, Milan. Fordham University [online]. [cit. 2008-07-19]: From Knowledge to Wisdom: Strategic Challenges of Global Business Education. Dostupný z WWW: <http://www.fordham.edu/workingpapers/images/brazil01.pdf>

ICTS24

Autor pracuje v Úseku pojistné matematiky, Kooperativa pojišťovna, Vienna Insurance Group a na Katedře informačního a znalostního inženýrství, Fakulta informatiky a statistiky, VŠE Praha.