Jak datová jezera zlepšují analýzu dat

Sdílet

 Autor: © animind - Fotolia.com
Pomocí datových jezer (data lakes) lze přijímat, analyzovat a ukládat nestrukturovaná, částečně strukturovaná i strukturovaná data způsobem, který na strukturovanost ve své podstatě neklade žádné nároky a poskytuje flexibilnější úložiště než tradiční datové sklady. Jaké jsou zkušenosti raných osvojitelů?

Když chtěla společnost The Weather Company zlepšit své prognostické výsledky, chápali její manažeři, že řešení spočívá v analýze většího množství dat. Datový sklad této organizace však byl příliš omezující, protože akceptoval jen strukturovaná data a vyžadoval až šestiměsíční vývoj odpovídajících schémat.

„Naším cílem bylo co nejrychleji dostat data do našich aktivit, abychom mohli vidět nové příležitosti,“ popisuje Bryson Koehler, tamější výkonný viceprezident, technologický ředitel a ředitel informačních systémů. „Pro zřejmě žádnou firmu není realistické přerušit projekt na nějakou delší dobu jen z důvodu čištění údajů. Každý den dochází k mnoha změnám a objevuje se řada nových zdrojů dat, takže by se taková činnost nikdy nedokončila.“

Koehler chtěl kvůli obohacení analýzy ukládat data z libovolného zdroje, a to včetně osobních meteorologických stanic a senzorů internetu věcí. S tradičními datovými sklady by to bylo téměř nemožné – z důvodu nestrukturované povahy nových údajů, objemu a dlouhé doby vývoje nutné ke zpracování a validaci.

Získáváme data od mnoha začínajících firem a nemůžeme je žádat o vytvoření specializovaného formátu pro naše účely,“ vysvětluje Koehler. „Obrátily by se na někoho jiného, kdo by akceptoval jejich výstupy bez dalších nároků, takže bychom ztratili konkurenční výhodu.“

Kvůli odvrácení takové hrozby se před dvěma lety Weather stala raným osvojitelem tzv. datových jezer. Mnoho současných podob datových jezer využívá k ukládání a zpracování dat distribuované prostředí v podobě open source softwaru Apache Hadoop.

Mezi firmy nabízející platformy datových jezer využívající technologii Hadoop patří například EMC, HP Enterprise, IBM, Microsoft nebo Informatica. (IBM nedávno koupila několik digitálních aktiv od společnosti Weather.)

Weather využívá pro svá datová jezera platformu Amazon S3 i databázi Apache Cassandra a k tomu ještě Apache Spark pro zpracování analýz v reálném čase, popisuje Koehler.

Se strategií datových jezer dokáže Weather přijímat data ze 135 tisíc nezávislých osobních meteorologických stanic provozovaných nadšenci z celého světa. Tyto informace se mísí v jezeře s dalšími důležitými daty týkajícími se událostí, jako jsou údery blesků a turbulence, a výsledkem jsou informace o počasí pro datové vědce i oborové profesionály.

Od počátku projektu datových jezer se společnosti The Weather Company podařilo zpřesnit předpovědi teplot o dva stupně. „A dva stupně jsou v tomto oboru opravdu hodně,“ uvádí Koehler.

 

K čemu ano a k čemu ne

Oliver Halter, analytik společnosti PwC, tvrdí, že změny dat a datových zdrojů, které začínají být k dispozici, povedou více společností ke zvažování implementace datových jezer.

Když se budou firmy snažit perfektně integrovat 15 datových zdrojů pomocí datových skladů, objeví se během té doby „dalších 50 zdrojů, které budou také cenné“, upozorňuje Halter.

Judith Hurwitzová, šéfka poradenské společnosti Hurwitz & Associates, souhlasí, že se tyto dvě technologie hodí na odlišné účely. „Chcete-li vědět vše o své konkurenci, o prodeji modrých košil a co všichni na webu říkají, potom byste mohli ukládat veškeré informace v datovém jezeře,“ popisuje.

Když se rozhodujete mezi datovým skladem nebo jezerem, nejde podle ní o peníze. „Pokud jsou data skutečně spjatá s obchodním rozhodováním, v rámci kterého je lepší mít data vyčištěná a zcela spolehlivá, pravděpodobně nebudete muset nasadit datové jezero.“

Datová jezera totiž mají potenciál selhat v případě nasazení pro nevhodný účel nevhodným způsobem. „Pokud potřebujete reportovat své finanční výsledky nebo zajistit archivaci, měla by být data co nejčistší a datový sklad je pro tyto činnosti vhodnějším řešením,“ prohlašuje Halter.

„Když děláte analýzy relativně surových nenormalizovaných dat, může riziko nesprávné interpretace či nedokonalého provázání dat způsobit nedostatečnou přesnost finančních výkazů či transakcí,“ vysvětluje Halter.

Datová věda v datových jezerech se ale týká spíše analýz trendů a správnosti směru než poskytování přesných výsledků. Halter proto navrhuje jiný způsob, jak pohlížet na vhodnost datových jezer a skladů.

„Pokud potřebujete sadu faktických čísel, která musejí vyhovět přísným podmínkám a kontrole (například pohledávky k 31. březnu ve výši 3 567 444 korun), potom potřebujete řešení datového skladu,“ vysvětluje.

„Vyžadujete-li informaci o směru (domníváme se, že trh pro XYZ poroste o 60 až 80 %) nebo (u zákazníka XYZ je o 35 % vyšší pravděpodobnost, že koupí produkt A než produkt B), potom bude vhodnější použít datové jezero.“

Ve většině případů ale organizace mají jak datové sklady, tak i datová jezera. „Jakmile v datovém jezeře objevíte nějakou hodnotu pro organizaci a chcete zajistit opakovatelnost, lze využít datový sklad k normalizaci a harmonizaci,“ prohlašuje Halter.

 

Datová nedokonalost

Finanční instituce Synchrony v současnosti využívá datové sklady i datové jezero. Přestože je firemní datové jezero v pilotním režimu, očekává tamější technologický ředitel Greg Simpson v blízké budoucnosti její intenzivnější využívání.

Simpson říká, že má to štěstí, že většina dat proudících z jiných finančních zdrojů do jezera je už čistá a standardizovaná, protože jejich obor je vysoce regulovaný. Toto datové jezero bude nástrojem integrace dat sociálních médií pro podporu hlubšího zkoumání chování zákazníků a tržních trendů.

„Přivítal bych ještě čistší data, ale už jsem se přes to přenesl,“ prohlašuje Simpson. „Skutečností je, že musíme využívat analýzy k optimalizaci současného podnikání a hledání souvisejících obchodních příležitostí. To znamená, že nebudeme normalizovat, měnit a vytvářet hlavní model dat a datamart.“

Například při analýze nákupních zvyklostí zákazníků a zjišťování, jak je oslovit...

 

bitcoin_skoleni

Tento příspěvek vyšel v Computerworldu 6/2016. Oproti této on-line verzi je obsáhlejší a přináší další poznatky a tipy, které lze využít při praktické implementaci u vás ve firmě.

Časopis (starší čísla i předplatné těch nadcházejících) si můžete objednat na adrese našeho vydavatelství.