Big data a analytické iniciativy z vás mohou vytvořit vysoce konkurenční firmu. Mohou ale také vést ke kolosálním neúspěchům s následkem velkých finančních i časových ztrát, nemluvě o ztrátě talentovaných technologických profesionálů, kteří mohou skončit zahlceni zklamáním z omylů vedení.
Jak tedy zabránit chybám při analýze big dat? Některé z osvědčených postupů jsou z hlediska základního řízení firmy zřejmé: Zajistěte zájem nejvyššího vedení společnosti, dále mějte k dispozici odpovídající finanční prostředky pro všechny potřebné technologické investice a také zajistěte veškeré potřebné odborné znalosti a školení. Pokud tyto základy neuděláte jako první, na ničem jiném už vůbec nezáleží.
Za předpokladu, že jste dostatečně připravení, úspěch od selhání při analýze big dat se odliší způsobem, jak řešíte technické problémy a výzvy analýzy big dat. Zde jsou rady napomáhající k úspěšnému výsledku.
1. Pečlivě vyberte své nástroje pro analýzy big dat
Mnoho technologických selhání pramení z toho, že firmy koupí a implementují produkty, které nejsou k danému účelu vhodné. Každý dodavatel totiž může vložit do svých popisů produktů slova „big data“ a „pokročilá analýza“, aby se pokusil využít velkého humbuku ohledně těchto pojmů ke svému prospěchu.
Produkty se však značně liší nejen kvalitou a efektivitou, ale také zaměřením. I když si tedy vyberete technicky silný produkt, nemusí být dobrý právě pro vaše skutečné účely.
Existují některé základní funkce pro téměř všechny analýzy big dat, jako jsou například transformace dat a architektura úložišť (Hadoop a Apache Spark).
V oblasti analýz big dat však také existuje řada specializací a vy potřebujete získat produkty, které budou skutečně odpovídat vaší technologické strategii. Mezi tyto speciality patří třeba prediktivní analytika, řešení v reálném čase, umělá inteligence nebo informační panely business intelligence.
Než se rozhodnete koupit jakékoli produkty pro analýzu big dat nebo platformu pro jejich ukládání, musíte zjistit, jaké máte skutečné podnikové potřeby či problémy, a vybrat tak produkty navržené ke specificky k jejich efektivnímu vyřešení.
Například byste se z důvodu složitosti kompilování obrovských datových souborů rozhodli pro kognitivní produkty pro big data, jako jsou analytické nástroje využívající umělou inteligenci pro analýzu nestrukturovaných dat.
Nepoužívali byste však kognitivní nástroje pro strukturovaná a standardizovaná data, pro které můžete použít mnoho analytických produktů schopných generovat kvalitní vhled v reálném čase za příznivější cenu, vysvětluje Israel Exposito, šéf globálního zpracování big dat ve společnosti Vodafone.
Je rozumné prověřit koncept pomocí alespoň dvou produktů před konkrétní volbou pro vaše produkční prostředí, vysvětluje Exposito. Produkt by také měl umožňovat propojení s vašimi existujícími podnikovými platformami.
Každý nástroj pro analýzu big dat vyžaduje vývoj datového modelu v back-endovém systému. To je nejdůležitější část projektu. Je tedy potřeba zajistit, aby systémoví integrátoři a odborníci zaměření na předmět podnikání v této oblasti těsně spolupracovali. Rezervujte na to čas a udělejte to správně již od začátku.
Je důležité si uvědomit, že správná data by měla být vždy k dispozici a měla by být přeložena do podnikatelského jazyka, aby byznysoví uživatelé plně rozuměli výstupu, a dokázali ho tak využívat k řízení příležitostí a zlepšování procesů.
2. Zajistěte, aby se nástroje snadno používaly
Big data a pokročilá analytika jsou poměrně složité oblasti, ale produkty, na které budou podnikoví uživatelé spoléhat během přístupu k datům a zjišťování jejich smyslu, by složité být neměly.
Poskytujte jednoduché a efektivní nástroje, které budou týmy podnikové analýzy používat k objevování dat, k analýzám a vizualizacím.
Nalezení správné kombinace nástrojů bylo pro registrátora domény GoDaddy obtížné, jak popisuje Sharon Graves, firemní evangelistka nástrojů business intelligence pro podniková data. Mělo to být jednoduché pro rychlé vizualizace, ale přesto dostatečně schopné pro hluboké analýzy.
GoDaddy nakonec dokázala najít produkty, které umožňují podnikovým uživatelům snadno najít odpovídající data a poté vytvořit vlastní vizualizace. To uvolnilo analytické týmy k vykonávání pokročilejších analýz.
Především neposkytujte nástroje na úrovni programování netechnickým firemním uživatelům. Mohlo by jim to přinést zklamání a vedlo by je to k používání předchozích nástrojů, které by neodpovídaly pracovním potřebám (jinak byste neměli projekt pro analýzu big dat).
3. Přizpůsobte projekt a data skutečným potřebám podniku
Dalším důvodem, proč by mohly snahy o analýzu big dat selhat, je hledání řešení ve skutečnosti neexistujícího problému. To je důvod, proč musíte definovat podnikové výzvy a potřeby, které chcete řešit v rámci analytického problému, vysvětluje Shanji Xiong, vedoucí laboratoří IT společnosti Experian.
Klíčem je na začátku projektu zapojit odborníky zaměřené na danou problematiku, kteří budou zároveň mít silné analytické dovednosti, aby spolupracovali s datovými vědci na definování problému.
Zde je příklad z vlastní iniciativy analýz big dat společnosti Experian. Při vývoji analytických řešení pro boj proti podvodům s identitou by mohl být problém zjistit, zda jsou správně všechna data z kombinace osobních citlivých údajů, jako jsou jméno, adresa a rodné číslo.
Nebo by mohlo být výzvou posouzení, zda je zákazník žádající o půjčku pomocí souboru identit jejich legitimním vlastníkem. Či by mohly existovat obě výzvy.
V prvním případě jde o problém „syntetické identity“, který potřebuje analytický model k posouzení rizika syntetické identity vytvořené na úrovni spotřebitele nebo na úrovni osobních údajů, popisuje Xiong. Ve druhém pak jde o možnou podvodnou žádost, kde je potřeba vytvořit na úrovni aplikace skóre k posouzení rizika podvodu.
Experian musela pochopit, že jde o různé potíže, přestože to původně vypadalo jako jeden stejný, jen jinak popsaný problém. Následně se musely vytvořit správné modely a analýzy k jejich řešení.
Když se soubor osobních údajů prezentuje dvěma finančním institucím v rámci žádosti o úvěr, je obvyklým požadavkem návrat stejného skóre pro syntetické riziko, ale to stejné obvykle není požadovanou funkcí při stanovení skóre podvodů se žádostmi, vysvětluje Xiong.
Správné algoritmy se musejí aplikovat na správná data, aby se získaly výstupy business intelligence a přesné předpovědi. Sběr a zahrnutí relevantních datových sad v procesu modelování je téměř vždy důležitější než jemné doladění algoritmů pro strojové učení, takže úsilí vynakládané na data by mělo mít nejvyšší prioritu.
4. Vytvořte datové jezero a nešetřete na šířce pásma
Jak naznačuje pojem sám o sobě, big data zahrnují obrovské množství dat. V minulosti mohlo jen velmi málo organizací uchovávat tolik dat a ještě menší počet je mohl organizovat a analyzovat. Dnes jsou však vysoce výkonné úložné technologie a rozsáhlé paralelní zpracování široce dostupné jak v cloudu, tak v rámci systémů ve vlastních infrastrukturách.
Samotné úložiště však nestačí. Potřebujete způsob, jak zvládnout nesourodé typy dat, která se v rámci vašich big dat analyzují. To je genialita řešení Apache Hadoop, jež umožňuje ukládání a mapování velkých, nesourodých datových sad.
Taková úložiště se často nazývají datová jezera. Skutečné jezero se obvykle napájí z více toků a obsahuje mnoho druhů rostlin, ryb a dalších živočichů. Datové jezero má podobně více datových zdrojů a obsahuje mnoho typů dat.
Datové jezero však nesmí být skládkou dat. Musíte promyslet způsob agregace dat a smysluplným způsobem rozšiřovat atributy, radí Jay Etchings, ředitel výzkumu IT na Arizonské státní univerzitě. Data mohou být nesourodá, ale způsob jejich transformace pro vaši analytiku pomocí nástrojů jako MapReduce a Apache Spark je třeba vykonat pomocí solidní datové architektury.
Vytvořte datové jezero, kde jsou příjem, indexování a normalizace dobře naplánované součásti strategie big dat. Bez jasně formulovaného a pochopeného plánu je většina iniciativ náročných na data odsouzená k selhání, říká Etchings.
Stejně tak je životně důležité mít dostatečnou šířku pásma, jinak se data nebudou přenášet z různých zdrojů do datového jezera a k podnikovým uživatelům dostatečně rychle, aby to bylo užitečné.
Splnění příslibu velkých datových zdrojů vyžaduje nejen rychlé disky schopné dosáhnout milionů IOPS (I/O za sekundu), dodává Etchings, ale také propojení uzlů a zpracovatelských strojů, které mají snadný přístup k datům při jejich tvorbě.
Rychlost je obzvláště důležitá pro analýzu v reálném čase, od trendů sociálních médií až po směrování dopravy. Vytvořte tedy své jezero pomocí nejrychlejšího dostupného připojení.
5. Integrujte zabezpečení do všech aspektů big dat
Vysoký stupeň různorodosti komponent výpočetní infrastruktury výrazně zrychlil schopnost organizací získávat z dat smysluplné poznatky. Je zde však nevýhoda: Tyto systémy jsou mnohem složitější pro správu a zabezpečení, varuje Etchings.
S obrovským množstvím dat a závažností pro daný účel se u většiny analytických systémů big dat nedaří implementovat odpovídající opatření pro ochranu systémů a dat, což přináší vysoké riziko.
Velké množství dat, která firmy shromažďují, ukládají, analyzují a sdílejí, jsou informacemi o zákaznících – některé z nich patří mezi osobní citlivé údaje a lze je spojit s konkrétními osobami. Pokud se takové údaje dostanou do nesprávných rukou, jsou výsledky předvídatelné: finanční ztráty ze soudních sporů a případně regulační pokuty, poškození značky a pověsti a samozřejmě nešťastní zákazníci.
Vaše bezpečnostní opatření by měla zahrnovat nasazení základních podnikových nástrojů: šifrování dat, kdykoli je to možné, dále správu identit a přístupu či zabezpečení sítě. Bezpečnostní opatření by však měla zahrnovat také vynucování zásad nebo školení o správném přístupu a využívání dat.
6. Správa a kvalita dat musejí být nejvyšší prioritou
Zajištění dobré správy a kvality dat by mělo být typickým znakem všech projektů analýz big dat, jinak je riziko selhání mnohem větší.
Je nutné zavést řídicí prvky, abyste zajistili, že data budou aktuální, přesná a doručená včas. Jako součást své iniciativy big data implementovala firma GoDaddy varování, které informuje manažery o selhání aktualizace dat a o jejich zpoždění. Navíc implementovala kontroly kvality dat pomocí klíčových metrik a zasílá upozornění, pokud tyto metriky neodpovídají očekáváním.
Velká část zajištění kvality dat a správy spočívá v najmutí kvalifikovaných pracovníků v oblasti správy dat včetně ředitele správy dat nebo jiného manažera, který bude na tyto oblasti dohlížet.
Tento příspěvek vyšel v Computerworldu 12/2017. Časopis (starší čísla i předplatné těch nadcházejících) si můžete objednat na adrese našeho vydavatelství.