Využijte big data pro analýzy v reálném čase

8. 5. 2016

Sdílet

 Autor: © Nmedia - Fotolia.com
Mnoho společností se při organizování dat o zákaznících nashromážděných pro systémy BI zaměřuje na využití levnějších a rychlejších datových skladů. To však nemusí představovat úplně správnou cestu, jak si je udržet a případně získat nové. Nový přístup ale vyžaduje architekturu odlišnou od tradičních datových skladů a BI.

Firmy musejí z důvodu udržení konkurenceschopnosti využívat data o zákaznících v aplikacích podporujících rozhodování v reálném čase.

Pokud se totiž bude každý atribut, událost a transakce interpretovat jako vodítko k vytváření lepších předpovědí a rozhodování v souvislosti se zákazníky, mohou podniky přejít od pouhého pochopení zákazníků k cíleným akcím. Tato činnost, jejímž cílem je optimalizovat zákaznickou zkušenost, však vyžaduje mít architekturu odlišnou od tradičních datových skladů a aplikací BI.

Přechod podniků od pouhého uchovávání dat k odpovídajícím akcím zahrnuje čtyři základní fáze:

1.         Sběr. Zajistěte, aby všechna místa, kde dochází ke kontaktu se zákazníky, zaznamenávala veškeré relevantní informace o každé interakci.

2.         Organizace.Shromážděte veškerá data do jednoho místa, protože je těžké s nimi pracovat odděleně, a zajistěte, aby byla tato data snadno dostupná pro další systémy a analytiky.

3.         Pochopení.Pokládejte otázky, získávejte odpovědi a formulujte hypotézy na základě dat o zákaznících. Může vám to pomoci k lepšímu obchodnímu rozhodování.

4.         Akce. Uzavřete smyčku zpětné vazby tím, že pochopená data nasbíraná o zákaznících a odvozené závěry využijete k vylepšování zkušenosti zákazníků.

 

Současný obvyklý stav

Většina současných společností již zvládla první dvě etapy nastavením styčných bodů se zákazníkem – jako jsou například weby a aplikace v mobilních zařízeních – díky čemuž se zaznamenávají  imprese, kliky a transakce.

Následuje využití technologií, jako jsou třeba Hadoop HDFS a MapReduce, pro ukládání a organizování těchto protokolů.

Mnoho podniků už také zvládlo fázi pochopení pomocí nástrojů BI založených na technologii Hadoopu, jako je například Hive. Výsledkem jsou komplexní pohled na zákazníky, předvídatelná návratnost investic a možnost vytvářet zprávy podporující informované obchodní rozhodování.

Avšak jen málo organizací dokázalo udělat poslední krok – přejít od pochopení zákazníků ke konečnému cíli ve smyslu zlepšení zákaznické zkušenosti. Výsledkem takového počínání je například schopnost nabídnout doporučení nejen ohledně obsahu a produktů, ale také pro méně tradiční možnosti, jako jsou finanční investice a kontakty na sociálních sítích.

Zajímavé jsou i personalizované vyhledávání („Je to člověk, který hledá informace o autě Jaguar, operačním systému nebo o zvířeti?“), predikce a prevence problémů (třeba špatné počasí pro zemědělství nebo neefektivní spotřeba energie) nebo cílené nabídky a propagační akce.

Přínosem může být i optimalizace uživatelské zkušenosti, jako je například vytváření různých rozhraní pro lidi, kteří budou využívat vaše webové stránky jiným než obvyklým způsobem.

V mnoha případech se ale používá zbytečně dlouhý proces zahrnující lidský faktor v příliš mnoha bodech. Data přitékají v dávkách mezi jednotlivými fázemi: Události získané ze styčných bodů se zákazníky se zapisují do souborů protokolu nebo do transakčních databází, potom se hromadně importují do HDFS, následně procházejí řadou úloh ETL – a jejich výsledkem jsou čisté soubory, které mohou použít příslušní datoví vědci.

Ti pro ně navrhnou a použijí své algoritmy, díky čemuž získají výsledky použitelné pro uživatele (například ono doporučení). Výsledky se následně předají inženýrům, kteří je načtou do úložiště hodnot klíčů, jako jsou HBase nebo Cassandra, takže webové stránky a další styčné body firmy mohou zákazníkům zobrazit požadované výsledky.

V době dokončení tohoto procesu jsou ale data v úložišti hodnot klíčů již poměrně zastaralá, protože to trvalo dny, ne-li týdny, než prošla tímto dlouhým stadiem jednotlivých fází.

Jde to samozřejmě dělat rychleji a lépe. Avšak takové aplikace prediktivní analýzy vyžadují odlišnou architekturu již od počátku fáze sběru až po fázi akce. Tato architektura musí přijímat data v reálném čase a umožňovat experimenty a rychlé iterace datových vědců.

 

Příjem dat v reálném čase

Jsou-li předpovědi založené na ne úplně aktuálních informacích, nebudou pravděpodobně ani nijak zvlášť užitečné. Nemáte-li například u nějaké osoby aktuální historii nakupování, nebude se možná už zajímat o typ vámi doporučeného zboží, protože toto doporučení přijde příliš pozdě.

Každé místo, kliknutí nebo pohyb, které vám uniknou, vás mohou připravit o cenné pochopení aktuálních potřeb zákazníka. Aby mohli datoví vědci vytvořit algoritmy založené na všech datech, které uživatel vygeneroval do libovolného okamžiku, musí se pracovat se všemi informacemi, které navíc musejí být dostupné v reálném čase – jedině tak lze skutečně skórovat prediktivní modely a řídit rozhodování.

Přístup k vyřešení tohoto problému nabízí framework Lambda Architecture, a to díky rozšíření fáze datového toku tradičních systémů („dávková vrstva“, batch layer) pomocí systému odpovědného za sběr a zpracování jen nejnovějších přírůstkových změn („rychlostní vrstva“, speed layer).

To znamená, že dávková vrstva může nadále zpracovávat historická data a rychlostní vrstva jen data nashromážděná od ukončení procesu poslední dávky. V tomto paradigmatu slučuje „sloužící vrstva“ (servis layer) výsledky z dávkové vrstvy a rychlostní vrstvy, a vytváří tak kombinované odpovědi obsahující jak historická data z dávkové vrstvy, tak i nedávná data z rychlostní vrstvy.

Přestože tato architektura umožňuje průtok dat systémem a zodpovídání otázek v reálném čase, zůstává proces testování a modifikací těchto otázek pomalý. Zejména při vytváření prediktivních modelů a systémů generujících doporučení může proces změn algoritmů vyžadovat změnu kódu ve všech třech vrstvách prostředí Lambda Architecture.

Schopnost experimentovat s modifikacemi algoritmů je stejně důležitá jako dostupnost dat v reálném čase. Datoví vědci musejí mít možnost dělat experimenty a rychle získat zpětnou vazbu pro optimalizaci svých prediktivních modelů. Jaký by mělo smysl dostávat v reálném čase nesprávné odpovědi?

 

Experimentování a rychlé iterace

Aby mohli optimalizovat kvalitu prediktivní analýzy, potřebují datoví vědci rychle experimentovat s novými algoritmy a na základě svých zjištění potom dělat změny...

 

bitcoin školení listopad 24

Tento příspěvek vyšel v Computerworldu 7/2015.Oproti této on-line verzi je výrazně obsáhlejší a přináší další poznatky a tipy, které lze využít při praktické implementaci u vás ve firmě.

Časopis (starší čísla i předplatné těch nadcházejících) si můžete objednat na adrese našeho vydavatelství.