Využijte big data pro analýzy v reálném čase

8. 5. 2016

Mnoho společností se při organizování dat o zákaznících nashromážděných pro systémy BI zaměřuje na využití levnějších a rychlejších datových skladů. To však nemusí představovat úplně správnou cestu, jak si je udržet a případně získat nové. Nový přístup ale vyžaduje architekturu odlišnou od tradičních datových skladů a BI.

Firmy musejí z důvodu udržení konkurenceschopnosti využívat data o zákaznících v aplikacích podporujících rozhodování v reálném čase.

Pokud se totiž bude každý atribut, událost a transakce interpretovat jako vodítko k vytváření lepších předpovědí a rozhodování v souvislosti se zákazníky, mohou podniky přejít od pouhého pochopení zákazníků k cíleným akcím. Tato činnost, jejímž cílem je optimalizovat zákaznickou zkušenost, však vyžaduje mít architekturu odlišnou od tradičních datových skladů a aplikací BI.

Přechod podniků od pouhého uchovávání dat k odpovídajícím akcím zahrnuje čtyři základní fáze:

1. Sběr. Zajistěte, aby všechna místa, kde dochází ke kontaktu se zákazníky, zaznamenávala veškeré relevantní informace o každé interakci.

2. Organizace.Shromážděte veškerá data do jednoho místa, protože je těžké s nimi pracovat odděleně, a zajistěte, aby byla tato data snadno dostupná pro další systémy a analytiky.

3. Pochopení.Pokládejte otázky, získávejte odpovědi a formulujte hypotézy na základě dat o zákaznících. Může vám to pomoci k lepšímu obchodnímu rozhodování.

4. Akce. Uzavřete smyčku zpětné vazby tím, že pochopená data nasbíraná o zákaznících a odvozené závěry využijete k vylepšování zkušenosti zákazníků.

Současný obvyklý stav

Většina současných společností již zvládla první dvě etapy nastavením styčných bodů se zákazníkem – jako jsou například weby a aplikace v mobilních zařízeních – díky čemuž se zaznamenávají imprese, kliky a transakce.

Následuje využití technologií, jako jsou třeba Hadoop HDFS a MapReduce, pro ukládání a organizování těchto protokolů.

Mnoho podniků už také zvládlo fázi pochopení pomocí nástrojů BI založených na technologii Hadoopu, jako je například Hive. Výsledkem jsou komplexní pohled na zákazníky, předvídatelná návratnost investic a možnost vytvářet zprávy podporující informované obchodní rozhodování.

Avšak jen málo organizací dokázalo udělat poslední krok – přejít od pochopení zákazníků ke konečnému cíli ve smyslu zlepšení zákaznické zkušenosti. Výsledkem takového počínání je například schopnost nabídnout doporučení nejen ohledně obsahu a produktů, ale také pro méně tradiční možnosti, jako jsou finanční investice a kontakty na sociálních sítích.

Zajímavé jsou i personalizované vyhledávání („Je to člověk, který hledá informace o autě Jaguar, operačním systému nebo o zvířeti?“), predikce a prevence problémů (třeba špatné počasí pro zemědělství nebo neefektivní spotřeba energie) nebo cílené nabídky a propagační akce.

Přínosem může být i optimalizace uživatelské zkušenosti, jako je například vytváření různých rozhraní pro lidi, kteří budou využívat vaše webové stránky jiným než obvyklým způsobem.

V mnoha případech se ale používá zbytečně dlouhý proces zahrnující lidský faktor v příliš mnoha bodech. Data přitékají v dávkách mezi jednotlivými fázemi: Události získané ze styčných bodů se zákazníky se zapisují do souborů protokolu nebo do transakčních databází, potom se hromadně importují do HDFS, následně procházejí řadou úloh ETL – a jejich výsledkem jsou čisté soubory, které mohou použít příslušní datoví vědci.

Ti pro ně navrhnou a použijí své algoritmy, díky čemuž získají výsledky použitelné pro uživatele (například ono doporučení). Výsledky se následně předají inženýrům, kteří je načtou do úložiště hodnot klíčů, jako jsou HBase nebo Cassandra, takže webové stránky a další styčné body firmy mohou zákazníkům zobrazit požadované výsledky.

V době dokončení tohoto procesu jsou ale data v úložišti hodnot klíčů již poměrně zastaralá, protože to trvalo dny, ne-li týdny, než prošla tímto dlouhým stadiem jednotlivých fází.

Jde to samozřejmě dělat rychleji a lépe. Avšak takové aplikace prediktivní analýzy vyžadují odlišnou architekturu již od počátku fáze sběru až po fázi akce. Tato architektura musí přijímat data v reálném čase a umožňovat experimenty a rychlé iterace datových vědců.

Příjem dat v reálném čase

Jsou-li předpovědi založené na ne úplně aktuálních informacích, nebudou pravděpodobně ani nijak zvlášť užitečné. Nemáte-li například u nějaké osoby aktuální historii nakupování, nebude se možná už zajímat o typ vámi doporučeného zboží, protože toto doporučení přijde příliš pozdě.

Každé místo, kliknutí nebo pohyb, které vám uniknou, vás mohou připravit o cenné pochopení aktuálních potřeb zákazníka. Aby mohli datoví vědci vytvořit algoritmy založené na všech datech, které uživatel vygeneroval do libovolného okamžiku, musí se pracovat se všemi informacemi, které navíc musejí být dostupné v reálném čase – jedině tak lze skutečně skórovat prediktivní modely a řídit rozhodování.

Přístup k vyřešení tohoto problému nabízí framework Lambda Architecture, a to díky rozšíření fáze datového toku tradičních systémů („dávková vrstva“, batch layer) pomocí systému odpovědného za sběr a zpracování jen nejnovějších přírůstkových změn („rychlostní vrstva“, speed layer).

To znamená, že dávková vrstva může nadále zpracovávat historická data a rychlostní vrstva jen data nashromážděná od ukončení procesu poslední dávky. V tomto paradigmatu slučuje „sloužící vrstva“ (servis layer) výsledky z dávkové vrstvy a rychlostní vrstvy, a vytváří tak kombinované odpovědi obsahující jak historická data z dávkové vrstvy, tak i nedávná data z rychlostní vrstvy.

Přestože tato architektura umožňuje průtok dat systémem a zodpovídání otázek v reálném čase, zůstává proces testování a modifikací těchto otázek pomalý. Zejména při vytváření prediktivních modelů a systémů generujících doporučení může proces změn algoritmů vyžadovat změnu kódu ve všech třech vrstvách prostředí Lambda Architecture.

Schopnost experimentovat s modifikacemi algoritmů je stejně důležitá jako dostupnost dat v reálném čase. Datoví vědci musejí mít možnost dělat experimenty a rychle získat zpětnou vazbu pro optimalizaci svých prediktivních modelů. Jaký by mělo smysl dostávat v reálném čase nesprávné odpovědi?

Experimentování a rychlé iterace

Aby mohli optimalizovat kvalitu prediktivní analýzy, potřebují datoví vědci rychle experimentovat s novými algoritmy a na základě svých zjištění potom dělat změny...

Tento příspěvek vyšel v Computerworldu 7/2015.Oproti této on-line verzi je výrazně obsáhlejší a přináší další poznatky a tipy, které lze využít při praktické implementaci u vás ve firmě.

Časopis (starší čísla i předplatné těch nadcházejících) si můžete objednat na adrese našeho vydavatelství.

Našli jste v článku chybu?

Sdílet

Autor článku

Garrett Wu

Témata:

Mohlo by vás zajímat

Anketa

Využíváte už některé z inovativních metod šifrování?

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Co zjistil „Staťák“ o české digitální ekonomice?

Veselé Vánoce a šťastný nový rok 2025

Vivolink představí svoje ProAV a systémová řešení na veletrhu ISE 2025 v Barceloně

Spěcháte na návratnost investic AI? Je možné, že to bude drahé

Vyšlo nové číslo CFOworldu 4/2024

Arrow Electronics je AWS Rising Star Distributor Partner roku v regionu EMEA

Nedostatečné zabezpečení koncových zařízení ohrožuje firmy

Co se v roce 2025 mění pro firmy, zaměstnance a daňové poplatníky?

AT Computers je IDG Distributorem roku společnosti Lenovo

Využijte big data pro analýzy v reálném čase

Sdílet

Autor článku

Garrett Wu

Témata:

Mohlo by vás zajímat

Předpověď kybernetických hrozeb pro rok 2025: Připravte se na větší a odvážnější útoky

Europol zatnul tipec hackerům, chystali hromadný útok během Vánoc

Anketa

Využíváte už některé z inovativních metod šifrování?

Kvíz týdne

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Z našich webů

Co zjistil „Staťák“ o české digitální ekonomice?

Veselé Vánoce a šťastný nový rok 2025

Vivolink představí svoje ProAV a systémová řešení na veletrhu ISE 2025 v Barceloně

Spěcháte na návratnost investic AI? Je možné, že to bude drahé

Vyšlo nové číslo CFOworldu 4/2024

Arrow Electronics je AWS Rising Star Distributor Partner roku v regionu EMEA

Nedostatečné zabezpečení koncových zařízení ohrožuje firmy

Co se v roce 2025 mění pro firmy, zaměstnance a daňové poplatníky?

AT Computers je IDG Distributorem roku společnosti Lenovo

Dále u nás najdete

Tyhle věci nezapomeňte do konce roku udělat, ušetříte tisíce

Minimální mzda v roce 2025 vzroste, zaručená mzda končí

Reklama přímo v systému televize: Co kdyby nešla vypnout?

Tuzemské cestovní náhrady v roce 2025

Rok 2024 v IT: skomírající Intel a parádní Plasma 6

Tipy na knihy: válka o čipy či Kotletova revoluce v AI

Dění v Rumunsku testuje vztah Evropy k online platformám

Domácí měření tlaku má smysl, ale musíte ho dělat správně

Beey dokáže rozpoznat, který poslanec mluví

Zdravotní pojištění nebude začínajícím OSVČ odpuštěno

Co najdete v posledním letošním magazínu CIO 6/2024

Celofán nepatří do plastu a rozbité ozdoby nesmí do skla

Čtvrtinu dat posílaných z mobilu na internet tvoří obsah na sociální sítě

Při balení dárků nemusíte vůbec používat izolepu, dokonce ani papír

Deset let od první transplantace střeva: V IKEM se připravují na děti

Ivanti dává hattrick třemi kritickými zranitelnostmi

Hranolky, pizza, tatarák: příběhy pokrmů jsou často vymyšlené

Poslední složenky za lékové doplatky přijdou zkraje příštího roku

Hrozbou číslo jedna pro české počítače je spyware Formbook

Úřad a zpracovatelé masa chtějí, ať se vege párky a rostlinné burgery jmenují jinak