Jaké jsou trendy v oblasti velkých dat pro rok 2023?

1. 2. 2023

Sdílet

 Autor: istockphoto.com
Na pozadí mnoha společensko-politických změn se velká data a analytika staly zásadními nástroji pro podnikání a zajištění firemního růstu.

Stálý nárůst velkých dat, včetně cloud computingu, mění globální technologické trendy. V roce 2023 očekáváme obdobný rozvoj nových a inovativních technologií, které zajistí efektivnější procesy a jejich fungování.

Přijetí Cloudu

Podle společnosti Gartner již 70 % společností částečně přešlo na cloud a 95 %  nových řešení bude do roku 2025 přemístěno do cloudu. Přestože tento trend bude pokračovat i v roce 2023, migrace do cloudu s sebou nese rizika a komplikace, které je třeba vzít v úvahu současně s jejími výhodami.

První výzvou je riziko proprietárního uzamčení. Po migraci systému do cloudu může být vaše řešení pevně svázáno se službami konkrétního poskytovatele cloudu. Proto je nezbytné předem promyslet strategii odchodu a použít cloud-agnostický postup, který umožní další migraci. Dalším možným řešením tohoto problému je spolehnout se na multicloudová datová řešení, jako je Snowflake/Databricks.

Každý poskytovatel cloudu má navíc své silné a slabé stránky. Mnohdy může být výhodnější zvolit jednoho poskytovatele pro strojové učení a jiného pro datový sklad. Z tohoto důvodu vzrůstá potřeba inter-cloudových technologií, které umožní bezproblémovou interakci částí datových řešení napříč službami různých poskytovatelů cloudu (často i s místními systémy).

Další výzvou, kterou je nutno zmínit, je skutečnost, že ne všechny datové systémy mohou hostovat ve veřejných cloudech. Některá regulační omezení mohou například bránit umístění dat na veřejný cloud nebo jej činí rizikovým. Společnosti, které přesto chtějí využívat některé výhody cloudu, se často rozhodnou pro využití vlastního cloudu. V takovém případě mohou využít virtualizační platformy, jako je OpenStack, nebo zvolit místní cloudové služby, jako je Azure Stack.

Regulační požadavky

Podle společnosti Gartner budou do roku 2024 osobní údaje 75 % světové populace podléhat předpisům typu GDPR. Kromě zřejmého zájmu o řádné zabezpečení dat tento fakt vyvolává rostoucí zájem o správu dat, což firmám umožňuje porozumět svým datům a spravovat je. Správa dat tak přestává být interní záležitostí managementu, jehož cílem je zvýšená efektivita a proměna dat v aktiva, ale stává se externím požadavkem.

Správa dat se skládá z řady důležitých aspektů, včetně následujících:

  • Data catalog umožňuje podnikům systematicky sledovat informace o všech datových aktivech a zajišťuje, že žádná data nezůstanou mimo stanovený rámec.
  • Data lineage sleduje pohyb dat napříč podniky a zajišťuje sdílený přehled vstupů, výstupů a transformací dat na této cestě.

Demokratizace dat

Výzkumy prokazují, že společnosti mohou profitovat, pokud poskytnou přístup ke svým datům všem zaměstnancům napříč organizací, nikoli pouze konkrétním datovým silům pro účely předdefinovaných reportů.

Trend demokratizace dat má mnoho aspektů:

  • Prvním z nich jsou různá samoobslužná řešení, která umožňují zaměstnancům hrát si s daty samostatně. Jedná se například o nástroje pro tvorbu reportů, jako je PowerBI, nebo nízkokódové automatizační nástroje, jako je Alteryx. Dalším způsobem je zpřístupnění dat prostřednictvím rozhraní API a umožnění výzkumu pomocí skriptovacích jazyků, jako je Python.
  • Druhým aspektem je zpřístupnění metadat, umožňující zaměstnancům pochopit, jaká data jsou ve firmě dostupná a jak je lze interpretovat. To nás opět přivádí k myšlence datových katalogů.
  • Třetím důležitým aspektem je datová gramotnost. Nestačí jen data zpřístupňovat. Je důležité zajistit, aby zaměstnanci datům rozuměli a správně s nimi pracovali.
  • Samozřejmě je také potřeba zohlednit aspekty bezpečnosti a oddělení přístupu.

Zavedení umělé inteligence (AI)

Ačkoli se AI (spolu s velkými daty) stala často skloňovaným výrazem, nelze ignorovat nedávný vývoj v oblastech umělé inteligence, jako jsou ChatGPT, DALL-Ea další modely OpenAI.

V rámci dalších oblastí, v nichž by mohla AI ovlivnit datová řešení, lze zmínit následující:

  • Zlepšení pozorovatelnosti dat pomocí nástrojů AI. Ty by mohly být využity k automatizaci vyhledávání dat – například k identifikaci citlivých osobních údajů a vyhledávání entit v datech. Další potenciální oblastí uplatnění je kvalita dat. Nástroje AI mohou tento proces dále automatizovat prostřednictvím automatické detekce problémů s daty, případně i jejich automatickou opravu.
  • Rozšířená analytika zjednodušuje průzkumnou analýzu a využívá nástroje AI používané ve fázích přípravy / zobrazení dat.
  • Téma zodpovědné AI nabývá na důležitosti. Člověk by neměl začít používat model AI v praxi, pokud není zajištěna férovost vstupních dat a schopnost vysvětlit jejich výstupy.

Vývoj přístupu k architektuře dat

Výše popsané trendy jasně naznačují, že datové systémy jsou stále složitější. Moderní podniky navíc nemohou mít specializovaný datový systém pro každé datové silo. Data by měla plynule proudit napříč společnostmi a ideální datové řešení bude poskytovat komplexní správu dat napříč podnikovými sily. Důsledkem toho jsou snahy vybudovat datovou architekturu na podnikové úrovni, která by pokrývala všechny aspekty správy dat, jako je získávání vstupních dat, strukturování a vykazování dat, správa dat a pokročilá analytika. Pozorujeme trend budování hybridních řešení takzvaných datových jezer, která kombinují výhody klasických datových skladů (pro práci se strukturovanými daty) a datových jezer (pro práci s nezpracovanými a nestrukturovanými daty).

bitcoin_skoleni

Zatímco přístup „lakehouse“ se zaměřuje především na technickou stránku věci, lze jej rozšířit o koncept „data mesh“, který se zaměřuje na organizační stránku. Zajišťuje, aby doménově orientovaná data byla ve vlastnictví příslušných podnikových funkcí a zároveň zůstala dohledatelná a dostupná v rámci celé organizace.

Autor: Iurii Marymonskyi, Sr. Delivery Manager of Data Practice [CZ & SK] ve společnosti EPAM Systems, Inc.

Autor článku