Středně velké firmy se stejně jako jejich větší sourozenci snaží využít desítky terabajtů dat o svých zákaznících, trzích a produktech, což je opravdu zlatý důl informací.
Za poslední dva roky podniky vytvořily více dat než v předchozích šedesáti letech. Díky postupnému zvyšování hustoty zápisu na pevných discích, klesajícím cenám SSD či inovacím v deduplikaci a kompresi se nacházejí způsoby, jak masivní příval dat jednoduše ukládat.
Skutečná výzva se však nachází až za úložnou vrstvou. Údaje na záznamových médiích totiž obsahují bohaté informace, které mohou být velmi cenné pro podnikovou strategii, snížení nákladů a vyvolání růstu.
Avšak jen málo menších firem disponuje rozpočtem nebo personálem potřebným pro uvolnění takového potenciálu. Tyto podniky potřebují řešení, které jim poskytne odpovědi a inteligenci, aniž to ohrozí jejich IT rozpočet nebo vyžaduje práci nákladného datového vědce.
Objem dat je již sám o sobě v mnoha případech pro takové podniky dost skličující, ale typ uložených dat náročnost výzvy ještě umocňuje. Strukturovaná data tvoří pouze cca pětinu uložených informací, zbytek je nestrukturovaná podoba – jde například o kanály sociálních médií, e-maily, blogy, dokumenty Microsoft Office, fotografie, videa a mnoho dalších druhů.
Tyto údaje se obvykle nacházejí na různých místech v celé firmě a málokdy se přímo administrují. Společnosti, jež se pokoušejí tyto nestrukturované zdroje spravovat, obvykle používají systémy pro správu dokumentů, které ale často skončí jako další oddělená množina dat, jako jsou například e-mail, síťové disky pro sdílení souborů nebo firemní intranety.
Ve studii vykonané v loňském roce společností IDC se zjistilo, že je separace jedním z důvodů, proč pracovníci informatiky ztrácejí až pětinu svého času neefektivní činností.
Je snadné pochopit, proč nestrukturovaná data leží bez využití. Často se totiž vytvářejí a využívají ad hoc a neorganizují se pro zajištění snadného přístupu.
Nemají jasně definovaná schémata a podniky obvykle nemají nástroje ani odborné znalosti, aby data upravily, vizualizovaly a manipulovaly s nimi kvůli zjištění cenných informací a využily je k informovanému rozhodování.
Tato náročná data jsou jádrem problému big data, se kterým se firmy všech velikostí potýkají. Na konci spektra velkých podniků se objevuje řešení v podobě clusteru serverů s využitím práce jednoho nebo více datových vědců (ale také vysokých nákladů s nimi spojených).
Některé menší firmy se ve snaze držet krok snažily vyškolit své podnikové analytiky na úroveň datových vědců. Potřebují však mít řešení, které by automaticky transformovalo data na inteligenci a prezentovalo správné údaje správným lidem ve správný čas.
Datová inteligence
Nejvyšší prioritu při řešení problému nestrukturovaných big dat v menších firmách má uvedení údajů do tzv. kontextu. Například kdo ve společnosti zná zákazníka x? Kde je nejnovější verze smlouvy a kdo ji ještě nečetl, ačkoliv by měl?
Tyto společnosti potřebují vědět, jaká data se kterými odděleními a jednotlivci produkují a jak jednotlivé části firmy tyto informace využívají. Odpovědi na tyto otázky vyvolávají řadu dalších otázek včetně těchto:
- Kdo vlastní data? Tato otázka je rozhodující v organizacích, kde je oddělení IT zodpovědné za nákup a plánování infrastruktury, ale nepodílí se na jejím využívání a správě. Vlastnictví a opatrovnictví dat musejí chápat také oddělení pro dodržování směrnic a právní oddělení.
- Jak zachytáváte data v reálném čase a jak je sdílíte? Neexistují atraktivní možnosti pro nakládání s nestrukturovanými daty v rámci celé organizace. Některá současná řešení například pravidelně skenují síťové disky pro sdílení souborů, aby zjistila nové nebo změněné údaje a zkopírovala jejich obsah ke zpracování do systémů big dat, jako je například Hadoop. Tento přístup ale zbytečně zatěžuje souborový server a výsledkem jsou nejméně dvě kopie původních dat, což dále zvyšuje náklady na úložiště a zhoršuje režii správy.
- Jaké vlastnosti nestrukturovaných dat by se měly zjišťovat? Odpověď na tuto otázku závisí do značné míry na typu organizace. Existují například problémy s dodržováním předpisů, které jsou společné pro mnoho oborů, jako jsou standard PCI DSS (Payment Card Industry Data Security Standard) nebo zákony na ochranu soukromí, které nedovolují nešifrované ukládání citlivých osobních údajů.
Automatické rozpoznávání toho, kdy a kde se tato citlivá data vytvářejí a využívají, je náročné a zásadní.
Pokud lze efektivně odpovědět na výše uvedené otázky, objeví se celá řada nových případů užití a lepšího využití současných investic. Například tak firma může rychle najít nejnovější verzi návrhu dokumentu nebo určit, kdo v marketingovém oddělení je nejlépe obeznámený s nějakým konkrétním produktem.
Pro podniky je často nesmírně obtížné splnit tyto základní informační nároky.
Vizualizace možného
Pokročilá vizualizace je důležitým nástrojem, který pomáhá uživatelům pochopit komplexní informace a jednat na jejich základě.
Kompletní článek zahrnující spoustu dalších poznatků, trendů a zajímavostí si můžete přečíst v Computerworldu 11/2014.