Vizualizovat lze i nestrukturovaná data

30. 11. 2014

Informace o zákaznících, o produktech či celkovém trhu – to všechno lze získat z nepřeberného množství údajů, které firmy obvykle dokážou shromáždit. K cenným datům se však dostanou, jen pokud vědí, jak na to.

Středně velké firmy se stejně jako jejich větší sourozenci snaží využít desítky terabajtů dat o svých zákaznících, trzích a produktech, což je opravdu zlatý důl informací.

Za poslední dva roky podniky vytvořily více dat než v předchozích šedesáti letech. Díky postupnému zvyšování hustoty zápisu na pevných discích, klesajícím cenám SSD či inovacím v deduplikaci a kompresi se nacházejí způsoby, jak masivní příval dat jednoduše ukládat.

Skutečná výzva se však nachází až za úložnou vrstvou. Údaje na záznamových médiích totiž obsahují bohaté informace, které mohou být velmi cenné pro podnikovou strategii, snížení nákladů a vyvolání růstu.

Avšak jen málo menších firem disponuje rozpočtem nebo personálem potřebným pro uvolnění takového potenciálu. Tyto podniky potřebují řešení, které jim poskytne odpovědi a inteligenci, aniž to ohrozí jejich IT rozpočet nebo vyžaduje práci nákladného datového vědce.

Objem dat je již sám o sobě v mnoha případech pro takové podniky dost skličující, ale typ uložených dat náročnost výzvy ještě umocňuje. Strukturovaná data tvoří pouze cca pětinu uložených informací, zbytek je nestrukturovaná podoba – jde například o kanály sociálních médií, e-maily, blogy, dokumenty Microsoft Office, fotografie, videa a mnoho dalších druhů.

Tyto údaje se obvykle nacházejí na různých místech v celé firmě a málokdy se přímo administrují. Společnosti, jež se pokoušejí tyto nestrukturované zdroje spravovat, obvykle používají systémy pro správu dokumentů, které ale často skončí jako další oddělená množina dat, jako jsou například e-mail, síťové disky pro sdílení souborů nebo firemní intranety.

Ve studii vykonané v loňském roce společností IDC se zjistilo, že je separace jedním z důvodů, proč pracovníci informatiky ztrácejí až pětinu svého času neefektivní činností.

Je snadné pochopit, proč nestrukturovaná data leží bez využití. Často se totiž vytvářejí a využívají ad hoc a neorganizují se pro zajištění snadného přístupu.

Nemají jasně definovaná schémata a podniky obvykle nemají nástroje ani odborné znalosti, aby data upravily, vizualizovaly a manipulovaly s nimi kvůli zjištění cenných informací a využily je k informovanému rozhodování.

Tato náročná data jsou jádrem problému big data, se kterým se firmy všech velikostí potýkají. Na konci spektra velkých podniků se objevuje řešení v podobě clusteru serverů s využitím práce jednoho nebo více datových vědců (ale také vysokých nákladů s nimi spojených).

Některé menší firmy se ve snaze držet krok snažily vyškolit své podnikové analytiky na úroveň datových vědců. Potřebují však mít řešení, které by automaticky transformovalo data na inteligenci a prezentovalo správné údaje správným lidem ve správný čas.

Datová inteligence

Nejvyšší prioritu při řešení problému nestrukturovaných big dat v menších firmách má uvedení údajů do tzv. kontextu. Například kdo ve společnosti zná zákazníka x? Kde je nejnovější verze smlouvy a kdo ji ještě nečetl, ačkoliv by měl?

Tyto společnosti potřebují vědět, jaká data se kterými odděleními a jednotlivci produkují a jak jednotlivé části firmy tyto informace využívají. Odpovědi na tyto otázky vyvolávají řadu dalších otázek včetně těchto:

Kdo vlastní data? Tato otázka je rozhodující v organizacích, kde je oddělení IT zodpovědné za nákup a plánování infrastruktury, ale nepodílí se na jejím využívání a správě. Vlastnictví a opatrovnictví dat musejí chápat také oddělení pro dodržování směrnic a právní oddělení.

Jak zachytáváte data v reálném čase a jak je sdílíte? Neexistují atraktivní možnosti pro nakládání s nestrukturovanými daty v rámci celé organizace. Některá současná řešení například pravidelně skenují síťové disky pro sdílení souborů, aby zjistila nové nebo změněné údaje a zkopírovala jejich obsah ke zpracování do systémů big dat, jako je například Hadoop. Tento přístup ale zbytečně zatěžuje souborový server a výsledkem jsou nejméně dvě kopie původních dat, což dále zvyšuje náklady na úložiště a zhoršuje režii správy.

Jaké vlastnosti nestrukturovaných dat by se měly zjišťovat? Odpověď na tuto otázku závisí do značné míry na typu organizace. Existují například problémy s dodržováním předpisů, které jsou společné pro mnoho oborů, jako jsou standard PCI DSS (Payment Card Industry Data Security Standard) nebo zákony na ochranu soukromí, které nedovolují nešifrované ukládání citlivých osobních údajů.

Automatické rozpoznávání toho, kdy a kde se tato citlivá data vytvářejí a využívají, je náročné a zásadní.

Pokud lze efektivně odpovědět na výše uvedené otázky, objeví se celá řada nových případů užití a lepšího využití současných investic. Například tak firma může rychle najít nejnovější verzi návrhu dokumentu nebo určit, kdo v marketingovém oddělení je nejlépe obeznámený s nějakým konkrétním produktem.

Pro podniky je často nesmírně obtížné splnit tyto základní informační nároky.

Vizualizace možného

Pokročilá vizualizace je důležitým nástrojem, který pomáhá uživatelům pochopit komplexní informace a jednat na jejich základě.

Kompletní článek zahrnující spoustu dalších poznatků, trendů a zajímavostí si můžete přečíst v Computerworldu 11/2014.

Našli jste v článku chybu?

Sdílet

Autor článku

Steve Kearns

Témata:

Mohlo by vás zajímat

Anketa

Využíváte už ve firmě autonomní agenty postavené na bázi umělé inteligence?

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Vsadili jste na digitální transformaci? Čekají vás neustálé změny a úpravy

Třetí čtvrtletí letošního roku ryze českých investic

Coffee break: Když Wi-Fi potřebuje překonávat i kovové zdi

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Na co mají zaměstnanci nárok, pokud se starají o nemocné blízké?

HPE ocenilo partnery roku 2024, nejlepším distributorem je DNS

Raspberry Pi: jaké příslušenství zvolit pro začátek?

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

IDC: Dodávky průmyslových tiskáren stagnují, výkonnost segmentů se ale liší

Vizualizovat lze i nestrukturovaná data

Sdílet

Autor článku

Steve Kearns

Témata:

Mohlo by vás zajímat

Co se dočtete v novém Computerworldu 11/2024?

Podcast: Kybernetická bezpečnost v Česku – dokážeme čelit novým hrozbám?

Windows Recall: Kontroverzní funkce sledující obrazovku má další zpoždění!

Anketa

Využíváte už ve firmě autonomní agenty postavené na bázi umělé inteligence?

Kvíz týdne

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Z našich webů

Vsadili jste na digitální transformaci? Čekají vás neustálé změny a úpravy

Třetí čtvrtletí letošního roku ryze českých investic

Coffee break: Když Wi-Fi potřebuje překonávat i kovové zdi

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Na co mají zaměstnanci nárok, pokud se starají o nemocné blízké?

HPE ocenilo partnery roku 2024, nejlepším distributorem je DNS

Raspberry Pi: jaké příslušenství zvolit pro začátek?

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

IDC: Dodávky průmyslových tiskáren stagnují, výkonnost segmentů se ale liší

Dále u nás najdete

Dřívější neplodnost dnes řeší miniinvazivní operace

ÚOOÚ šetří české vydavatele kvůli „pay or ok“

Čeští středoškoláci očekávají vypuštění své družice

Bezplatný Microsoft PC Manager vylepšen

Podnikatelé s nižšími příjmy si za celý rok připlatí skoro o 13 tisíc víc

Firmy mají řešit byznys, ne hledat účtenky, razí Fidoo

Jak Mikýř vyděsil Novu, ale nakonec vydělaly obě strany

Po infarktu hrozí šok a smrt. Lékaři hledají způsoby, jak lidi zachránit

V aplikaci Záchranka je rozcestník péče pro nevyléčitelně nemocné

Horké nápoje: Zkuste recepty na šest nejznámějších

Jak uplatní pracující důchodci u zaměstnavatele slevu na pojistném?

Balík od DPD si nově můžete vyzvednout i na České poště

Správná péče o bércové vředy může zabránit zanícení

Obsah vytvořený pomocí AI vidíte každý den. Jen to nevíte

Digitální transformace znamená neustálé změny a úpravy

Oznámení o osvobozených příjmech: shrnutí povinností

Edge zkouší nový trik na uživatele Chromu

Papírové letáky budou zpoplatněny, může jít o desetník za kus

Osvědčené způsoby, jak snížit vysoký krevní tlak

Temný rekord, počet kyberútoků dosáhl historického maxima