Big data bez správné analýzy nejsou k ničemu

27. 8. 2013

Sdílet

 Autor: © alphaspirit - Fotolia.com
Pokud máte velký objem dat, nemusí to ještě znamenat, že máte ta správná data. Jak poukazuje čím dál více expertů, pokud máte učinit správná rozhodnutí, musíte tento velký objem dat velmi dobře analyzovat.

Pokud jsou data nekompletní, nedávají smysl či obsahují chyby, mohou vést ke špatným rozhodnutím, která mohou podkopat konkurenceschopnost firmy či poškodit životy jednotlivců. Jeden z klasických případů toho, jak nesouvisející data mohou vyvolat nechtěné závěry, popsal profesor Gary King z Harvardova ústavu pro kvantitativní společenské vědy. V rámci projektu s využitím velkého objemu dat měly být využity tweety a příspěvky z jiných sociálních sítí k tomu, aby předpovídaly míru nezaměstnanosti v USA pomocí monitorování klíčových slov jako „zaměstnání“, „nezaměstnanost“ a „inzerát“. Byla využita analytická technika, při níž byly do skupin sdružovány příspěvky obsahující tato slova, které byly dále zkoumány.

Při monitoringu výzkumníci narazili na vysoký počet tweetů obsahujících jedno z těchto klíčových slov. Avšak, jak King zjistil později, nemělo to žádnou souvislost s nezaměstnaností. „Jednoduše jsme si nevšimli toho, že zemřel Steve Jobs,“ řekl King. Nebýt smrti legendárního zakladatele Apple, byl by zvýšený výskyt slova „jobs“ (anglicky zaměstnání) úsměvnou historkou. „Podobným problémům se můžete pokusit vyhnout přidáním výjimek, nikdy si však nemůžete být jistí,“ dodal King s tím, že relevanci určitých pojmů si může vyzkoušet každý sám. „Stačí je zadat do webového vyhledávače. Zobrazí se jak relevantní výsledky, tak ty očividně o něčem úplně jiném.“

Podle Kima Jonese, senior viceprezidenta společnosti Vantiv, sice nejde o nový problém, avšak lidé si mohou myslet, že čím více mají dat, tím přesnější výsledky jim nějakým zázračným způsobem nabídnou. Wall Street Journal v únoru informoval o tom, že pojišťovny využívají velké množství dat k vytvoření profilů svých pojištěnců. Mezi věcmi, jež tyto společnosti zkoumaly, byl například počet kusů oblečení větších velikostí, které měly signalizovat obezitu. Je však možné, že tito lidé oblečení pouze kupovali pro jiného člena rodiny. Adam Frank z americké agentury National Public Radio pak nedávno mluvil o bankách, jež lidem nepřikleply půjčky kvůli kontaktům (ve špatné finanční situaci), jež tito lidé měli na sociálních sítích.

Kim Jones dodává, že tendence vyvozovat závěry v závislosti na špatné analýze dat v současném světě postihuje čím dál více lidí. „Je vždy špatné stavět svá rozhodnutí pouze na analýze dat. Pokud neberete v úvahu lidský element, musíte nutně dospět k více chybovým závěrům,“ dodal Jones.