Hadoop podle Facebooku na big data nestačí

4. 11. 2013

Sdílet

 Autor: © Hunter2 - Fotolia.com
Podle vystoupení šéfa analytiky společnosti Facebook relačním databázím ještě neodzvonilo.

Na konferenci Strata + Hadoop World, která proběhla  minulý týden v New Yorku, vystoupil s mírně kontroverzním příspěvkem Ken Rudin, vedoucí analytického oddělení firmy Facebook. „O velkých datech existuje řada obecně přijímaných tvrzeních, která je třeba zpochybnit. Podstatou problému je fakt, že Hadoop je technologie, ale u velkých dat nejde o technologie, ale o potřeby firem.“

Programovací framework Hadoop je sice často považován za synonymum světa velkých dat, ale není jediným nástrojem, na kterém by společnosti musely stavět svůj pohled dovnitř obrovských skladišť nestrukturovaných informací. Rudin prohlásil, že ve skutečnosti by big data měla zahrnout nejen Hadoop, ale i relační nástroje a jakoukoli jinou technologii, která bude vhodná pro daný problém.

Obchodní model Facebooku je těsně svázán se způsobem, jakým pro reklamní průmysl zpracovává proudy dat, které generuje aktivity více než miliarda uživatelů. Praxe Facebooku ukazuje, že Hadoop je vhodný pro přehledový průzkum datasetů, ale relační úložiště zvládají lépe operační analýzu toho, co Hadoop odkryl.

Hadoop velmi dobře pracuje s těmi nejhlouběji uloženými detaily datasetů, ale pro ukládání transformovaných a agregovaných dat jsou výhodnější relační databáze. Ale to je jen opakováním obecného tvrzení, že pro každou úlohu je třeba najít tu nejvhodnější technologii.

Podle Rudina je také často citován milný předpoklad, že samotný akt analýzy big data dodá cenné poznatky. Faktem je, že přináší spíše skvělé odpovědi na otázky, které nikoho nezajímají, a je nezbytné ty správné otázky najít. Facebook se v posledních letech soustředil na vyhledávání a zaměstnávání nejvhodnějšího personálu pro své analytické oddělení, ideální kandidát nemusí mít jen doktorát ve statistice, ale musí také chápat fungování a potřeby průmyslu.

Facebook se současně snaží „všechny své lidi vzdělávat v analýze“. Organizuje interní vzdělávací programy, 14denní akce, kterých jsou povinni se účastnit experti, ale především produktoví manažeři, návrháři i pracovníci finančních oddělení. Výsledkem by mělo být to, že všechna oddělení budou schopna komunikovat společným jazykem a svobodně diskutovat problémy související s velkými daty.

Vnitřní reorganizací prošlo i členění Facebooku na specializovaná oddělení. „Pokud držíte statistiky v oddělených skupinách, skončí to tím, že budou sedět a čekat na dotazy a problémy k řešení, místo aby byli proaktivní... Naopak, pokud statistiky umístíte do obchodních jednotek, dojde k redundanci a řada skupin se bude snažit řešit stejné problémy nezávisle na druhých.“

Facebook se rozhodl vsadit na vnořený model, kdy jsou analytikové částí jednotlivých obecných týmů, ale komunikují přímo s nadřazenými analytickými skupinami, které se snaží eliminovat duplicitní činnosti.