Tak to alespoň říká crowdsourcingová (zcela nový způsob dělby práce založený na principu výzvy veřejnosti, pozn. red.) společnost CrowdFlower, která se zeptala na názor 80 datových analytiků s různou úrovní zkušeností.
Ač je pro pozici obvykle třeba vyššího vzdělání, celých 60 % respondentů uvedlo, že hlavní náplní jejich práce je organizovat a třídit data, což jim nechává jen špetku času pro samotné analytické úkoly, jako je vylepšování algoritmů.
„Necháte váš těžce získaný zdroj trávit většinu času tříděním dat,“ říká Lukas Biewald, spoluzakladatel a ředitel CrowdFlower. „Je to obrovská ztráta pro firmy.“
Třídení a organizování dat je, jak vyplývá z průzkumu, také tou nejméně oblíbenou částí práce pro samotné analytiky, uvedlo přes padesát procent respodentů. To není zrovna veselá statistika, ale datoví analytici se zřejmě neradi vzdávají: Přes 80 % tvrdí, že jsou v práci spokojeni.
CrowdFlower také potvrdil, že v podnikovém světě datoví analytici chybí. V průzkumu z minulého roku uvedlo 79 % respondentů, že jich je nedostatek; letos to bylo už 83 %, tedy čtyrprocentní nárůst během jediného roku.
Chcete se sami stát datovým analytikem? Dle CrowdFloweru potřebujete znát především následující: SQL, Hadoop, Python, Java, R, Hive, MapReduce, NoSQL, Pig a SAS. Další, a neméně důležitá schopnost, je strojové učení, kterou označilo jako obzvláště důležitou více než 50 % respodentů oslovených společností CrowdFlower.
„Během posledních několika let se každý ředitel společnosti ptal, ‘jaká je naše strategie pro big data?‘“ Pokračuje Biewald. „Měli by se však začít vyptávat na strojové učení.“