Prediktivní analytika na kolenou? Volby v USA srazily její důvěryhodnost

Že republikán Donald Trump porazí demokratku Hillary Clintonovou, nepředpokládala ani středoproudá media, ani volební průzkumy. Na první pohled vrhá takové zmýlení špatné světlo na některé z klíčových technologických sektorů jako je prediktivní analytika či big data.

Prediktivní analytika na kolenou? Volby v USA srazily její důvěryhodnost


Někteří odborníci však obavy mírní. Problém s průzkumy a anketami typu FiveThirtyEight tkví spíše ve sběru dat než v jeho zpracování, tvrdí.

Datová analytika v americkém prostředí již zafungovala, např. v Moneyball modelu pro baseballový klub Oakland Athletics, ale sport je něco jiného než volby, vysvětluje CRM analytik Denis Pombriant, zakladatel skupiny Beagle Research Group. Statistici sbírali spolehlivá baseballová data více než sto let, zatímco u volebních průzkumů je situace poněkud vrtkavější.

Všechna datová analytika závisí na „dobrých, čistých datech, a z tohoto důvodu by měla být aplikovaná obezřetně,“ popisuje ve středeční zprávě Pombriant. „Bez dávky opatrnosti bychom se rovnou mohli vrátit ke starému IT a statistickému rčení ‚odpad dovnitř, odpad ven.‘“

Průzkum nejsou skutečná big data, doplňuje Nik Rouda, analytik v Enterprise Strategy Group. „Velikost vzorků byla pro průzkumy jednoznačně dostačující, možná však nestačil objem dat a jejich rozmanitost v kontrastu s okamžitostí, strojovým učením a další pokročilou analytikou,“ popisuje v e-mailu. „Troufal bych si tvrdit, že využití vícero technik big dat by vytvořilo přesnější průzkumy.“

Je však pravdou, že většina průzkumů předpokládala vítězství Clintonové jen velmi těsně, přičemž velká část průzkumů se nachází uvnitř tolerované statistické odchylky. Je také dobré si povšimnout, že na celkový počet hlasů Clintonová zvítězila; nepřesnost se projevila u států, které dle průzkumů měla těsně vyhrát, avšak se tak nestalo.

Problém je tedy nejen v metodice průzkumů, ale i americkém volebním systémů, který je na podobná překvapení jako dělaný.

Podle profesora Samuela Wanga, manažera Princeton Election Consortium, které dávalo Clintonové 99% šanci na vítězství, zde však nehrála statistická odchylka roli. Průzkumy vyústily v „systematickou chybu,“ popsal Wang. „Celá skupina průzkumů byla mimo, celkově. Šlo o opravdu velký rozdíl, okolo 4 bodů na prezidentské a senátní úrovni.“

Prozatím Wang pokračuje v analýze dat; jeden z důvodu vzniklé analytické chyby podle něj může spočívat také v nerozhodnutých voličích.

Na začátku prezidentské kampaně bylo 20 % obvykle republikánských voličů nerozhodnutých, řekl Wang. „Pro ně byla volba Trumpa bitvou mezi loajalitou ke straně a reakcí na dosti radikálního kandidáta. Je možné, že u většiny z nich vyhrála loajalita.“

Jak Wang, tak Tony Baer, analytik big dat ve společnosti Ovum, si myslí, že průzkumu podcenily nejen nerozhodnuté, ale i těžko dosažitelné voliče. Pro tazatele je stále těžší vytipovat ty správné osoby do průzkumu. Někteří mohli také jednoduše lhát, dodal skrze e-mail.

Jak vidno, průzkumy nebyly zdaleka tak špatně, jak se může na první pohled zdát; roli sehrála těsnost souboje, americký volební systém, statistická odchylka i špatná práce s nerozhodnutými voliči a sběrem dat jako takovým. Faktem ale zůstává, že se zmýlily a je nutné dále pracovat na zpřesnění jakýchkoliv předpovědí.

Úvodní foto: © Tommi - Fotolia.com










Komentáře