Vážněji jsem se začal o koronavirus zajímat po tiskové konferenci MZČR 26. 1. 2020 na Letišti VH. Zajímalo mne, jaké informace byly v té době k dispozici v médiích. K vyhledání článků z daného období, které se týkají koronaviru, nepotřebuji umělou inteligenci. Stačí se umět zeptat. Když máte k dispozici adekvátní technologii, jde to dokonce velmi přesně.
Často se objevuje hypotéza, že vláda reaguje na témata v médiích a podle toho upravuje svoji politiku. Čísla však spíše nasvědčují opaku – že počet článků v médiích je ovlivněn aktivitami vlády.
Z grafu je patrný řádový nárůst počtu článků týkajících se koronaviru, kdy od 24. do 26. 1. bylo publikováno v českých on-line médiích 319 článků, z toho téměř polovina 26. 1., kdy se uskutečnila první tisková konference MZČR na toto téma. V březnu to bylo již více než 1 500 článků denně. A také je na první pohled vidět, které dny připadly na víkend.
Nicméně počet článků ještě nemusí být směrodatný, důležitý je rovněž jejich obsah. Když chci zjistit, čeho se tyto články týkaly, a přitom je nechci všechny číst, mohu použít obsahovou analýzu. Což je AI technika založená na lingvistické a statistické analýze textů. Na rozdíl od základních textminigových metod obsahová analýza rozpozná významná slovní spojení. Z výsledku je pak snadno vidět, čeho se jednotlivá témata týkají. Obsahovou analýzu lze opakovat v čase a díky tomu identifikovat témata, která se v textech objevují nově, nebo která se naopak objevovat přestala. Co již musím přirozeně vyhodnotit už sám, je, která z nalezených témat se vztahují k vybraným krokům vlády.
Obsahová analýza témat v on-line článcích 24. 1.–26. 1. 2020
Z obsahové analýzy vyplývá, že vláda se mohla inspirovat kroky realizovanými v jiných státech – například Francie a USA v té době již plánovaly evakuaci občanů. Byly rovněž signály o problémech s leteckou dopravou či o obavách z pandemie. I v případě dalších klíčových událostí je patrné, že podrobnější analýza toho, co se děje, by mohla rozhodování vlády podpořit. Analýza aktuálních témat v médiích by byla vhodná zejména pro přípravu tiskových konferencí. Většinu dotazů novinářů, na které účastníci tiskové konference neměli připravenou odpověď, bylo možné předvídat, protože vycházela z aktuálních témat v on-line médiích a na Twitteru.
Jakmile identifikuji určité téma, jsem schopný ho popsat, například pomocí aktivní mapy poznatků. Existují samozřejmě techniky vyhledání dat založené na strojovém učení. Nicméně ty mají omezení, která pro mě v současné situaci hrají zásadní roli. Vyžadují dostatek trénovacích dat a ta u nových témat nemám, a model dobře funguje pouze na obdobných datech. Mne zaujala aktivita skupiny Covid19cz a informace o ní budu chtít hledat nejen v médiích, ale i v rejstřících a dalších zdrojích.
Aktivní mapa poznatků má tu výhodu, že si zároveň na jednom místě shromažďuji poznatky o tom, co mě zajímá, a zároveň slouží pro vyhledání informací díky tomu, že je psaná v dotazovacím jazyce TQL, který je čitelný pro člověka i pro stroj. Díky tomu mohu vyhledat informace o skupině ve všech zdrojích, které mám k dispozici, například v databázích a rejstřících či na Twitteru.
Aktivní mapa poznatků mi například umožňuje identifikovat zmínky o vybraných projektech Covid19cz v on-line médiích a na Twitteru. Z výsledku je patrné, že nejdříve byla medializována aktivita Infolinka 12122, následně GPS tracking na mapy.cz a pak další aktivity jako Corovent a Dobrovoz.
Výsledky vyhledávání z různých zdrojů je vhodné dát na jedno místo, tím je pro mne diagram, který mi umožňuje zobrazit například vztahy mezi jednotlivými členy skupiny Covid19cz. Vizuální prezentace výsledků má smysl nejen při přípravě článku, ale vždy, když své závěry potřebuji prezentovat dalším lidem. Z analýzy vyplývá, že Covid19cz je tvořen několika skupinami lidí, kteří k sobě mají dlouhodobě blízko.
Na základě srovnání různých metod lze říci, že umělá inteligence je užitečným nástrojem v okamžiku, kdy množství zpracovávaných dat je tak velké, že není v lidských silách ho zpracovat. Metody AI založené na strojovém učení jsou ale limitovány na opakované zpracování úloh, kde je dostatek trénovacích dat a vstupní data jsou stabilní. Úloha člověka při podpoře rozhodování je nezastupitelná, protože musí stanovit cíle a hypotézy a interpretovat výsledky ve vztahu k řešenému problému. Je potřeba vzít v úvahu i to, že řada parametrů důležitých pro rozhodnutí není a nikdy nebude obsažena v analyzovaných datech. Jsou to znalosti, které člověk, který dělá analýzu, má nebo je schopný je v případě potřeby získat z dalších zdrojů.
Říká se, že obrázek vydá za tisíc slov. Tento článek má méně než 800 slov, pokud vás tato problematika zajímá více, podívejte se na demo. Najdete tam aktuální informace o COVID-19, odkazy na články z českých médií, příspěvky z Twitteru a samozřejmě i poznatkovou bázi o projektu COVID-19.
Miroslav Nečas, development manager, Tovek