Twitter umožňuje předvídat i sledovat šíření epidemií

Již asi před 2 lety spustil Google službu Flu Trends, která se na základě chování uživatelů pokoušela předvídat šíření epidemií, konkrétně chřipky. Nyní se k podobnému účelu vědci snaží využít i Twitter. A jde to podle všeho velmi dobře...


Podobně jako u Flu Trends se předpokládá, že zdravotní stav uživatelů se projeví v jejich aktivitě. Zatímco Google pochopitelně analyzoval, co jeho uživatelé vyhledávají (a aby to mělo nějaký smysl, musel přitom samozřejmě se slušnou úspěšností dokázat určit fyzické umístění lidí/počítačů), u Twitteru jsou předmětem rozboru jednotlivé příspěvky. V porovnání s Facebookem se Twitter hodí pro tento účel mnohem lépe, protože veškerý obsah zde má veřejný status. Taktéž příspěvky na Twitteru mají charakter kratičkých blogpostů (Twitter je navržen jako mikroblogovací systém), takže lze předpokládat, že je zvládne napsat i ten, kdo zrovna s chorobou ulehl; i když program pracuje s analýzou klíčových slov, nesnaží se zjistit smysl vět. Výskyt určitých slov-názvů chorob samozřejmě pak přesně nekoresponduje s množstvím nemocných, ale může vypovídat třeba i o míře paniky. Nicméně míra používání Twitteru je již podle vědců taková, že objem zpráv umožňuje zachytit v nich aktuální trendy. Byť jsou služby tohoto typu poněkud neproporcionálně používány lidmi mladšími, podle analýzy je např. již většina unikátních uživatelů Twitteru dnes starší než 35 let.

Za celým projektem stojí Aron Culotta, docent počítačových věd z Southeastern Louisiana University, nikoliv samotný Twitter. Vyvinutý program má k datům Twitteru přístup přes zveřejněné rozhraní API. Culotta uvádí, že v porovnání se sběrem a zpracováním zdravotnické dokumentace z nemocnic je tento postup mnohem levnější i rychlejší.

Vědci analyzovali asi 500 milionů blogpostů, které byly na Twitteru publikovány od srpna 2009 do května 2010. Pomocí analýzy frekvence slov (opět se testovalo především pro chřipku) dokázal pak algoritmus úspěšně předpovědět, jaký počet nakažených bude zaznamenán v příslušném i následujícím období; data pro srovnání publikuje Centers for Disease Control. Vše fungovalo zcela automaticky a výsledky přibližně korespondovaly i s předpověďmi Google Flu Trends.

Nicméně mezi oběma metodami existují určité rozdíly. Přístup k API Twitteru umožňuje detailnější analýzu z hlediska toho, kdy přesně byl daný blogpost přidán, Google analyzuje vyhledávaná slova za delší časové období. Naopak při analýze dat z Twitteru, kterou provádí třetí strana, je samozřejmě větší problém zjistit, odkud přesně byl ten který příspěvek přidán. Právě tohle má být další cíl výzkumu: vyextrahovat data, k nimž lze přiřadit geolokaci, a z toho pak např. v podobě mapy generovat aplikaci, která by ukazovala aktuální směry/pohyby nejen chřipky, ale i jiných chorob.

 

Zdroj: ScienceDaily

 

Poznámka: Samozřejmě si lze snadno představit, jakými systematickými chybami mohou být výsledky získané podobnými metodami zatíženy.

 











Komentáře