Z tweetů lze určit polohu odesilatele

17. 1. 2011

Sdílet

Nejde o geolokační software ani o sledování IP adresy. Příspěvky na Twitteru mohou podle jazykovědců se slušnou pravděpodobností napovědět ne sice přímo aktuální polohu uživatele, ale to, odkud pochází a kde žije.

Zdaleka přitom nejde jen o rozdíly mezi australskou a americkou angličtinou (nebo dejme tomu mezi pražským a ostravským dialektem češtiny). Odlišit se s poměrně slušnou pravděpodobností dají i dvě města na západním pobřeží USA, třena San Francisco a Los Angeles. Alespoň to tvrdí vědci z Carnegie Mellon University.
Zajímavé je, že Twitter v tomto má být specifický, z e-mailů, blogů nebo příspěvků na Facebooku se toho dá uhodnout mnohem méně. Údajně proto, že Twitter omezuje délku příspěvků na 140 znaků, čímž uživatele motivuje k používání všemožných zkratek či slangových výrazů, které se regionálně výrazně odlišují. Nakonec tedy o člověku tweet vypovídá asi tolik jako dialekt používaný v mluvené řeči. Na rozdíl od jiných psaných forem, kde se uživatelé uchylují k formálnějšímu jazyku, se zkráceniny na Twitteru objevují i v důsledku toho, že příspěvky bývají často přidávány z mobilních telefonů. Které zase mají často zapnuté geolokační služby a podle nich lze testovat, nakolik se jazykovědci při analýze textu skutečně trefili do reality. Do výzkumu bylo takto zahrnuto 9 500 uživatelů se zapnutou geolokací a celkem 380 000 příspěvků. Aby výzkumníci získali komplexnější vzorek používaného slovníku/jazyka, vyřadili ty uživatele, kteří napsali méně než 20 zpráv.
My, pro něž není angličtina rodným jazykem, se můžeme údajně přidržet např. následujících pouček: V severní Kalifornii se cool píše jako koo, zatímco v jižní spíše jako coo. Something se obvykle zkracuje na sumthin a z toho se moc dalšího poznat nedá, ale zkrácenina suttin s vysokou pravděpodobností ukazuje na New York. Ve Washingtonu se namísto obecné zkratky LOL (laughing out loud) používá spíše LLS. Very tired v obecné angličtině zase odpovídá hella (severní Kalifornie), af (Los Angeles) a deadass (New York). Jak se zdá, Internet tedy v rozporu s některými předpoklady nevede k jazykové homogenizaci. Podle vědců navíc platí, že přednostně zde komunikují lidé sobě podobní, a to včetně podobnosti používaných jazykových prostředků. Výměna dat tedy zcela „nezbořila hranice" a její intenzita odpovídá fungování reálného světa, globalizace má své limity.
Ještě zajímavější než zachycení statického stavu je to, že podobné analýzy umožní sledovat vývoj jazyka v reálném čase, osudy jednotlivých slov a zkratek, jejich šíření a umírání. Samozřejmě s tou výhradou, že uživatelé Twitteru představují jen specifický vzorek populace (např. z hlediska věku).
Práce týmu, který vedl postdoktorand na Carnegie Mellon University Jacob Eisenstein, je k dispozici zde.

 

Zdroj: Sciencedaily

bitcoin školení listopad 24

 

Poznámka: Původní zdroj ovšem uvádí, že střední odchylka při určení polohy podle tweetu je v USA až 300 km. To by ve středoevropských poměrech neznamenalo žádnou zvláštní přesnost, ovšem USA jsou jazykově samozřejmě podstatně homogennější. Bylo by zajímavé zkusit takový výzkum provést i u nás.