Z tweetů lze určit polohu odesilatele

17. 1. 2011

Nejde o geolokační software ani o sledování IP adresy. Příspěvky na Twitteru mohou podle jazykovědců se slušnou pravděpodobností napovědět ne sice přímo aktuální polohu uživatele, ale to, odkud pochází a kde žije.

Zdaleka přitom nejde jen o rozdíly mezi australskou a americkou angličtinou (nebo dejme tomu mezi pražským a ostravským dialektem češtiny). Odlišit se s poměrně slušnou pravděpodobností dají i dvě města na západním pobřeží USA, třena San Francisco a Los Angeles. Alespoň to tvrdí vědci z Carnegie Mellon University.
Zajímavé je, že Twitter v tomto má být specifický, z e-mailů, blogů nebo příspěvků na Facebooku se toho dá uhodnout mnohem méně. Údajně proto, že Twitter omezuje délku příspěvků na 140 znaků, čímž uživatele motivuje k používání všemožných zkratek či slangových výrazů, které se regionálně výrazně odlišují. Nakonec tedy o člověku tweet vypovídá asi tolik jako dialekt používaný v mluvené řeči. Na rozdíl od jiných psaných forem, kde se uživatelé uchylují k formálnějšímu jazyku, se zkráceniny na Twitteru objevují i v důsledku toho, že příspěvky bývají často přidávány z mobilních telefonů. Které zase mají často zapnuté geolokační služby a podle nich lze testovat, nakolik se jazykovědci při analýze textu skutečně trefili do reality. Do výzkumu bylo takto zahrnuto 9 500 uživatelů se zapnutou geolokací a celkem 380 000 příspěvků. Aby výzkumníci získali komplexnější vzorek používaného slovníku/jazyka, vyřadili ty uživatele, kteří napsali méně než 20 zpráv.
My, pro něž není angličtina rodným jazykem, se můžeme údajně přidržet např. následujících pouček: V severní Kalifornii se cool píše jako koo, zatímco v jižní spíše jako coo. Something se obvykle zkracuje na sumthin a z toho se moc dalšího poznat nedá, ale zkrácenina suttin s vysokou pravděpodobností ukazuje na New York. Ve Washingtonu se namísto obecné zkratky LOL (laughing out loud) používá spíše LLS. Very tired v obecné angličtině zase odpovídá hella (severní Kalifornie), af (Los Angeles) a deadass (New York). Jak se zdá, Internet tedy v rozporu s některými předpoklady nevede k jazykové homogenizaci. Podle vědců navíc platí, že přednostně zde komunikují lidé sobě podobní, a to včetně podobnosti používaných jazykových prostředků. Výměna dat tedy zcela „nezbořila hranice" a její intenzita odpovídá fungování reálného světa, globalizace má své limity.
Ještě zajímavější než zachycení statického stavu je to, že podobné analýzy umožní sledovat vývoj jazyka v reálném čase, osudy jednotlivých slov a zkratek, jejich šíření a umírání. Samozřejmě s tou výhradou, že uživatelé Twitteru představují jen specifický vzorek populace (např. z hlediska věku).
Práce týmu, který vedl postdoktorand na Carnegie Mellon University Jacob Eisenstein, je k dispozici zde.

Zdroj: Sciencedaily

Poznámka: Původní zdroj ovšem uvádí, že střední odchylka při určení polohy podle tweetu je v USA až 300 km. To by ve středoevropských poměrech neznamenalo žádnou zvláštní přesnost, ovšem USA jsou jazykově samozřejmě podstatně homogennější. Bylo by zajímavé zkusit takový výzkum provést i u nás.

Našli jste v článku chybu?

Pavel Houser

Témata:

twitter

Sdílet

Autor článku

Pavel Houser

Témata:

Mohlo by vás zajímat

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Dan Rosendorf, ICZ: Přehnaná regulace svírá celé odvětví

Veselé Vánoce a šťastný nový rok 2025

IDC: Globální trh čipů letos vyroste o 15 %, pozitivní vývoj podporuje AI

Jak pomoci ekologii: Životnost notebooků 10 let bez ztráty funkčnosti a komfortu

Vyšlo nové číslo CFOworldu 4/2024

Red Hat: Co nás čeká v oblasti automatizace a využití AI?

Co zjistil „Staťák“ o české digitální ekonomice?

Co se v roce 2025 mění pro firmy, zaměstnance a daňové poplatníky?

Zaostřeno na storage: Odpovídá Václav Štajner (QNAP Systems)

Z tweetů lze určit polohu odesilatele

Sdílet

Autor článku

Pavel Houser

Témata:

Mohlo by vás zajímat

V novém Computerworldu 1/2025 hledáme IT osobnosti roku a mnoho dalšího

Předpověď kybernetických hrozeb pro rok 2025: Připravte se na větší a odvážnější útoky

Europol zatnul tipec hackerům, chystali hromadný útok během Vánoc

Kvíz týdne

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Z našich webů

Dan Rosendorf, ICZ: Přehnaná regulace svírá celé odvětví

Veselé Vánoce a šťastný nový rok 2025

IDC: Globální trh čipů letos vyroste o 15 %, pozitivní vývoj podporuje AI

Jak pomoci ekologii: Životnost notebooků 10 let bez ztráty funkčnosti a komfortu

Vyšlo nové číslo CFOworldu 4/2024

Red Hat: Co nás čeká v oblasti automatizace a využití AI?

Co zjistil „Staťák“ o české digitální ekonomice?

Co se v roce 2025 mění pro firmy, zaměstnance a daňové poplatníky?

Zaostřeno na storage: Odpovídá Václav Štajner (QNAP Systems)

Dále u nás najdete

Přehled změn, které se na podnikatele chystají v roce 2025

Když přestanete kouřit, riziko rakoviny klesne na půlku

Co jste na Lupě v roce 2024 nejvíce četli?

Myjeme si ruce, jíme céčko a věříme, že to bude stačit

38C3 bylo největší setkání hackerů v Hamburku

Změny a novinky od roku 2025 v kostce

Příčinou laryngitidy bývá virová infekce, u dospělých i kouření

Přiznejte, že si taky pletete kapary s ančovičkami

Politické kampaně 2025: ANO slíbí zvýšení důchodů

Zdravé občerstvení na Silvestra, po kterém vám nebude těžko

Rok 2025 ve zdravotnictví: mění se vracení doplatků za léky

Změny pro zaměstnavatele i zaměstnance od roku 2025

Rok 2024 v IT: skomírající Intel a parádní Plasma 6

Rok 2024 znamenal hlavně zvýšení daní a zmatky u dohod

Značku založila na popud svých synů. Pomáhali jí i s prodejem

Dan Rosendorf, ICZ: Přehnaná regulace svírá celé odvětví

Zdravotní pojištění nebude začínajícím OSVČ odpuštěno

Však se to může jednou hodit! Když člověk neumí nic vyhodit

Pacientů se závratěmi přibývá, příčiny zatím nejsou zcela jasné

Podezřele levné estetické zákroky někdy nabízejí lidé bez vzdělání