Z tweetů lze určit polohu odesilatele

17. 1. 2011

Nejde o geolokační software ani o sledování IP adresy. Příspěvky na Twitteru mohou podle jazykovědců se slušnou pravděpodobností napovědět ne sice přímo aktuální polohu uživatele, ale to, odkud pochází a kde žije.

Zdaleka přitom nejde jen o rozdíly mezi australskou a americkou angličtinou (nebo dejme tomu mezi pražským a ostravským dialektem češtiny). Odlišit se s poměrně slušnou pravděpodobností dají i dvě města na západním pobřeží USA, třena San Francisco a Los Angeles. Alespoň to tvrdí vědci z Carnegie Mellon University.
Zajímavé je, že Twitter v tomto má být specifický, z e-mailů, blogů nebo příspěvků na Facebooku se toho dá uhodnout mnohem méně. Údajně proto, že Twitter omezuje délku příspěvků na 140 znaků, čímž uživatele motivuje k používání všemožných zkratek či slangových výrazů, které se regionálně výrazně odlišují. Nakonec tedy o člověku tweet vypovídá asi tolik jako dialekt používaný v mluvené řeči. Na rozdíl od jiných psaných forem, kde se uživatelé uchylují k formálnějšímu jazyku, se zkráceniny na Twitteru objevují i v důsledku toho, že příspěvky bývají často přidávány z mobilních telefonů. Které zase mají často zapnuté geolokační služby a podle nich lze testovat, nakolik se jazykovědci při analýze textu skutečně trefili do reality. Do výzkumu bylo takto zahrnuto 9 500 uživatelů se zapnutou geolokací a celkem 380 000 příspěvků. Aby výzkumníci získali komplexnější vzorek používaného slovníku/jazyka, vyřadili ty uživatele, kteří napsali méně než 20 zpráv.
My, pro něž není angličtina rodným jazykem, se můžeme údajně přidržet např. následujících pouček: V severní Kalifornii se cool píše jako koo, zatímco v jižní spíše jako coo. Something se obvykle zkracuje na sumthin a z toho se moc dalšího poznat nedá, ale zkrácenina suttin s vysokou pravděpodobností ukazuje na New York. Ve Washingtonu se namísto obecné zkratky LOL (laughing out loud) používá spíše LLS. Very tired v obecné angličtině zase odpovídá hella (severní Kalifornie), af (Los Angeles) a deadass (New York). Jak se zdá, Internet tedy v rozporu s některými předpoklady nevede k jazykové homogenizaci. Podle vědců navíc platí, že přednostně zde komunikují lidé sobě podobní, a to včetně podobnosti používaných jazykových prostředků. Výměna dat tedy zcela „nezbořila hranice" a její intenzita odpovídá fungování reálného světa, globalizace má své limity.
Ještě zajímavější než zachycení statického stavu je to, že podobné analýzy umožní sledovat vývoj jazyka v reálném čase, osudy jednotlivých slov a zkratek, jejich šíření a umírání. Samozřejmě s tou výhradou, že uživatelé Twitteru představují jen specifický vzorek populace (např. z hlediska věku).
Práce týmu, který vedl postdoktorand na Carnegie Mellon University Jacob Eisenstein, je k dispozici zde.

Zdroj: Sciencedaily

Poznámka: Původní zdroj ovšem uvádí, že střední odchylka při určení polohy podle tweetu je v USA až 300 km. To by ve středoevropských poměrech neznamenalo žádnou zvláštní přesnost, ovšem USA jsou jazykově samozřejmě podstatně homogennější. Bylo by zajímavé zkusit takový výzkum provést i u nás.

Našli jste v článku chybu?

Pavel Houser

Témata:

twitter

Sdílet

Autor článku

Pavel Houser

Témata:

Mohlo by vás zajímat

Anketa

Využíváte už některé z inovativních metod šifrování?

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Spěcháte na návratnost investic AI? Je možné, že to bude drahé

Vyšlo nové číslo CFOworldu 4/2024

Vivolink představí svoje ProAV a systémová řešení na veletrhu ISE 2025 v Barceloně

Nedostatečné zabezpečení koncových zařízení ohrožuje firmy

Co se v roce 2025 mění pro firmy, zaměstnance a daňové poplatníky?

Arrow Electronics je AWS Rising Star Distributor Partner roku v regionu EMEA

Jak zabránit zneužívání umělé inteligence – je AI Akt řešením?

Novela zákoníku práce pohledem firem? Rychlejší výpovědi a nedořešení dohodáři

AT Computers je IDG Distributorem roku společnosti Lenovo

Z tweetů lze určit polohu odesilatele

Sdílet

Autor článku

Pavel Houser

Témata:

Mohlo by vás zajímat

Co je nejoblíbenější způsob použití umělé inteligence v práci?

Předpověď kybernetických hrozeb pro rok 2025: Připravte se na větší a odvážnější útoky

Europol zatnul tipec hackerům, chystali hromadný útok během Vánoc

Kybernetická bezpečnost: Podcast o tajemstvích bezpečnostních operačních center s Pavlem Hrabcem

Anketa

Využíváte už některé z inovativních metod šifrování?

Kvíz týdne

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Z našich webů

Spěcháte na návratnost investic AI? Je možné, že to bude drahé

Vyšlo nové číslo CFOworldu 4/2024

Vivolink představí svoje ProAV a systémová řešení na veletrhu ISE 2025 v Barceloně

Nedostatečné zabezpečení koncových zařízení ohrožuje firmy

Co se v roce 2025 mění pro firmy, zaměstnance a daňové poplatníky?

Arrow Electronics je AWS Rising Star Distributor Partner roku v regionu EMEA

Jak zabránit zneužívání umělé inteligence – je AI Akt řešením?

Novela zákoníku práce pohledem firem? Rychlejší výpovědi a nedořešení dohodáři

AT Computers je IDG Distributorem roku společnosti Lenovo

Dále u nás najdete

Nestrkejte mrtvolu do auta, když kolem jede Google Street View

Reklama přímo v systému televize: Co kdyby nešla vypnout?

Vyšetření krvácení do stolice jako prevence rakoviny nestačí

640 kB paměti by mělo stačit každému: skutečně?

Jak okresní města mění koeficienty k dani z nemovitostí

Vánoce v minulosti: Oplzlé koledy, bujaré veselí a na večeři hrachová kaše.

Neplaťte si IT kurzy sami, využijte dotace od EU

Změna komunikace Petra Fialy se nepovedla, je v ní vidět křečovitost

Autor zasněžených Vánoc přišel jako malý o oko

Nejistota pro podnikatele, zásadní změny DPH ještě nejsou schváleny

Ona pracuje s jehlou a nití, on se štětci a barvami

Jak zabránit zneužívání umělé inteligence – je AI Akt řešením?

Pár triků, díky kterým dokážete letos o Vánocích nepřibrat

Operátoři testují nástroj proti podvrženým mobilním číslům

Přinášíme souhrn příběhů podnikatelů roku 2024

Kapr se dříve připravoval na modro. Dnes se hlavně smaží, vyzkoušejte podkovy

Češi mají aplikaci, která propojuje lidi podle společných koníčků

Smyčka se utahuje – americké restrikce omezí další firmy

Let's Encrypt příští rok nabídne certifikáty jen na šest dnů

Zkuste vánoční cukroví bez cukru. 5 vyladěných receptů