Nový program je schopen identifikovat anonymní autory

14. 1. 2013

Sdílet

 Autor: © Nmedia - Fotolia.com
Hackerská konference ukázala, že jen 20 procent anonymních autorů se oprávněně cítí v bezpečí.

Na hackerské konferenci Chaos Communication congress 29C3 skupina amerických lingvistů z Univerzity v Drexelu představila svůj výtvor Anonymouth – program schopný určovat autora textových příspěvků na základě porovnávání textů. Podle autorů lze až na 80 procent uživatelů některých anonymních diskuzních fór najít pomocí lingvistiky.

Stylometrická analýza používá statistické metody ve snaze o identifikaci či potvrzení autorství analyzovaného textu. Vyžaduje k tomu rozsáhlý vzorek textů, kde jsou autoři známí, a lze je analyzovat na použitou slovní zásobu, četnost jednotlivých slov, délku a způsob skladby jednotlivých vět apod. Nejde tedy o vlastní obsah sdělení, ale o formu sdělení – pro každého autora je velmi pravděpodobné, že stejným způsobem použije tzv. funkční slova (jako spojky, zájmena, pomocná slovesa, která mají minimální lexikální význam, ale učují gramatické vztahy v souvětích) například ve své dizertační práci i v každém diskusním příspěvku. Výzkumníci tyto techniky aplikovali na milióny příspěvků od desítek tisíc uživatelů, které byly zaslány do několika vícejazyčných webů podzemních hnutí.

Předváděný program, který je zatím označován za alfa verzi (lze jej stáhnout na příslušných stránkách univerzity), má řadu omezení. Analýza potřebuje minimálně 5 000 slov příspěvků na autora. Dále je nutné oddělit diskuse od „produktových“ informací (jako jsou kreditní karty, viry, drogy atd.) od konverzačních textů, aby byla umělá inteligence schopna pracovat samostatně. Finální analýza probíhá pouze v angličtině a všechny texty jsou překládany pomocí volně dostupných nástrojů jako je Google či Bing.

Autoři zdůrazňují, že při spojení s profesionálnímí překladovými prostředky, případně přeučením programu na danou jazykovou oblast, pravděpodobnost identifikace původu příspěvku dále vzroste. Další verze programu mají navíc brát v potaz i jiné informace, jako skupiny adres IP, ze kterých příspěvek pochází, či v jakých časech a z jakých časových zón pochází.

Takové nástroje mohou odhalit vlastníky botnetových sítí i autory malwaru, což určitě zaujme řadu státních organizací. Na opačné straně ale nepochybně povedou k další minimalizace anonymity na internetu a k následnému ohrožení svobody projevu – a to nejen v diktátorských režimech světa.