Zachování anonymity? S big daty spíše zbožné přání

Pro zachování anonymity osobních informací při shromažďování big dat existují účinné metody. Záleží však z velké míry na tom, jak často se využívají. A většina expertů uvádí, že to není moc často.

Zachování anonymity? S big daty spíše zbožné přání


Jak anonymní může člověk v dnešním digitálním světě být? Nejde o skupiny hacktivistů, ale o anonymitu průměrných lidí v situaci, kdy se jimi vytvářená data shromažďují v podstatě každým – počínaje marketingem, webovými stránkami, výzkumnými pracovníky, vládními organizacemi atd.

Je shromažďování údajů pro potřeby big dat – i s odstraněním osobních údajů či zašifrováním – stále zranitelné vůči metodám zpětného ztotožnění, které identifikuje jednotlivce až do té míry, že je možné nebo už probíhá vlezlé narušování soukromí?

Nebo lze zachovat jednotlivcům bezproblematickou anonymitu v moři dat, která se používají ke zjišťování trendů, sledování šíření nemoci, určování oblastí s vysokou kriminalitou nebo k dalším záležitostem, jež zlepší hospodářský blahobyt či zdraví populace?

 

Je anonymita zajištěná?

Nečekejte od zástupců IT a odborníků na soukromí jednomyslnou odpověď. V této oblasti stále probíhají diskuze. Skupina na jedné straně zahrnuje autory dokumentu „Big data a inovace, náprava záznamů: deidentifikace funguje“ z června 2014, kde se uvádí, že soukromí je dostatečně podporované a média by měla přestat přehánět.

Její autoři Daniel Castro a Ann Cavoukian kritizují „zavádějící titulky a výroky v médiích“, které naznačují, že osoby s pouze průměrnými znalostmi a správnými technologickými nástroji dokážou odhalit totožnost osob, jejichž data se anonymizovala.

Chyba způsobující šíření tohoto mýtu je podle nich nikoli v samotných zjištěních prezentovaných výzkumníky v základní literatuře, ale „tendence komentátorů této literatury zveličovat publikovaná zjištění“.

Tvrdí, že správně udělaná anonymizace je prakticky neprůstřelná a snižuje riziko identifikace osob na méně než 1 %, což je méně než riziko narušení soukromí při dolování soukromých informací z vynášeného odpadu, který může obsahovat citlivé osobní informace.

Také argumentují, že neopodstatněný strach ze ztráty anonymity může podkopat „pokrok v oblasti analýz dat, které otevírají možnosti použití anonymizovaných datových souborů způsoby, jež nikdy dříve nebyly možné – třeba pro vytváření značných sociálních a ekonomických přínosů“.

Uznávají však, že aby byl proces anonymizace účinný, nesmí je uskutečňovat povrchním způsobem. A to je podle Pam Dixonové, výkonné ředitelky světového fóra pro soukromí (World Privacy Forum), skutečný problém. Ona a další tvrdí, že mimo kontrolované prostředí akademického výzkumu anonymita a soukromí v podstatě přestaly existovat.

 

Nedostatky soukromí

Dixonová neoponuje tvrzením o dosažitelné účinnosti ze zmíněného dokumentu, ale upozorňuje, že v reálném světě nedochází k důsledné anonymizaci všech množin dat.

„Ve skutečnosti to lidé nebudou dělat důsledně,“ tvrdí Dixonová a dodává. „Chcete-li získat skutečnou anonymitu při zpracování big dat, musíte použít mimořádně širokou úroveň agregace.“

Pokud se podle ní bavíme jen o údajích shromážděných pro celostátní či lokální trendy, potom lze anonymizace dosáhnout, protože nejde o samotné jednotlivce. Jestliže se však mluví o počtu osob s chřipkou v Praze a jsou k dispozici všechna poštovní směrovací čísla, je to už něco jiného.

Joseph Lorenzo Hall, hlavní technolog Centra pro demokracii a technologie (CDT, Center for Democracy & Technology), souhlasí, že ačkoli důsledná anonymizace je demonstrativně účinná, ve světě sběru dat tento ideální stav nevzniká. Jednou z příčin podle něj je, že skutečně neprůstřelná anonymizace snižuje užitečnost údajů.

„Podstatnou vlastností těchto souborů dat, které umožňují opětovnou identifikaci, je, že záznamy chování téhož jedince jsou vzájemně propojené. To je velká část přínosu uchovávání těchto záznamů,“ uvádí Hall.

Velkým problémem je podle něj zveřejňování souborů dat, které byly špatně anonymizované, a také sdílení údajů, u nichž se předpokládá nepřítomnost osobních informací, ale ve skutečnosti obsahují nějaký druh trvalého identifikátoru, který lze triviálně přiřadit k odpovídajícím osobám.

Zatímco některé shromažďování dat skutečně směřuje k ekonomickému prospěchu či zdraví obyvatelstva, Hall poznamenává, že v mnoha případech tomu tak není. „Některé maloobchody používají sledování Wi-Fi, v rámci něhož se využívá MAC adresa vašeho přístroje (trvalý síťový identifikátor), aby vás ve svém obchodě pečlivěji sledovali. To je důvod, proč Apple začal tyto adresy ‚randomizovat‘.“

Paul O‘Neil, konzultant pro zabezpečení informací ve společnosti IDT911 Consulting, má téměř totožný názor. „Pokud se anonymizace udělá dobře, potom to skutečně může fungovat.  To slovo ‚pokud‘ je však mnohem významnější podmínka, než si většina lidí uvědomuje.“

 

Co má být anonymní?

Raul Ortega, manažer společnosti Protegrity, upozorňuje také na to, jak nevyrovnaná je ochrana soukromých dat. „Zatímco se zabezpečení kreditních karet zlepšuje, v oblasti anonymizace hromady citlivých osobních údajů, které existují v každé firmě, se toho dělá jen velmi málo.“

Částí tohoto problému může být podle právních expertů určitý aspekt sémantiky, který vede k obecnému zmatku. „Musíme mít jasno v tom, co máme na mysli, když prohlašujeme data za anonymní,“ upozorňuje Kelsey Finchová, poradkyně fóra pro budoucnost soukromí (FPF, Future of Privacy Forum)...

 

Tento příspěvek vyšel v Computerworldu 7/2015.Oproti této on-line verzi je výrazně obsáhlejší a přináší další poznatky a tipy, které lze využít při praktické implementaci u vás ve firmě.

Časopis (starší čísla i předplatné těch nadcházejících) si můžete objednat na adrese našeho vydavatelství.

Úvodní foto: Fotolia










Komentáře