Zachování anonymity? S big daty spíše zbožné přání

30. 4. 2016

Pro zachování anonymity osobních informací při shromažďování big dat existují účinné metody. Záleží však z velké míry na tom, jak často se využívají. A většina expertů uvádí, že to není moc často.

Jak anonymní může člověk v dnešním digitálním světě být? Nejde o skupiny hacktivistů, ale o anonymitu průměrných lidí v situaci, kdy se jimi vytvářená data shromažďují v podstatě každým – počínaje marketingem, webovými stránkami, výzkumnými pracovníky, vládními organizacemi atd.

Je shromažďování údajů pro potřeby big dat – i s odstraněním osobních údajů či zašifrováním – stále zranitelné vůči metodám zpětného ztotožnění, které identifikuje jednotlivce až do té míry, že je možné nebo už probíhá vlezlé narušování soukromí?

Nebo lze zachovat jednotlivcům bezproblematickou anonymitu v moři dat, která se používají ke zjišťování trendů, sledování šíření nemoci, určování oblastí s vysokou kriminalitou nebo k dalším záležitostem, jež zlepší hospodářský blahobyt či zdraví populace?

Je anonymita zajištěná?

Nečekejte od zástupců IT a odborníků na soukromí jednomyslnou odpověď. V této oblasti stále probíhají diskuze. Skupina na jedné straně zahrnuje autory dokumentu „Big data a inovace, náprava záznamů: deidentifikace funguje“ z června 2014, kde se uvádí, že soukromí je dostatečně podporované a média by měla přestat přehánět.

Její autoři Daniel Castro a Ann Cavoukian kritizují „zavádějící titulky a výroky v médiích“, které naznačují, že osoby s pouze průměrnými znalostmi a správnými technologickými nástroji dokážou odhalit totožnost osob, jejichž data se anonymizovala.

Chyba způsobující šíření tohoto mýtu je podle nich nikoli v samotných zjištěních prezentovaných výzkumníky v základní literatuře, ale „tendence komentátorů této literatury zveličovat publikovaná zjištění“.

Tvrdí, že správně udělaná anonymizace je prakticky neprůstřelná a snižuje riziko identifikace osob na méně než 1 %, což je méně než riziko narušení soukromí při dolování soukromých informací z vynášeného odpadu, který může obsahovat citlivé osobní informace.

Také argumentují, že neopodstatněný strach ze ztráty anonymity může podkopat „pokrok v oblasti analýz dat, které otevírají možnosti použití anonymizovaných datových souborů způsoby, jež nikdy dříve nebyly možné – třeba pro vytváření značných sociálních a ekonomických přínosů“.

Uznávají však, že aby byl proces anonymizace účinný, nesmí je uskutečňovat povrchním způsobem. A to je podle Pam Dixonové, výkonné ředitelky světového fóra pro soukromí (World Privacy Forum), skutečný problém. Ona a další tvrdí, že mimo kontrolované prostředí akademického výzkumu anonymita a soukromí v podstatě přestaly existovat.

Nedostatky soukromí

Dixonová neoponuje tvrzením o dosažitelné účinnosti ze zmíněného dokumentu, ale upozorňuje, že v reálném světě nedochází k důsledné anonymizaci všech množin dat.

„Ve skutečnosti to lidé nebudou dělat důsledně,“ tvrdí Dixonová a dodává. „Chcete-li získat skutečnou anonymitu při zpracování big dat, musíte použít mimořádně širokou úroveň agregace.“

Pokud se podle ní bavíme jen o údajích shromážděných pro celostátní či lokální trendy, potom lze anonymizace dosáhnout, protože nejde o samotné jednotlivce. Jestliže se však mluví o počtu osob s chřipkou v Praze a jsou k dispozici všechna poštovní směrovací čísla, je to už něco jiného.

Joseph Lorenzo Hall, hlavní technolog Centra pro demokracii a technologie (CDT, Center for Democracy & Technology), souhlasí, že ačkoli důsledná anonymizace je demonstrativně účinná, ve světě sběru dat tento ideální stav nevzniká. Jednou z příčin podle něj je, že skutečně neprůstřelná anonymizace snižuje užitečnost údajů.

„Podstatnou vlastností těchto souborů dat, které umožňují opětovnou identifikaci, je, že záznamy chování téhož jedince jsou vzájemně propojené. To je velká část přínosu uchovávání těchto záznamů,“ uvádí Hall.

Velkým problémem je podle něj zveřejňování souborů dat, které byly špatně anonymizované, a také sdílení údajů, u nichž se předpokládá nepřítomnost osobních informací, ale ve skutečnosti obsahují nějaký druh trvalého identifikátoru, který lze triviálně přiřadit k odpovídajícím osobám.

Zatímco některé shromažďování dat skutečně směřuje k ekonomickému prospěchu či zdraví obyvatelstva, Hall poznamenává, že v mnoha případech tomu tak není. „Některé maloobchody používají sledování Wi-Fi, v rámci něhož se využívá MAC adresa vašeho přístroje (trvalý síťový identifikátor), aby vás ve svém obchodě pečlivěji sledovali. To je důvod, proč Apple začal tyto adresy ‚randomizovat‘.“

Paul O‘Neil, konzultant pro zabezpečení informací ve společnosti IDT911 Consulting, má téměř totožný názor. „Pokud se anonymizace udělá dobře, potom to skutečně může fungovat. To slovo ‚pokud‘ je však mnohem významnější podmínka, než si většina lidí uvědomuje.“

Co má být anonymní?

Raul Ortega, manažer společnosti Protegrity, upozorňuje také na to, jak nevyrovnaná je ochrana soukromých dat. „Zatímco se zabezpečení kreditních karet zlepšuje, v oblasti anonymizace hromady citlivých osobních údajů, které existují v každé firmě, se toho dělá jen velmi málo.“

Částí tohoto problému může být podle právních expertů určitý aspekt sémantiky, který vede k obecnému zmatku. „Musíme mít jasno v tom, co máme na mysli, když prohlašujeme data za anonymní,“ upozorňuje Kelsey Finchová, poradkyně fóra pro budoucnost soukromí (FPF, Future of Privacy Forum)...

Tento příspěvek vyšel v Computerworldu 7/2015.Oproti této on-line verzi je výrazně obsáhlejší a přináší další poznatky a tipy, které lze využít při praktické implementaci u vás ve firmě.

Časopis (starší čísla i předplatné těch nadcházejících) si můžete objednat na adrese našeho vydavatelství.

Našli jste v článku chybu?

Sdílet

Autor článku

Taylor Armerding

Témata:

Mohlo by vás zajímat

Anketa

Využíváte už ve firmě autonomní agenty postavené na bázi umělé inteligence?

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Vsadili jste na digitální transformaci? Čekají vás neustálé změny a úpravy

Třetí čtvrtletí letošního roku ryze českých investic

Canalys: Příprava na AI je v plném proudu, investice do cloudové infrastruktury vystřelily o 21 %

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Na co mají zaměstnanci nárok, pokud se starají o nemocné blízké?

Arrow Electronics v EMEA spouští Cloud Amplification Program

Raspberry Pi: jaké příslušenství zvolit pro začátek?

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Coffee break: Když Wi-Fi potřebuje překonávat i kovové zdi

Zachování anonymity? S big daty spíše zbožné přání

Sdílet

Autor článku

Taylor Armerding

Témata:

Mohlo by vás zajímat

Podcast: Kybernetická bezpečnost v Česku – dokážeme čelit novým hrozbám?

Co se dočtete v novém Computerworldu 11/2024?

Windows Recall: Kontroverzní funkce sledující obrazovku má další zpoždění!

Anketa

Využíváte už ve firmě autonomní agenty postavené na bázi umělé inteligence?

Kvíz týdne

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Z našich webů

Vsadili jste na digitální transformaci? Čekají vás neustálé změny a úpravy

Třetí čtvrtletí letošního roku ryze českých investic

Canalys: Příprava na AI je v plném proudu, investice do cloudové infrastruktury vystřelily o 21 %

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Na co mají zaměstnanci nárok, pokud se starají o nemocné blízké?

Arrow Electronics v EMEA spouští Cloud Amplification Program

Raspberry Pi: jaké příslušenství zvolit pro začátek?

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Coffee break: Když Wi-Fi potřebuje překonávat i kovové zdi

Dále u nás najdete

Oznámení o osvobozených příjmech: shrnutí povinností

Dřívější neplodnost dnes řeší miniinvazivní operace

Víte, jakou řečí mluví vložky Always? Otestujte, jak znáte reklamní slogany

Osvědčené způsoby, jak snížit vysoký krevní tlak

Opatrně s kofeinovým práškem, už jedna lžička je životu nebezpečná

Jihlava a Havlíčkův Brod mění daň z nemovitostí. Co další města?

Firmy mají řešit byznys, ne hledat účtenky, razí Fidoo

Souvisí zákaz Huawei i s nákupem stíhaček F-35?

Bezplatný Microsoft PC Manager vylepšen

Vyzkoušeli jsme test, který ukazuje, co jsme zdědili po předcích

Jak uplatní pracující důchodci u zaměstnavatele slevu na pojistném?

Vánoční slevy operátorů? Daleko za očekáváním

Podnikatelé s nižšími příjmy si za celý rok připlatí skoro o 13 tisíc víc

V aplikaci Záchranka je rozcestník péče pro nevyléčitelně nemocné

Šestka nad čtyřkou? Zastaralé. Čtyřka nad šestkou!

Edge zkouší nový trik na uživatele Chromu

Digitální transformace znamená neustálé změny a úpravy

Hackeři zneužili reklamy na Facebooku k šíření falešných správců hesel pro Chrome – pak ukradnou Facebook účet

Děti, které nemají praktika, mohou jít do nemocničních ordinací

ÚOOÚ šetří české vydavatele kvůli „pay or ok“