Nový web umožňuje uživatelů internetu ověřit, zda jejich jména a hesla nebyla prozrazena v několika největších krádežích dat v posledních letech. Web, který je provozován na adrese haveibeenpwned.com, vytvořil australský softwarový architekt Troy Hunt. Lze na něm zadat a ověřit emailovou adresu proti databázím uživatelům, které unikly letos z Adobe Systems, Yahoo v roce 2012, Sony a Stratfor v roce 2011 a Gawkeru v roce 2010.
Krádež v Adobe byla odhalena v říjnu a je považována za největší známý únik uživatelských informací v historii internetu. Výsledkem incidentu byl únik přes 153 milionů záznamů, včetně e-mailových adres a nedostatečně zašifrovaných hesel uživatelů. Řada bezpečnostních oborníků vytvořila weby s podobnými funkcemi, které vyhledávají v databázi pocházející z firmy Adobe, ale Hunt se rozhodl podchytit v jedné databázi všechny podstatné krádeže z poslední doby.
Je to důležité i proto, že velké množství uživatelů zadává tytéž emailové adresy a hesla na více webech. Například v roce 2012 Hunt porovnal záznamy uniklé ze Sony a z Yahoo a zjistil, že 59 procent z uživatelů majících účte u obou společností mělo i shodná hesla.
Web haveibeenpwned.com ovšem ukládá pouze emailové adresy. Jak prozradil Hunt na svém blogu: „Hesla nejsou pro funkci databáze potřebná a upřímně, nechci ani za ně nést zodpovědnost. Celý web má sloužit pro upozornění na problém krádeží.“
Importování dat do databáze webu nebylo nijak jednoduché, samotná databáze Adobe obsahuje 153 milionů záznamů, Statfor téměř 860 000, Gawker přes 530 000, Yahoo 453 000 a Sony 37 000. Hunt ostatně věnoval část svého blogu velmi zajímavému popisu problematiky vytváření takto velké databáze. Použil pro ni cloud Microsoft Azure, původní implementace byla postavena na virtuálním stroji s Microsoft SQL serverem, který pro statistickou analýzu potřeboval 56 GB RAM.
Současná verze využívá NoSQL databázi Windows Azure Table Storage, kde se účtuje pouze spotřebované úložiště a počet databázových transakcí, nikoli – jak je na cloudech zvykem – podle spotřebované paměti a práce CPU. Cenová efektivita řešení je důležitá nejen pro současný provoz, ale i pro to, že autor hodlá ve sběru pokračovat nadále a je si jist, že díky budoucím únikům dat jeho databáze ještě výrazně poroste.