CAPTCHA žije a navíc pomůže při digitalizaci knih

Ochrana webových formulářů CAPTCHA byla v posledních letech prolomena prakticky u všech velkých serverů, přesto však nad ní ještě nemusíme lámat hůl...


Luis von Ahn, profesor počítačových věd z univerzity Carnegie Mellon, popisuje projekt reCaptcha, který vychází z převodu knih do digitalizované podoby; dnes to provádí například Google v rámci Google Books Project nebo Internet Archive. Přitom se používá běžný OCR software. Podle Ahna reCaptcha vychází z toho, že tento proces není bezchybný, některá slova z knih software není schopen rozpoznat. No a právě tato slova se dají automaticky uložit jako obrázky a použít jako ochrana webových formulářů (samozřejmě to vyžaduje, aby program hlásil nečitelnost, nikoliv přečetl text chybně).

Přitom je jednak zarušeno, že slovo alespoň nějaké programy pro rozpoznávání textu nepřečtou, lidé však ano - konec konců jde o text z knihy pro lidi. To je výhoda, protože některé dnes používané ochrany CAPTCHA mají ten problém, že je obtížně zvládnou i uživatelé.

Navíc tímto způsobem lze i automaticky opravovat chyby vzniklé při převodu – proces nevyžaduje speciálního editora, ale použije se řešení navržené uživateli. Tady samozřejmě vyvstává problém: systém musí nějak poznat, že uživatel text-obrázek rozpoznal správně; mohlo přece zrovna jít o přístup robota, který nezvládl OCR a doplnil řetězec náhodně.

Co s tím? Stačí, aby bylo známo několik málo správných řešení na stejné úrovni obtížnosti. Systém pak zadá uživateli dvě slova v obrázku, pokud první (známé) rozpozná správně, automaticky je za správné pokládáno i řešení druhého slova a použito v digitalizačním systému.

Článek na americkém Computerworldu (zde) popisuje i další metody, jak lze ochranu CAPTCHA zdokonalit, třeba na základě rozpoznávání obrázků; uživatel v tomto případě do formuláře nepřepisuje text z obrázku, ale například nějakou společnou vlastnost zobrazených předmětů.


Zdroj: Computerworld.com

Poznámka: Podle Wikipedie se reCaptcha používá také například k digitalizaci starších čísel New York Times.


 Komentáře