Testy typu captcha redukují objem spamu

Důmyslné počítačové testy mohou rozpoznat, zda s webem komunikuje člověk nebo stroj. Je téměř nemožné určit, kd...


Důmyslné počítačové testy mohou rozpoznat, zda s webem komunikuje člověk nebo
stroj.
Je téměř nemožné určit, kdy vás prostřednictvím internetu oslovují lidé a kdy
jsou to automatizovaní internetoví roboti (zkráceně nazývaní též boti nebo
neživotně boty). Boti přitom často nepozorovaně shromažďují e-mailové adresy (a
případně i další osobní informace) z webových stránek nebo z diskusních fór a
poté na ně rozesílají zprávy definované jejich provozovateli.
K oblíbené taktice botů patří zakládání tisíců e-mailových účtů na
freemailových serverech, ze kterých masově rozesílají nevyžádané e-maily.
Jedním ze způsobů, jak zabránit těmto programům v automatickém logování k
freemailům i k dalším službám, a tím i v šíření spamu je používání programů
typu captcha.
Název captcha vznikl zkrácením anglického výrazu completely automatic public
Turing test to tell computers and humans apart (plně automatizovaný veřejný
Turingův test k rozpoznání počítačů od lidí; pro informace o Turingově testu
viz např. Computerworld č. 15/2003) a skrývá se pod ním program, který dokáže
vytvářet testy různé obtížnosti, které člověk hravě vyřeší, avšak pro počítač
představují vážný problém. (Mimochodem: Výslovnost zkratky captcha má blízko k
fonetické podobě anglického slova capture, jež lze přeložit jako dopadnout či
chytit).

Funkce testů
Výše zmíněné testy obsahují například softwarem přesně deformovaná slova,
obrazce překryté jinými obrazci nebo audioklipy se zvuky v pozadí. Uživatel pak
musí rozpoznat, co na obrázku (nebo ve zvukové nahrávce) je, a správnou odpověď
vyplnit do připraveného boxu.
Pokud je takový program kupříkladu součástí procedury zakládání e-mailového
účtu, je pak poměrně jednoduché určit, zda o registraci žádá člověk, nebo
program.
"Zrakové ústrojí člověka a veškeré naše zkušenosti se čtením nám umožňují číst
taková vyobrazení textu, jaká vizuální systémy počítačů prostě přečíst
nedokážou," vysvětluje Henry Baird, vedoucí vědecký pracovník výzkumného
střediska Palo Alto Research Center (PARC) z Kalifornie.
Myšlenka využít programů typu captcha k zamezení automatickému logování
prostřednictvím registračních služeb a šíření spamu na internetu se poprvé
objevila v roce 1997. Skupina výzkumných pracovníků z někdejší Digital
Equipment Corporation se tehdy snažila přijít na způsob, jak se vypořádat s
boty, kteří se pokoušeli ovlivnit řazení některých webových stránek v
katalozích firemního vyhledávače AltaVista. Vědci z této společnosti vyvinuli a
patentovali test založený na metodě rozpoznávání znaků díky němu se během
přihlašování k vyhledávači podařilo vyřadit nežádoucí "digitální uživatele".
V září roku 2000 se na žádost společnosti Yahoo započalo s vývojem obdobných
programů rovněž na katedře počítačové vědy na Carnegie Mellon University v
Pittsburghu.
Také společnost Yahoo se podobně jako AltaVista potýkala s problémem těchto
nežádoucích programů, které se snažily pronikat do diskusních fór a nelegálně
propagovat různé výrobky, potají získávat osobní informace a rozesílat
uživatelům nevyžádané e-maily. "Chtěli jsme vytvořit program, který by dokázal
rozpoznat boty od lidí. Program měl sloužit jako jakási hlídka, avšak sám
nesměl být schopen projít testem, který zadává," vysvětluje Manuel Blum,
profesor počítačových věd na Carnegie Mellon University.
Výsledkem výzkumu byl Gimpy, program založený na principu captcha. Tento
bezpečnostní systém obsahoval sedm náhodně vybraných slov ze slovníku o
celkovém počtu 850 výrazů, které následně pomocí softwaru zdeformoval a překryl
změtí jiných znaků. Ke zvládnutí testu bylo nutné správně identifikovat alespoň
tři ze zdeformovaných slov.
Jednodušší jednoslovnou verzi systému Gimpy s názvem E-Z Gimpy používá nyní
vyhledávač Yahoo k tomu, aby během registrační procedury vyřadil z přístupu
stroje.

Vývoj jde dál
Také výzkumní pracovníci na univerzitě v Hongkongu v současné době pracují na
vývoji podobného programu. Ten jejich však pracuje s audioinformací hlas čtoucí
náhodná čísla a písmena překrývá změtí zvuků.
Výzkumné středisko PARC využívá metodu založenou na optickém rozpoznávání znaků
(Optical Character Recognition, OCR) k vytváření programů, které jsou naopak
schopny výstupy programů typu captcha dešifrovat. Výzkum vedl k tomu, že z
kvantitativního hlediska si nyní vědci dovedou představit, za jakých okolností
OCR selhává. Programy schopné překonat bezpečnostní systémy captcha mohou být
přínosem při vývoji počítačů, které budou mít podle vědců mnohem lepší
schopnost rozpoznávat znaky.
Programy captcha střediska PARC s názvem Baffle Text ("matoucí text") vycházejí
ze slov, která byla pokroucena a zdeformována do té míry, že je ani ta nejlepší
počítačová vizuální technologie není schopna dešifrovat, ačkoli pro člověka je
to snadné.
"Představte si slovo, které právě napadl žralok. Písmena budou různě okousaná a
zdeformovaná. Pokud systém přesně naprogramujete, písmena budou oproti
originálu zkreslena do značné míry. To, co z původního slova zbývá, však
člověku přesto stačí k tomu, aby jej okamžitě identifikoval," říká Baird.
Henry Baird navíc dodává, že ačkoli by programy typu captcha mohly být užitečné
při pokusech vypořádat se s nežádoucími boty i spamem, snaha o jejich překonání
může z dlouhodobého hlediska sehrát mnohem důležitější úlohu.
Jsou totiž zajímavou výzvou umělé inteligenci a komunitám zabývajícím se
vizuálními systémy počítačů. Výzkumné programy, které usilují o jejich
dešifrování, by mohly být v těchto oblastech obrovským přínosem.
Jak vysvětluje Jitendra Malik, specialista na počítačové vizuální systémy z
Kalifornské univerzity v Berkeley, jsou tyto bezpečnostní systémy vytvořeny
tak, aby překonaly i ty nejlepší počítačové vizuální technologie, které jsou v
současné době k dispozici. Proto jakýkoliv program, který by je dokázal
dešifrovat, přispěje k rozvoji těchto technologií.

Různé potíže
Vývoj programů captcha staví vědce před množství podobně složitých jevů, jaké
se vyskytují v reálném světě, avšak s poněkud větší možností ověření. "Zjistili
jsme například, s jakým druhem zvuků v pozadí má program při dešifrování
potíže, a s čím si naopak snadno poradí," vysvětluje Malik.
"Počítačové vizuální systémy se často pokoušejí identifikovat objekt na pozadí
změti znaků. Je to podobný problém, jako když se software snaží rozpoznat tvář
v davu anebo jeden určitý kus nábytku v místnosti přeplněné jiným nábytkem, a
to bez ohledu na osvětlení, kontrast a další vnější okolnosti," říká Malik.
Malik sám napsal programy, které překonaly obě verze systému Gimpy. To mu
pomohlo přijít na to, jak se vypořádat s rušivými elementy, které překrývají
vizuální obraz. Podle jeho slov se dá očekávat, že tento výzkum povede k
prudkému pokroku v oblasti počítačových vizuálních technologií.
Jak poznamenává Henry Baird, podobným záměrem je veden také výzkum střediska
PARC. "Z kvantitativního hlediska budeme přesně vědět, za jakých okolností
systém vidění počítačů selhává, a budeme pak schopni tyto poznatky využít k
vytváření dokonalejších vizuálních technologií," dodává.









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.