Konvoluční neuronové sítě hlubokého učení (DCNN) jsou známé vysokou úspěšností v rozpoznávání a klasifikaci objektů; objevily se tak úvahy o tom, zda nefunguje „zrak“ těchto sítí podobně jako lidský. Zaměřili se proto na tvar, siluetu, která je pro lidské vidění klíčová. Tým vedený doktorandem Nicholasem Bakerem odhalil, že zatímco u objektů ještě zanedbatelnou roli tvar hraje, u zvířat jej DCNN zcela ignorují.
Výsledky studie v pěti souvisejících experimentech navíc potvrdily, že metody rozpoznávání DCNN lze poměrně snadno zmást. Ukazují tak, že způsob vidění neuronových sítí je nejen odlišný od lidského, ale také přináší nové problémy, které bude potřeba vyřešit. Počítačové vidění a správné rozlišování objektů je pro budoucnost AI podstatnou dovedností, obzvláště kupříkladu u samořiditelných automobilů.
„Stroje založené na konvolučních neuronových sítích mají značná omezení, kterým potřebujeme porozumět,“ vysvětluje jeden z autorů studie, profesor kognitivní psychologie Philip Kellman, na webu univerzity. „Jen upozorňujeme: pozor, ne tak rychle.“
Naznačuje tím, že ačkoliv je určitá dávka optimismu a nadšení z umělé inteligence přirozená, je nutné očekávání brzdit přirozenou skepsí a vědeckým bádáním.
Pět experimentů, čtyři selhání
V prvním experimentu vystavili vědci VGG-19, jednu z nejúspěšnějších sítí hlubokého učení na světě, upraveným a barevným obrázkům zvířat a objektů. Jak byly upraveny? Na čajové konvici byl kupříkladu vyobrazen povrch golfového míčku; na velbloudovi se objevily zebří pruhy a na slonovi byly vykresleny červenobílé vzory z barevných ponožek.
VGG-19 se podařilo správně určit „nejpravděpodobnější objekt“ (procentuálně nejvyššího na seznamu jeho tipů“ v pouhých 5 případech ze 40 vybraných, což je skutečně velmi nízké číslo.
Síť hlubokého učení připsala možnosti, že by slon byl slonem, dokonce 0 %. Že by konvice mohla skutečně být konvicí přisoudil rovněž pouhých 0,41 % pravděpodobnosti. Zato však tušil, že by mohla být golfovým míčkem, jehož vzor na ni byl přenesen; to podle vědců naznačuje, že je pro DCNN důležitější textura objektu a nikoliv jeho tvar.
„Je pochopitelné, že se golfový míček nachází ve výsledcích nahoře. Ale to, že je čajová konvice až úplně dole v seznamu, je alarmující,“ dodává Kellman s tím, že VGG-19 zkrátka prakticky nebyla schopna zaznamenat tvar objektu.
Pro lidi je tvar a silueta objektu klíčová; pro počítačové vidění DCNN to tak ovšem viditelně není.
Lidé vnímají celek, stroje fragmenty
Ve druhém pokusu psychologové ukázali VGG-19 a druhé neuronové síti, AlexNet, obrázky skleněných figurín. Obě sítě byly vytrénovány pomocí databáze ImageNet. Obě sítě v pokusu propadly, na první pokus se nestrefily ani jedinkrát.
Ve třetím experimentu obdržely sítě 40 kreseb s černým obrysem; obrázky samotné byly bílé. I zde sítě zcela propadly a nedařilo se jim objekty správně identifikovat, případně byla procentuální míra jistoty dosti nízká.
Čtvrtý, asi nejzajímavější pokus, zahrnoval obrázky vyvedené v plné černé barvě na bílém pozadí; opětovně šlo o vzorek 40 kusů. Když musely sítě místo tvarů poznávat siluety, vedly si lépe: správně rozpoznaly 50 % objektů. VGG-19 například správně označila počítadlo (abakus), a to s jistotou 99,99 %.
U černých obrázků si tak sítě vedly o poznání lépe. Proč? Podle Kellmana je to vlivem absence „interních kontur“ – krajů a obrysů, které DCNN očividně matou.
V pátem experimentu vědci přeházeli prvky obrázků k nepoznání, jejich části však v obrázku zachovali. Výzkumníci záměrně vybrali 6 obrázků, které předtím VGG-19 rozpoznala správně v nezměněné podobě. Zatímco lidé měli s různě deformovanými obrázky značný problém, síť správně rozpoznala 5 ze 6 objektů a u 6. byla blízko.
Výsledek je podle vědců takový, že zatímco lidé vnímají obraz jako celek, počítačové vidění neurálních sítí se soustředí na jednotlivé fragmenty; tvar je vedlejší.
Strojů využívající hluboké učení k rozvoji počítačového vidění a rozpoznávání obrazu je celá řada, podle Kellmana a jeho týmu jsou však výsledky víceméně všeobecné, a lze je aplikovat na většinu strojů.