Nedostatky hlubokého učení: Neuronové sítě mají problémy s tvarem objektů

9. 1. 2019

Kognitivní psychologové z Kalifornské univerzity v Los Angeles (UCLA) přišli s fascinujícím experimentem, který názorně demonstroval problémy, kterými trpí hlubokého učení.

Konvoluční neuronové sítě hlubokého učení (DCNN) jsou známé vysokou úspěšností v rozpoznávání a klasifikaci objektů; objevily se tak úvahy o tom, zda nefunguje „zrak“ těchto sítí podobně jako lidský. Zaměřili se proto na tvar, siluetu, která je pro lidské vidění klíčová. Tým vedený doktorandem Nicholasem Bakerem odhalil, že zatímco u objektů ještě zanedbatelnou roli tvar hraje, u zvířat jej DCNN zcela ignorují.

Výsledky studie v pěti souvisejících experimentech navíc potvrdily, že metody rozpoznávání DCNN lze poměrně snadno zmást. Ukazují tak, že způsob vidění neuronových sítí je nejen odlišný od lidského, ale také přináší nové problémy, které bude potřeba vyřešit. Počítačové vidění a správné rozlišování objektů je pro budoucnost AI podstatnou dovedností, obzvláště kupříkladu u samořiditelných automobilů.

„Stroje založené na konvolučních neuronových sítích mají značná omezení, kterým potřebujeme porozumět,“ vysvětluje jeden z autorů studie, profesor kognitivní psychologie Philip Kellman, na webu univerzity. „Jen upozorňujeme: pozor, ne tak rychle.“

Naznačuje tím, že ačkoliv je určitá dávka optimismu a nadšení z umělé inteligence přirozená, je nutné očekávání brzdit přirozenou skepsí a vědeckým bádáním.

Pět experimentů, čtyři selhání

V prvním experimentu vystavili vědci VGG-19, jednu z nejúspěšnějších sítí hlubokého učení na světě, upraveným a barevným obrázkům zvířat a objektů. Jak byly upraveny? Na čajové konvici byl kupříkladu vyobrazen povrch golfového míčku; na velbloudovi se objevily zebří pruhy a na slonovi byly vykresleny červenobílé vzory z barevných ponožek.

VGG-19 se podařilo správně určit „nejpravděpodobnější objekt“ (procentuálně nejvyššího na seznamu jeho tipů“ v pouhých 5 případech ze 40 vybraných, což je skutečně velmi nízké číslo.

Síť hlubokého učení připsala možnosti, že by slon byl slonem, dokonce 0 %. Že by konvice mohla skutečně být konvicí přisoudil rovněž pouhých 0,41 % pravděpodobnosti. Zato však tušil, že by mohla být golfovým míčkem, jehož vzor na ni byl přenesen; to podle vědců naznačuje, že je pro DCNN důležitější textura objektu a nikoliv jeho tvar.

„Je pochopitelné, že se golfový míček nachází ve výsledcích nahoře. Ale to, že je čajová konvice až úplně dole v seznamu, je alarmující,“ dodává Kellman s tím, že VGG-19 zkrátka prakticky nebyla schopna zaznamenat tvar objektu.

Pro lidi je tvar a silueta objektu klíčová; pro počítačové vidění DCNN to tak ovšem viditelně není.

Lidé vnímají celek, stroje fragmenty

Ve druhém pokusu psychologové ukázali VGG-19 a druhé neuronové síti, AlexNet, obrázky skleněných figurín. Obě sítě byly vytrénovány pomocí databáze ImageNet. Obě sítě v pokusu propadly, na první pokus se nestrefily ani jedinkrát.

Ve třetím experimentu obdržely sítě 40 kreseb s černým obrysem; obrázky samotné byly bílé. I zde sítě zcela propadly a nedařilo se jim objekty správně identifikovat, případně byla procentuální míra jistoty dosti nízká.

Čtvrtý, asi nejzajímavější pokus, zahrnoval obrázky vyvedené v plné černé barvě na bílém pozadí; opětovně šlo o vzorek 40 kusů. Když musely sítě místo tvarů poznávat siluety, vedly si lépe: správně rozpoznaly 50 % objektů. VGG-19 například správně označila počítadlo (abakus), a to s jistotou 99,99 %.

U černých obrázků si tak sítě vedly o poznání lépe. Proč? Podle Kellmana je to vlivem absence „interních kontur“ – krajů a obrysů, které DCNN očividně matou.

V pátem experimentu vědci přeházeli prvky obrázků k nepoznání, jejich části však v obrázku zachovali. Výzkumníci záměrně vybrali 6 obrázků, které předtím VGG-19 rozpoznala správně v nezměněné podobě. Zatímco lidé měli s různě deformovanými obrázky značný problém, síť správně rozpoznala 5 ze 6 objektů a u 6. byla blízko.

Výsledek je podle vědců takový, že zatímco lidé vnímají obraz jako celek, počítačové vidění neurálních sítí se soustředí na jednotlivé fragmenty; tvar je vedlejší.

Strojů využívající hluboké učení k rozvoji počítačového vidění a rozpoznávání obrazu je celá řada, podle Kellmana a jeho týmu jsou však výsledky víceméně všeobecné, a lze je aplikovat na většinu strojů.

Našli jste v článku chybu?

Sdílet

Pět experimentů, čtyři selhání

Lidé vnímají celek, stroje fragmenty

Autor článku

David Slouka

Témata:

Mohlo by vás zajímat

Anketa

Využíváte už ve firmě autonomní agenty postavené na bázi umělé inteligence?

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Vsadili jste na digitální transformaci? Čekají vás neustálé změny a úpravy

Třetí čtvrtletí letošního roku ryze českých investic

Coffee break: Když Wi-Fi potřebuje překonávat i kovové zdi

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Na co mají zaměstnanci nárok, pokud se starají o nemocné blízké?

HPE ocenilo partnery roku 2024, nejlepším distributorem je DNS

Raspberry Pi: jaké příslušenství zvolit pro začátek?

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

IDC: Dodávky průmyslových tiskáren stagnují, výkonnost segmentů se ale liší

Nedostatky hlubokého učení: Neuronové sítě mají problémy s tvarem objektů

Sdílet

Pět experimentů, čtyři selhání

Lidé vnímají celek, stroje fragmenty

Autor článku

David Slouka

Témata:

Mohlo by vás zajímat

Windows Recall: Kontroverzní funkce sledující obrazovku má další zpoždění!

Podcast: Kybernetická bezpečnost v Česku – dokážeme čelit novým hrozbám?

Co se dočtete v novém Computerworldu 11/2024?

Anketa

Využíváte už ve firmě autonomní agenty postavené na bázi umělé inteligence?

Kvíz týdne

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Z našich webů

Vsadili jste na digitální transformaci? Čekají vás neustálé změny a úpravy

Třetí čtvrtletí letošního roku ryze českých investic

Coffee break: Když Wi-Fi potřebuje překonávat i kovové zdi

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Na co mají zaměstnanci nárok, pokud se starají o nemocné blízké?

HPE ocenilo partnery roku 2024, nejlepším distributorem je DNS

Raspberry Pi: jaké příslušenství zvolit pro začátek?

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

IDC: Dodávky průmyslových tiskáren stagnují, výkonnost segmentů se ale liší

Dále u nás najdete

Firmy mají řešit byznys, ne hledat účtenky, razí Fidoo

Opatrně s kofeinovým práškem, už jedna lžička je životu nebezpečná

Policie zatkla provozovatele tržiště pro DDoS útoky

Od dynamitu k Viagře. Výbušný nitroglycerin uvolňuje cévy

Prémiové AI funkce: Stojí za příplatek?

Dřívější neplodnost dnes řeší miniinvazivní operace

Je možné vyhrát nad Temu? Prodejci her se to podařilo

Firmy s vazbami na Čínu jsou problém. Zákaz je i o geopolitice

Osvědčené způsoby, jak snížit vysoký krevní tlak

Celý příští týden se můžete nechat anonymně otestovat na HIV

„Nemáme na tom zájem“. Opozice brzdí TV poplatky

Sledují vás přes HDMI? Útok využívá elektromagnetické záření

Vánoční slevy operátorů? Daleko za očekáváním

Digitální transformace znamená neustálé změny a úpravy

Nitroděložní tělíska jsou spolehlivá a hodí se i pro mladé ženy

Chrome OS se zřejmě promění v Android

Lumbální punkce sice vypadá děsivě, ale nebolí

Oznámení o osvobozených příjmech: shrnutí povinností

Nejlepší dobou, kdy začít péct perníčky, je měsíc před Vánoci

Balík od DPD si nově můžete vyzvednout i na České poště