Nedostatky hlubokého učení: Neuronové sítě mají problémy s tvarem objektů

9. 1. 2019

Kognitivní psychologové z Kalifornské univerzity v Los Angeles (UCLA) přišli s fascinujícím experimentem, který názorně demonstroval problémy, kterými trpí hlubokého učení.

Konvoluční neuronové sítě hlubokého učení (DCNN) jsou známé vysokou úspěšností v rozpoznávání a klasifikaci objektů; objevily se tak úvahy o tom, zda nefunguje „zrak“ těchto sítí podobně jako lidský. Zaměřili se proto na tvar, siluetu, která je pro lidské vidění klíčová. Tým vedený doktorandem Nicholasem Bakerem odhalil, že zatímco u objektů ještě zanedbatelnou roli tvar hraje, u zvířat jej DCNN zcela ignorují.

Výsledky studie v pěti souvisejících experimentech navíc potvrdily, že metody rozpoznávání DCNN lze poměrně snadno zmást. Ukazují tak, že způsob vidění neuronových sítí je nejen odlišný od lidského, ale také přináší nové problémy, které bude potřeba vyřešit. Počítačové vidění a správné rozlišování objektů je pro budoucnost AI podstatnou dovedností, obzvláště kupříkladu u samořiditelných automobilů.

„Stroje založené na konvolučních neuronových sítích mají značná omezení, kterým potřebujeme porozumět,“ vysvětluje jeden z autorů studie, profesor kognitivní psychologie Philip Kellman, na webu univerzity. „Jen upozorňujeme: pozor, ne tak rychle.“

Naznačuje tím, že ačkoliv je určitá dávka optimismu a nadšení z umělé inteligence přirozená, je nutné očekávání brzdit přirozenou skepsí a vědeckým bádáním.

Pět experimentů, čtyři selhání

V prvním experimentu vystavili vědci VGG-19, jednu z nejúspěšnějších sítí hlubokého učení na světě, upraveným a barevným obrázkům zvířat a objektů. Jak byly upraveny? Na čajové konvici byl kupříkladu vyobrazen povrch golfového míčku; na velbloudovi se objevily zebří pruhy a na slonovi byly vykresleny červenobílé vzory z barevných ponožek.

VGG-19 se podařilo správně určit „nejpravděpodobnější objekt“ (procentuálně nejvyššího na seznamu jeho tipů“ v pouhých 5 případech ze 40 vybraných, což je skutečně velmi nízké číslo.

Síť hlubokého učení připsala možnosti, že by slon byl slonem, dokonce 0 %. Že by konvice mohla skutečně být konvicí přisoudil rovněž pouhých 0,41 % pravděpodobnosti. Zato však tušil, že by mohla být golfovým míčkem, jehož vzor na ni byl přenesen; to podle vědců naznačuje, že je pro DCNN důležitější textura objektu a nikoliv jeho tvar.

„Je pochopitelné, že se golfový míček nachází ve výsledcích nahoře. Ale to, že je čajová konvice až úplně dole v seznamu, je alarmující,“ dodává Kellman s tím, že VGG-19 zkrátka prakticky nebyla schopna zaznamenat tvar objektu.

Pro lidi je tvar a silueta objektu klíčová; pro počítačové vidění DCNN to tak ovšem viditelně není.

Lidé vnímají celek, stroje fragmenty

Ve druhém pokusu psychologové ukázali VGG-19 a druhé neuronové síti, AlexNet, obrázky skleněných figurín. Obě sítě byly vytrénovány pomocí databáze ImageNet. Obě sítě v pokusu propadly, na první pokus se nestrefily ani jedinkrát.

Ve třetím experimentu obdržely sítě 40 kreseb s černým obrysem; obrázky samotné byly bílé. I zde sítě zcela propadly a nedařilo se jim objekty správně identifikovat, případně byla procentuální míra jistoty dosti nízká.

Čtvrtý, asi nejzajímavější pokus, zahrnoval obrázky vyvedené v plné černé barvě na bílém pozadí; opětovně šlo o vzorek 40 kusů. Když musely sítě místo tvarů poznávat siluety, vedly si lépe: správně rozpoznaly 50 % objektů. VGG-19 například správně označila počítadlo (abakus), a to s jistotou 99,99 %.

U černých obrázků si tak sítě vedly o poznání lépe. Proč? Podle Kellmana je to vlivem absence „interních kontur“ – krajů a obrysů, které DCNN očividně matou.

V pátem experimentu vědci přeházeli prvky obrázků k nepoznání, jejich části však v obrázku zachovali. Výzkumníci záměrně vybrali 6 obrázků, které předtím VGG-19 rozpoznala správně v nezměněné podobě. Zatímco lidé měli s různě deformovanými obrázky značný problém, síť správně rozpoznala 5 ze 6 objektů a u 6. byla blízko.

Výsledek je podle vědců takový, že zatímco lidé vnímají obraz jako celek, počítačové vidění neurálních sítí se soustředí na jednotlivé fragmenty; tvar je vedlejší.

Strojů využívající hluboké učení k rozvoji počítačového vidění a rozpoznávání obrazu je celá řada, podle Kellmana a jeho týmu jsou však výsledky víceméně všeobecné, a lze je aplikovat na většinu strojů.

Našli jste v článku chybu?

Sdílet

Pět experimentů, čtyři selhání

Lidé vnímají celek, stroje fragmenty

Autor článku

David Slouka

Témata:

Mohlo by vás zajímat

Anketa

Využíváte už některé z inovativních metod šifrování?

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Spěcháte na návratnost investic AI? Je možné, že to bude drahé

Vyšlo nové číslo CFOworldu 4/2024

Vivolink představí svoje ProAV a systémová řešení na veletrhu ISE 2025 v Barceloně

Nedostatečné zabezpečení koncových zařízení ohrožuje firmy

Co se v roce 2025 mění pro firmy, zaměstnance a daňové poplatníky?

Arrow Electronics je AWS Rising Star Distributor Partner roku v regionu EMEA

Jak zabránit zneužívání umělé inteligence – je AI Akt řešením?

Novela zákoníku práce pohledem firem? Rychlejší výpovědi a nedořešení dohodáři

AT Computers je IDG Distributorem roku společnosti Lenovo

Nedostatky hlubokého učení: Neuronové sítě mají problémy s tvarem objektů

Sdílet

Pět experimentů, čtyři selhání

Lidé vnímají celek, stroje fragmenty

Autor článku

David Slouka

Témata:

Mohlo by vás zajímat

Kybernetická bezpečnost: Podcast o tajemstvích bezpečnostních operačních center s Pavlem Hrabcem

Co je nejoblíbenější způsob použití umělé inteligence v práci?

Europol zatnul tipec hackerům, chystali hromadný útok během Vánoc

Předpověď kybernetických hrozeb pro rok 2025: Připravte se na větší a odvážnější útoky

Anketa

Využíváte už některé z inovativních metod šifrování?

Kvíz týdne

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Z našich webů

Spěcháte na návratnost investic AI? Je možné, že to bude drahé

Vyšlo nové číslo CFOworldu 4/2024

Vivolink představí svoje ProAV a systémová řešení na veletrhu ISE 2025 v Barceloně

Nedostatečné zabezpečení koncových zařízení ohrožuje firmy

Co se v roce 2025 mění pro firmy, zaměstnance a daňové poplatníky?

Arrow Electronics je AWS Rising Star Distributor Partner roku v regionu EMEA

Jak zabránit zneužívání umělé inteligence – je AI Akt řešením?

Novela zákoníku práce pohledem firem? Rychlejší výpovědi a nedořešení dohodáři

AT Computers je IDG Distributorem roku společnosti Lenovo

Dále u nás najdete

Neplaťte si IT kurzy sami, využijte dotace od EU

OpenAI zavádí do ChatGPT „Santa Mode“. Co říká na Ježíška?

Gynekologie zavedla poplatky, pacientky si to nenechaly líbit

Nestrkejte mrtvolu do auta, když kolem jede Google Street View

Outlook, jak ho známe, končí. Co ho nahradí a kdy?

Zkuste vánoční cukroví bez cukru. 5 vyladěných receptů

640 kB paměti by mělo stačit každému: skutečně?

Nejistota pro podnikatele, zásadní změny DPH ještě nejsou schváleny

Minimální mzda v roce 2025 vzroste, zaručená mzda končí

Vyšetření krvácení do stolice jako prevence rakoviny nestačí

Reklama přímo v systému televize: Co kdyby nešla vypnout?

Češi mají aplikaci, která propojuje lidi podle společných koníčků

Beey dokáže rozpoznat, který poslanec mluví

Při balení dárků nemusíte vůbec používat izolepu, dokonce ani papír

Rekord Lindy Bartošové. Slast je na Wave nejúspěšnější

Díky aplikaci placené pojišťovnou se povedlo objevit devět melanomů

Udělejte si french toast ze zbylé vánočky

Pár triků, díky kterým dokážete letos o Vánocích nepřibrat

GenAI nástroje pro tvorbu 3D světů přicházejí

Nové HDMI 2.2 už je za rohem