Je umělá inteligence jen opakujícím papouškem?

14. 11. 2023

Sdílet

 Autor: Depositphotos.com
V debatách ohledně umělé inteligence hojně zaznívá argument, že současné velké jazykové modely neoriginálně skládají naučené kousky textů na základě pravděpodobností. Ale je tomu tak?

Názor z perexu poněkud opomíjí fakt, že současná AI je z větší části založená na principech, které se uplatňují také v našich mozcích – takže pokud o ní uvažujeme jako o stochastickém papouškovi, platilo by víceméně totéž i o našem vlastním uvažování.

Využíváte už ve firmě autonomní agenty postavené na bázi umělé inteligence?

V čem je tedy současná umělá inteligence (AI) odlišná od našich a zvířecích mozků? Hlavní rozdíl spočívá v tom, že AI „běží“ na tradiční výpočetní infrastruktuře sestávající z křemíkových čipů a počítačových programů, kdežto přírodní nervové soustavy jsou tvořeny mnoha druhy neuronů uspořádanými do komplexní sítě, jejíž činnost ovlivňují různé řídicí a regulační subsystémy (například více než stovka neurotransmiterů atd.). Nicméně samotná aplikační vrstva, tedy umělá neuronová síť (artificial neural network), už poměrně věrně napodobuje jak fungování jednotlivých biologických neuronů, tak do jisté míry i strukturu a funkcionalitu mozku.

Není proto překvapení, že historicky obor AI, tedy strojové učení a výzkum umělé inteligence, vycházel ze stejných poznatků jako neurovědy, mezi něž počítáme kognitivní vědu a neurobiologii. A snažil se také nalézat odpovědi na obdobné otázky: jak pracuje lidská paměť, jak vznikají schopnosti abstrakce nebo generalizace či samotné vědomí?

Teorie stochastického papouška

S pojmem stochastického papouška přišla v roce 2021 Emily Benderová se svými spolupracovnicemi v článku Nebezpeční stochastičtí papoušci: Jsou jazykové modely příliš velké? V něm se ve zkratce tvrdí, že jazykové modely nerozumějí jazyku, protože si nejsou schopné vytvořit model reálného světa jako lidé. Autorky se domnívají, že lidé disponují jedinečným chápáním jazyka, které je zprostředkováno naší jazykovou kompetencí a predispozicí k interpretaci lidské komunikace. 

Podle nich tedy velké jazykové modely (large language models) jsou systémy, které chaoticky, jen na základě pravděpodobnosti, kombinují úryvky tréninkových textů, ovšem bez jejich skutečného pochopení – pro takový model pak razí označení „stochastický papoušek“. Stochastičtí papoušci pouze předvádějí řečové výstupy, které lidé chybně zaměňují za smysluplný jazykový projev, a jsou díky této iluzi „porozumění“ také schopní ošidit různé testy včetně proslulého Turingova.

Vše však nasvědčuje tomu, že se Benderová mýlí. Současná generativní AI už produkuje výstupy, které jsou k nerozeznání od těch lidských, ať už jde o texty, obrazy nebo hudbu. A umělé neuronové sítě obstojí v souboji s lidmi i v nejrůznějších benchmarkových testech měřících rozumové schopnosti nebo v testech vyhodnocujících způsobilost lidí pro výkon povolání. Umožňují jí to emergentní schopnosti jako schopnost vytvořit si vlastní reprezentaci světa, logické a analogické uvažování, abstraktní myšlení a zobecňování, jež jsou výsledkem škálování samotných sítí i souborů tréninkových dat.

bitcoin_skoleni

Jak poznáte, že už s tím máte seknout Přečtěte si také:

Jak poznáte, že už s tím máte seknout

Teorie stochastického papouška tedy sice správně upozorňuje na fakt, že ANN nedělají o moc více než „násobení matic“, ale současně opomíjí skutečnost, že mozek a jeho činnost lze také s přiměřenou mírou zjednodušení matematicky a statisticky modelovat – počínaje nejjednodušší přirozenou jednotkou neuronem a konče komplexními strukturami zodpovědnými za senzorické vjemy nebo paměť.

Podobnosti mozků a umělých sítí

Jaké jsou tedy podobnosti mezi přirozenými a umělými neuronovými sítěmi? Začněme na úrovni jednotlivých neuronů. Jak už samotná etymologie naznačuje, neuron umělých neuronových sítí byl přímo inspirován neuronem biologickým. Dnešní umělé neuronové sítě jsou také tvořeny neurony – matematickými modely zpracovávajícími vstupní signály, v nichž je síla synapsí vyjádřena parametry (váhami) – v matematickém vyjádření v nich dochází k transformaci vstupních vektorů na požadované vektory výstupní. V procesu jejich učení se pak postupuje tak, že se ze základního nastavení upravují vstupní váhy těchto neuronů.

První matematické modely imitující synapse a šíření elektrického signálu v biologických neuronech vznikly už ve čtyřicátých letech minulého století, mezi nimi McCulloch-Pittsův neuron z roku 1943, který popisoval excitační a inhibiční buzení v biologickém neuronu. V biologickém neuronu jsou to dendrity a axony, které přijímají a šíří vzruchy v centrální nebo periferní nervové soustavě, a toto základní schéma dodržují i umělé neuronové sítě, byť je v nich fungování neuronů zjednodušené. 

Neurobiologií bylo inspirováno také Hebbovo pravidlo formulované v roce 1949, které umožnilo neuron učit změnou vah jeho vstupů, analogicky tomu, jak se učí živé organismy. V roce 1957 představil Rosenblatt umělou neuronovou síť perceptron, jejíž architektura si brala za vzor lidskou sítnici a byla schopná rozpoznávat znaky a následně signál dále přenášet. 

I další pokroky v oblasti AI byly inspirovány poznatky neurověd o struktuře a činnosti zvířecích či lidských mozků, a neurovědy rovněž umožňují pokroky v AI validovat. Při modelování biologické struktury či kognitivních procesů totiž není vždy nutné jít do naprostých detailů, abychom funkčnost mozku v umělých sítích napodobili, a leckdy to kvůli odlišnosti křemíkových technologií od biologických tkání ani není možné.

Hluboké a zpětnovazební učení

Kromě jednoduchých sítí byl nejvýznamnějším posunem rozvoj metod hlubokého (deep) a zpětnovazebného učení (reinforcement learning) s dohledem i algoritmus zpětného šíření (backpropagation), které umožnily učení v sítích složených z několika vrstev, obdobně jako v mozku.

Konec pohádky. Nejvyšší platy už nerostou. Nejvíc si vydělá IT ředitel v Praze Přečtěte si také:

Konec pohádky. Nejvyšší platy už nerostou. Nejvíc si vydělá IT ředitel v Praze

Na rozdíl od klasických počítačových programů založených na sériových logických operacích se symboly mozek zpracovává vstupní informace paralelně a stochasticky, což podnítilo badatele k formulaci myšlenky distribuované vektorové reprezentace slov i vět a vývoji konvolučních neurálních sítí (convolutional neural networks), které využívají postupy objevené při výzkumu primární zrakové mozkové kůry savců (oblast V1), jež má na starosti filtraci a zpracování zrakových vjemů. Tyto části mozků tedy typicky transformují vizuální informace ve složitější funkce, invariantní vůči transformacím typu otočení nebo změny osvětlení a měřítka, a umožňují tak přesné rozpoznávání objektů. Dalším milníkem byl již zmiňovaný objev zpětnovazebného učení, vycházejícího z výzkumů podmíněných reflexů a učení u zvířat.

Paměť a pozornost

Poznatky neurověd vedly dále k objevení algoritmů, které napodobují paměťové mechanismy, například epizodickou paměť a rychlé (one-shot) ukládání zkušeností, při němž hraje velkou úlohu součást velkého mozku hipokampus. Jednou z klíčových složek lidské inteligence je také pracovní paměť, jež pomáhá mozku ukládat informace a manipulovat s nimi. 

Kognitivní vědy přišly s poznatkem, že při aktivaci pracovní paměti má mimořádnou roli prefrontální kůra a s ní spojené oblasti, což vedlo k vývoji rekurentních neuronových sítí (recurrent neural networks) a jejich podmnožiny s dlouhou krátkodobou pamětí (long-short-term memory), které mají potenciál udržovat informace po mnoho tisíc tréninkových cyklů, a proto jsou klíčové například pro porozumění významu textů v jazykových modelech.

Biologický mozek je strukturovaný a modulární a současné umělé neuronové sítě tento poznatek zohledňují ve funkci zvané pozornost (attention), která zajišťuje, že se pozornost při zpracování vstupů přesouvá mezi jednotlivými objekty a zaměřuje se na ty, jež jsou v daném okamžiku relevantní.

Jak spolehlivé jsou harddisky ve skutečnosti? Přečtěte si také:

Jak spolehlivé jsou harddisky ve skutečnosti?

Selektivní pozornost, kdy sítě ignorují nepodstatné informace, velice zpřesnila klasifikaci objektů v obrazu a rovněž vedla ke snížení výpočetní náročnosti těchto úloh oproti předchozím metodám využívajícím jen RNN (LSTM). Dalším případem nasazení této funkce je strojový překlad, který se jejím zavedením rapidně zlepšil a zefektivnil. Další vylepšení mechanismu pozornosti pak přinesly transformery (transformers), jež už přímo vydláždily cestu současným úspěšným aplikacím, jako je ChatGPT, postaveným na architektuře generative pre-trained transformer.

Právě aplikace jako ChatGPT 4 evidentně disponují schopnostmi, které je přibližují lidským. Benderová ve svých úvahách pravděpodobně podcenila možnost vzniku těchto emergentních schopností ve velkých jazykových modelech – jejich objevení bylo ostatně překvapivé i pro jejich tvůrce, kteří je předem plně neanticipovali. Proto v případě, že bychom přijali tezi o tom, že umělé neuronové sítě jsou jen stochastickými papoušky, museli bychom se zákonitě ptát, zda jimi nejsou i lidé, protože současná AI je svojí strukturou i funkcionalitou jednotlivým komponentám lidského mozku značně podobná.

Stoupenci teorie stochastického papouška často argumentují jednoduchostí artificiálních sítí. Na tento argument však lze snadno odpovědět analogií s létáním. Průkopníci létání měli předobrazy svých strojů v biologických organismech, jenže balony, vzducholodě, letadla nebo helikoptéry mají do jejich složitosti daleko a napodobují je jen částečně. A přesto tyto vynálezy fungují a mnohdy dosahují lepších výkonů než originály.

Je to díky tomu, že byly odhaleny základní zákony a principy jejich fungování, které spolu s inženýrskými dovednostmi umožnily jejich konstrukci. Podobně je tomu u umělých neuronových sítí, jež využívají prakticky totožné principy zpracování informací jako mozky, a proto se jim začínají přibližovat nebo je i překonávat.

Článek vyšel v magazínu Computerworld 11/23.