Půjčka na oplátku poražena - Počítačové modelování evolučních strategií

Na evoluční strategie se samozřejmě můžeme dívat z řady hledisek. V biologii je dnes například poměrně běžné ro...


Na evoluční strategie se samozřejmě můžeme dívat z řady hledisek. V biologii je
dnes například poměrně běžné rozdělovat druhy (či jednotlivce v rámci druhů)
podle jejich vztahu k produkci potomstva na skupiny R a K. Zhruba řečeno, R
strategie znamená usilování o co největší počet potomků (aniž se jedinec příliš
věnuje jejich výchově a starosti o jejich "kvalitu"), K strategie je pravým
opakem a sází na kvalitu na úkor kvantity.
Z jiného hlediska se evoluční strategie mohou dělit například podle míry
podstupovaného rizika. To má velký význam zejména ve vztahu k finančním trhům,
kdy různé investiční skupiny volí zásadně odlišné přístupy. A v "lidském" světě
můžeme zkusit rozdělit strategie i na "dobré" a "špatné", což bude také hlavní
náplní tohoto článku.

Genetické programování
Pojem evoluční strategie má smysl pouze v situaci, kdy dokážeme nějak
kvantifikovat úspěšnost jednotlivých možností a seřadit je. Právě zde se
logicky velmi dobře uplatní počítačové modely. Oblast evolučních strategií je
přímo stvořená pro testování prostředky genetického programování.
Genetické programování je dalším pojmem, který nás odkazuje do světa biologie.
Ve skutečnosti se ovšem jedná o výhradně vývojářskou techniku, která zavádí do
tvorby kódu některé principy vypůjčené z darwinovských teorií: podle relativní
úspěšnosti získá program jakousi poukázku na množství potomků. Finálně
zkoumáme, jaký kód nakonec převládne. Možnými doprovodnými technikami je
křížení jednotlivých kusů kódu (analogie sexuálního rozmnožování, kdy jsou děti
odlišné od každého z obou rodičů) a zavedení určitého stupně náhodných mutací,
které budou hnací silou samovolného vývoje.
Pokud podrobíme "soudu" genetického programování jednotlivé evoluční strategie,
zjistíme tak jejich relativní úspěšnost (za určitých situací). Ty nejlepší
strategie, zajišťující přežití svých nositelů, se pak označují jako ESS
(evolučně stabilní strategie evolution stable strategy). Vězňova hra
Asi nejznámějším případem počítačové simulace, která byla provedena za účelem
hledání evolučně stabilní strategie, je řešení tzv. Vězňovy hry (v angličtině
se nejčastěji označuje jako Prissoners dilemma). Úlohu objevili v roce 1950
Melvin Drescher a Merrill Flood, v obecnou známost se však dostala především po
vydání Dawkinsova bestselleru Sobecký gen. Problém spadá nejen do oblasti
teorie her či biologie, ale úzce se dotýká např. také filozofie či etiky.
Původním model úlohy počítal se dvěma odděleně drženými vězni-spolupachateli,
kteří mají nezávisle na sobě možnost udat svého kolegu a vymoci si tak zřejmě
určitou úlevu při vynášení rozsudku. V obecnější rovině se situace má
následujícím způsobem: Vcházíte v interakci s druhým objektem, k němuž se
můžete zachovat "kladně" nebo "záporně". Totéž samozřejmě platí pro jeho vztah
k vám.
V zásadě může dojít ke čtyřem kombinacím, jimž přiřadíme určitá bodová
ohodnocení. Nejvíce se nám vyplatí kombinace: já jsem zlý, on je dobrý (v praxi
to může odpovídat třeba stavu, kdy vám někdo podává ruku, a tudíž ránu rozhodně
nečeká a nechá se překvapit). Nejhůře naopak dopadneme, pokud se necháme
podvést v naší "dobré" podobě (zrcadlový případ předcházející možnosti). Obě
strany mírně vydělají při vzájemné spolupráci a mírně prodělají, pokud se
pokusí navzájem podvést.
Zdánlivě je všechno jasné a vyplatí se vám kdykoliv podvádět. Při bližším
pohledu je však situace složitější: Jestliže do systému umístíte "hodné"
strategie, ošklivě si odskáčou kontakt s těmi zlými, ovšem pokud narazí na
jinou hodnou strategii, připíší si obě strany body za vzájemnou spolupráci. Kdo
bude úspěšnější?
Nyní do systému přidáme ještě další faktor, a tím je paměť. Představme si, že
si pamatujeme další jedince a své chování k nim můžeme modifikovat dle minulých
interakcí (což konec konců odpovídá i běžnému životu). Jakou evoluční strategii
nyní zvolit?

Jak to dopadlo?
Richard Dawkins testoval systém, do nějž "nasypal" řadu přednastavených
strategií (které navrhli jeho kolegové seznámení s metodikou pokusu) a nechal
je hrát proti sobě. Čím více bodů, tím vícekrát byla strategie obsažena v
systému v dalším kole.

Jak zápas probíhal?
Nejprve vymizely ze systému strategie "absolutně dobré", které se za všech
okolností chovaly k protivníkovi přátelsky. Posléze se však překvapivě ukázalo,
že triumf "zlých" strategií je pouze dočasný a převládla tzv. půjčka na oplátku
("tit for tat"). Taková strategie se k neznámému protivníkovi zachová dobře,
při opakovaném setkání pak prostě opakuje chování svého soupeře z minulého
kola. Půjčka na oplátku se posléze stala konečným vítězem Dawkinsovy hry. "Zlé"
strategie jí totiž dokázaly ublížit/podvést pouze jednou (a následoval řetězec
vzájemných úderů), při setkání se sebou samou nebo s jinými "dobrými"
strategiemi pak půjčka na oplátku bodovala díky vzájemné spolupráci.
Závěr, že půjčka na oplátku je evolučně nejstabilnější strategie, pak panoval
až do chvíle, kdy byly v 90. letech na výkonnějších počítačích provedeny nové
simulace. V nich se ukázalo překvapení: Půjčka na oplátku prohrála v souboji se
strategiemi, které byly ještě "hodnější". Dnešní stav řešení úlohy je tedy
takový, že optimální evoluční strategie buď jednou odpouštějí (tj. po prvním
podrazu se ještě jednou chovají přátelsky), eventuálně dokonce odpouštějí
pravidelně/náhodně (tj. třeba "podraz" v dalším kole vracejí jen s 90%
pravděpodobností).
Vztah k reálnému světu
Výpovědní hodnota celého pokusu samozřejmě souvisí s několika omezujícími
předpoklady. V rámci experimentu neznají jednotlivé strategie například konec
hry a předpokládají, že vše poběží do nekonečna. V praxi (i pokud pomineme
fakt, že jsme všichni smrtelní) však často narazíte na "protivníky", s nimiž se
už s velkou pravděpodobností nikdy nesetkáte. V takových chvílích se misky vah
samozřejmě poněkud posouvají ve prospěch "zlého" chování např. víte, že "půjčka
na oplátku" vám už vaši zradu nestihne vrátit.
Navíc jsme v rámci experimentu uvažovali, že vaše paměť (respektive paměť
jednotlivých evolučních strategií) funguje absolutně. To samozřejmě tak docela
neplatí, ve vlastním životě narážíte spíše na lidi, kteří vám kohosi
připomínají. Předpokládáte u nich určitý vzorec chování, ovšem nevíte, zda/do
jaké míry ho budou také skutečně naplňovat. Na rozdíl od počítačově
modelovaných evolučních strategií je také v lidském chování skryta určitá část
(řekněme) nahodilosti/svobodné vůle. Asi málokdo je 100% popsatelný jediným
algoritmem, ať už je to "absolutní dobro", "absolutní zlo" či "půjčka na
oplátku".
I přes uvedená omezení je však simulace vězňovy hry fascinující a představuje
určitý příspěvek k řešení otázky, jak se mohlo "evolučně" vyvinout nesobecké,
altruistické jednání. Prostě se do určité míry vyplatilo.
text ONLINE
Kompletní podobu tohoto textu najdete na www.scienceworld.cz s datem 19. 10.
2001.
1 1583 / pah

Doporučujeme na portálu Science World
Supestruny už vědcům nestačí: Co je to M teorie?
Tajemné atraktory a teorie chaosu
Je deoxyribonukleová kyselina textem?
Hádanka: Hořela by zápalka na oběžné dráze
Diskuse: Studium na českých vysokých školách

Zdroje na Internetu:
Aplikace Vězňovy hry, převážně řešeno jako formuláře, JavaScript nebo jako
javový applet
http://netrunners.mur.csu.edu.au/~osprey/prisoner.html
http://www.miskatonic.org/pd.html
http://serendip.brynmawr.edu/playground/pd.html
http://www.princeton.edu/~mdaniels/PD/PD.html









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.