Umělá inteligence

1. 2. 2008

Sdílet

Díky používání prvků umělé inteligence jsou dnes počítačové programy stále sofistikovanější a dokáží kom...


Díky používání prvků umělé inteligence jsou dnes počítačové programy stále sofistikovanější a dokáží komunikovat s uživateli na stále vyšší úrovni. Přečtěte si, co váš počítač díky vyspělé umělé inteligenci všechno zvládne!„Pokud budeme mít dost štěstí, pak bude robot v domácnosti stejně běžný jako pes či kočka.“ Toto tvrzení pochází od Marvina Minského, průkopníka interdisciplinárního oboru s názvem umělá inteligence. Touto větou chtěl zároveň vyjádřit svoje znepokojení nad tím, že není až tak nemožné, aby se někdy v budoucnu objevily mohutné, samostatně myslící a pracující stroje, které by se následně mohly vymknout lidské kontrole.
Naštěstí ještě dlouho žádná taková takřka hororová situace zcela jistě nenastane. Opravdová umělá inteligence, která by dokázala v úplnosti napodobit myšlení člověka a pracovat jako on, aby se zároveň dokázala samostatně bez cizí pomoci rozhodovat, je v současnosti ještě v plenkách. Typickým příkladem by mohlo být vedení rozhovoru s počítačem nebo robotem – pokud bychom tento rozhovor vedli na dostatečně vysoké úrovni, pak zjistíme, že nic takového zatím není vůbec možné. Možná si některý z čtenářů vzpomene na program Eliza, který byl vyvinut v 60. letech 20. století a byl ke zmiňovanému účelu přímo předurčen. Svého času však komunikace spočívala pouze v tom, že Eliza dokázala převést výrok uživatele („Necítím se dobře.“) na otázku („Proč vám není dobře?“). Dále Eliza dokázala reagovat na určitá klíčová slova předem zadanými otázkami a odpověďmi. V tomto případě ale nemohla být o nějaké umělé inteligenci ani řeč. Program samotný pracoval podle přesně zadaných pravidel a nedokázal se nic nového naučit.
O mnoho dále jsou výzkumníci a vývojáři s tzv. „slabou“ umělou inteligencí, která sice není všeobjímající, ale vždy se soustředí pouze na konkrétní problém, například na překlad textu. Jistá forma slabé umělé inteligence se dnes skrývá v některých programech, s nimiž pracujeme prakticky denně. Některé z nich si představíme v následujících odstavcích.

Inteligentní vyhledávání

Určitě to znáte: když potřebujete na internetu něco najít, spustíte internetový vyhledávač Google, do příslušného políčka napíšete odpovídající výraz, chvíli počkáte a nakonec projdete výsledky vyhledávání. O co lepší by však bylo, kdyby za vás počítač udělal i již zmíněné prohledávání ve výsledcích hledání, a tak vám připravil skutečně pouze to, co vás zajímá.

Vyhledávání na internetu pomocí hlasu

Přesně na výše zmíněném úkolu pracují vědci a studenti ve výzkumné oblasti vytváření inteligentního rozhraní pro uživatele v německém výzkumném centru pro umělou inteligenci (DFKI). Jejich projekt se jmenuje Smart Web (http://www.smartweb-projekt.de). Jeho cílem je vytvořit mobilního průvodce, který je bezdrátově připojen k internetu a který uživateli prostřednictvím hlasového nebo textového výstupu automaticky podává informace. Na otázku typu „Kdo byl William Shakespeare?“, kterou uživatel položí, přístroj odpoví (a to rovněž hlasem) „Významný anglický básník a dramatik“. Uživatel tak vůbec nemusí prohledávat žádné výsledky vyhledávání. Podobně lze použít otázky typu „Jaké je aktuální skóre fotbalového utkání Sparta–Slavia?“, „Kolik padlo branek?“ nebo „Dají se na příští zápas Sparty proti Slavii ještě koupit lístky?“. Na všechny tyto otázky uživatel dostane odpověď prakticky okamžitě, aniž by musel tyto informace sám vyhledávat. Pokud se uživateli odpověď na nějakou otázku nepozdává, může se zeptat, s jakou pravděpodobností je odpověď pravdivá. Zařízení mu pak zobrazí zprávu, na základě kolika a kterých výsledků vyhledávání svoji odpověď založilo.
Disponuje-li zařízení vestavěným modulem GPS, dokáže odpovědět i na otázku typu „Kde se nachází nejbližší čínská restaurace?“ a v případě potřeby naplánuje cestu k ní. To ale stále není všechno: pokud uživatel při svých cestách narazí na neznámou památku, pak si ji může pomocí zařízení vyfotografovat a přístroj mu dokáže sdělit název této památky a podat informaci o její historii. Přitom vyhledává v databázi obrázků ty, které jsou podobné pořízené fotografii, vyhodnotí popisky, jež se u těchto obrázků vyskytují, a na základě zjištěných informací pak uživateli poskytne příslušné informace.
Jako referenční zařízení pro Smart Web používá DFKI komunikátor MDA Pro od T-Mobilu s Windows Mobile. Na něm běží uživatelské rozhraní, které se stará o hlasový vstup a výstup. Vzhledem k tomu, že by zařízení kvůli svému výkonu bylo nutnými operacemi příliš přetíženo, přesměrovává se hlasový vstup pomocí UMTS nebo WLAN na centrální server, který přebírá vykonání všech potřebných operací, jež je třeba na této úrovni umělé inteligence provést. Konkrétně se jedná o rozpoznání řeči a textu včetně interpretace jeho významu, dále zpracování vyhledaných webových stránek a získání požadovaných informací z nich.
Poté, co server porozumí významu otázky, předá příslušný dotaz do speciálních databází, které obsahují informace z různých oborů lidského vědění, popřípadě dotaz předá některému internetovému vyhledávači, například Googlu. Z výsledků vyhledávání si vybere potřebné informace a zjistí jejich váhu. Čím víc souhlasných výsledků server Smart Web získá, tím přesnější je odpověď.
Smart Web upřednostňuje ty internetové stránky, které – jak je zvykem – svůj obsah opatřují metainformacemi. Tyto metainformace pomáhají počítačům porozumět, jaký je například obsah nějakého textu, které části stránky patří k sobě, kdo je na fotografiích na stránce a kterým tématem se daný text zabývá. Soubor stránek s takovými anotacemi se nazývá sémantický web.
Na stránkách http://www.smartweb-projekt.de najdete v sekci Information animaci ve Flashi. Ta vám názorně ukáže, jak Smart Web přesně funguje.

Vyhledávání obrázků podle motivu

Program Imagesorter 2.0.1 třídí obrázky na pevném disku podle jejich podobnosti, v závislosti na obsahu. Nástroj je zdarma a najdete jej , popřípadě na internetové adrese http://mmk.f4.fhtw-berlin.de jako soubor IMAGESORTERV2_XP.ZIP o velikosti 7,80 MB. Další funkcí programu je možnost označit obrázek a zobrazit všechny, co mu jsou podobné. Tímto způsobem se tedy dají velmi snadno najít kupříkladu všechny obrázky Eiffelovy věže, které máte na svém počítači. Utilita pracuje tak, že provádí analýzu obsahu obrázku. Prostřednictvím matematických algoritmů popisuje fotografie jako vektory, popřípadě body ve vícerozměrném vektorovém prostoru. Na této pro obyčejného uživatele značně abstraktní rovině pak Imagesorter dokáže vyhledávat podobné obrázky. Ty pak utilita seřadí na list, popřípadě na otáčející se kulovou plochu, a to těsně vedle sebe. V některé z dalších verzí by měl Imagesorter dokázat třídit i výsledky vyhledávání obrázků na internetu.

Zpracování řeči

Dar řeči je jedním z nejvýznamnějších dokladů lidské inteligence. Pomocí řeči sdělujeme ostatním naše myšlenky. Řeč je tak prakticky vždy kreativním procesem. V okamžiku, kdy se tento kreativní proces pokoušíme simulovat nebo nějakým způsobem napodobovat pomocí nějakých algoritmů, dostáváme se okamžitě do oblasti umělé inteligence. Mezi počítačové programy, které se pokouší napodobovat lidskou řeč, patří aplikace pro strojový překlad, rozpoznávání řeči a hlasový výstup. Čím více se v daném programu skrývá inteligence, tím lepší jsou logicky výsledky, které jsou jako výstup poskytovány uživateli.

Strojový překlad

Pro automatický překlad samozřejmě potřebujete slovník s obrovskou slovní zásobou. Ovšem ani to nestačí. Primitivní překládání slovo za slovem většinou k ničemu není. Úroveň překladu se dá vylepšit nasazením určitých algoritmů, které provádějí analýzu větných členů, a tak hledají, kde se nachází podmět a kde přísudek, který podmět patří ke kterému přísudku apod. Stavba věty se dá tímto způsobem zjistit poměrně snadno, ovšem o něco složitější to je se sémantikou, neboli s významem jednotlivých slov. Tady většina programů ztroskotá, nicméně dnes už existují i takové algoritmy, které se blíží lidskému myšlení.
Jedním z těchto algoritmů je k patentování připravený neuronální přenos, jenž se uplatňuje v programu Linguatec Personal Translator 2008. Tento program pro překlad textů si můžete za 49 eur zakoupit na internetové adrese http://www.linguatec.net. Tato metoda dokáže podle kontextu správně přeložit slova s více významy. Správný význam slova rozpoznává program i na základě dalších vět.
Výrobce překladače tedy musel analyzovat obrovské množství textů, aby aplikace dokázala pomocí různých lingvistických a neuroinformatických metod zjistit, které výrazy se vyskytují společně s výrazy jinými. Tyto informace jsou pak v programu uloženy v asociativní paměti.
Metoda Smart Analyze se při překladu stará o obrazná vyjádření a dlouhé vnořené věty v souvětích. Program vám v této oblasti například pomůže rozpoznat, kdy slovo „zajíc“ skutečně má význam tohoto živočicha žijícího na poli. Obrazně myšlený výraz „kupovat zajíce v pytli“ program tedy v žádném případě nesmí přeložit do cizího jazyka doslovně.
Pokud si sami chcete udělat obrázek o tom, jak výkonná je aplikace Personal Translator 2008 od firmy Linguatec a kde asi leží hranice překladu vytvořeného pomocí programu využívajícího umělou inteligenci, navštivte internetovou stránku www.liguatec.net/onlineservices/pt. Zde můžete zadat pro ukázkový překlad až 500 znaků dlouhý text, který lze přeložit do několika jazyků.

Rozpoznávání textu

Při využívání technologie pro rozpoznávání textu (OCR) jde víceméně o to, aby program převedl oskenovaný nebo ofocený dokument do podoby citovatelného textu. Zní to velmi jednoduše, ale praxe je daleko složitější. Pro počítač není oskenovaný list papíru nic jiného než obrázek obsahující černé, bílé či barevné body. Proto potřebujeme speciální program OCR, který v tomto souboru obrázku rozpozná text.
Jednoduché programy OCR pracují pouze s rozpoznáváním tvaru písmen. V oskenovaném dokumentu nejprve od sebe navzájem oddělí jednotlivé objekty, které představují jednotlivé znaky, a poté pro ně spočítají několik parametrů, například diagonálně měřenou hustotu černých bodů. Vypočtené hodnoty parametrů pak porovnávají s parametry uvedenými pro jednotlivé vzorové znaky. Tyto parametry mají uloženy v databázi. Při tomto porovnávání pak rozhodují o tom, který ze znaků dané parametry splňuje nejlépe. Tato metoda sice není špatná, ale při jejím použití dochází k poměrně velkému množství chyb.
Programy OCR pracující na vyšší úrovni naproti tomu zkouší napodobit přirozené a inteligentní mechanizmy, které mají co dělat s lidským uvažováním. Využívají přitom následujících tří principů. Princip první – princip jednotnosti – říká, že pro úspěšnou detekci znaku se musí každý objekt považovat nikoliv za samostatný, ale naopak se musí brát v úvahu i jeho okolí. Druhý princip – princip účelnosti – spočívá ve vytváření různých hypotéz, o jaký znak by se asi s největší pravděpodobností mohlo jednat. Daný znak se dá s nejvyšší pravděpodobností uhodnout tím, že se podíváme, jak vypadá a co se vyskytuje v okolí tohoto znaku. Třetí princip – princip kompatibility – pak popisuje schopnost programu učit se z předchozích úkolů.
Všechny tyto principy kupříkladu využívá program pro rozpoznávání textu s názvem Abbyy Finereader 9.0. Tento program najdete jako 15denní zkušební verzi, a to jako soubor FR90PE_ESD.EXE o velikosti 126 MB, popřípadě si jej můžete stáhnout na internetové stránce http://www.abbyy.com. Program vyhledává v naskenovaném dokumentu prvky, které svou strukturou a uspořádáním vypadají jako text (uplatnění principu jednotnosti). Při rozpoznávání znaku Finereader na rozdíl od ostatních neprohledává tisíce vzorů znaků, aby našel ten nejvhodnější, ale namísto toho vytvoří několik tipů, o jaký znak by se mohlo s největší pravděpodobností jednat, a každý z těchto tipů pak dále prověřuje. Pokud si program myslí, že znak bude písmeno A, pak se zaměří na další nezaměnitelné vlastnosti, které musí být pro zobrazení znaku splněny, aby se skutečně jednalo o znak A – zde se uplatňuje princip účelnosti. Nakonec Finereader s konečnou platností potvrdí svoji nejpravděpodobnější hypotézu. Přitom využívá zkušeností z předchozích úkolů, kdy měl co dělat s podobnými problémy při rozpoznávání stejného nebo podobného znaku v jiných dokumentech – zde využívá principu kompatibility.

Rozpoznávání řeči

U rozpoznávání řečí jde v podstatě pouze o to, aby počítač rozpoznal slova, která mu uživatel do mikrofonu říká, a aby tato slova následně vložil do textového editoru. Toto je jedna oblast používání funkce rozpoznávání řeči. Tou další je pak ovládání operačního systému a aplikací pomocí příkazů vyslovených uživatelem.
Programy pro rozpoznávání řeči pracují principiálně stejně jako sluchové ústrojí u člověka, kde ucho zachytí zvuk, mozek tento signál dekóduje a určí jeho význam nebo původ.
Programy převádí zvukové signály v reálném čase do svých formátů a poté začínají pro vyřčená a zaznamenaná slova vyhledávat nejlepší význam. Přitom zároveň program zohledňuje již jemu známá slova a věty, dále gramatiku a souvislost s již nadiktovaným textem.
V polovině 90. let 20. století bylo nutné diktovat postupně slovo za slovem a učit program několikahodinovým trénováním předem vybraných vět, aby si na váš hlas zvykl. To je dnes už dávno pryč. Kupříkladu program Dragon Naturally Speaking ve své verzi 9 slibuje 99procentní úspěšnost při rozpoznání řeči, a to aniž by ho bylo nutné na váš hlas nějak trénovat. Mluvit přitom můžete tempem, jakým jste zvyklí. Cena verze Standard je včetně náhlavní soupravy stanovena na 99 eur. Podrobnější informace naleznete na internetové stránce programu na adrese http://www.nuance.de. Přesnost 99 procent znamená u typické stránky s 500 slovy 5 špatně zapsaných slov, nicméně program se ze svých chyb neustále učí, takže se přesnost rozpoznávání časem trvale zlepšuje. Program bohužel nepodporuje češtinu, ale pouze angličtinu a několik dalších světových jazyků.
Ve Windows Vista je funkce pro rozpoznávání řeči umožňující hlasové ovládání počítače a diktování textu součástí operačního systému. Nicméně ani svojí přesností rozpoznávání, ani rozsahem funkcí v žádném případě na samostatně prodávající se produkty jako je již zmíněný Dragon Naturally Speaking nestačí. Ve Windows Vista tuto funkci povolíte přes nabídku Start/Příslušenství/Snadný přístup/Rozpoznávání řeči systému Windows. Bohužel v české verzi není tato funkce ve Vistě podporována.
Pro diktování dlouhých textů se funkce rozpoznávání řeči zatím na počítačích příliš neprosadila, ovšem o to důležitější roli hraje u mobilních zařízení, které nedisponují žádnou plnohodnotnou klávesnicí. Například firma Tomtom nabízí navigační přístroje
Go 720 a Go 920, který jsou vybaveny rozpoznáváním řeči od firmy Nuance. Tak je možné zadat cíl, ke kterému chcete dojet, i prostřednictvím hlasu. Rozpoznávání řeči však potkáme i u funkce automatického vytáčení účastníka, jemuž chceme volat z mobilu. Svým způsobem je tak rozpoznávání řeči daleko běžnější, než by se mohlo na první pohled zdát.

Hlasový výstup

Hlasový výstup (používá se i pojem syntéza hlasu) se stále více blíží lidské řeči. Jeho základ tvoří jednotlivými mluvčími namluvená slova či věty. Výrobci programů pro syntézu hlasu využívají textů namluvených a nahraných ve studiu jednotlivými mluvčími. Při vývoji programů se pak tento zvukový záznam rozdělí na části, s nimiž se dále pracuje.
Dobrý program pro syntézu hlasu musí před samotným přečtením textu nasadit jisté množství umělé inteligence. Každou větu je nutné velmi pečlivě rozebrat. Při analýze program nejprve vyhledává zkratky a číslice, u nichž určí, jak je má přečíst. Například zkratku „atd.“ musí přečíst jako „a tak dále“, číslici „2007“ musí přečíst jako „dva tisíce sedm“. O něco obtížnější jsou číslice jako třeba „1“, které se mohou v závislosti na dalším textu přečíst jako „jeden“, „jedna“ nebo „jedno“. To samé platí i pro některé zkratky. Programu tedy skutečně nezbývá nic jiného, než aby provedl důkladnou analýzu věty a podle ní se rozhodl, jak číslice nebo zkratky přečíst. Kromě toho se nesmí zapomenout ani na správný přízvuk, který se ve slovech klade na určitá místa, a na přízvuk slov ve větě.
Pro samotné čtení používá řada programů obsáhlý slovník, v němž je určeno, jak se má které slovo vyslovovat. U neznámých slov pak přichází ke slovu obecný soubor pravidel pro výslovnost. Jiné programy zase pro správné čtení textu používají přesně opačný způsob: sází totiž na seznam pravidel výslovnosti a do slovníku zapisují pouze ta slova, která se vyslovují jinak, než by se podle pravidel předpokládalo.
Jakmile program ukončí analýzu slov a vět, pak si ze svého souboru pravidel pro výslovnost, popřípadě přímo slov s instrukcemi pro jejich výslovnost vezmou jednotlivé kousky, které poskládají do plynulé věty. Posluchač v praxi však téměř žádnou prodlevu nezaznamená, neboť veškerá analýza probíhá předem.
Jedním z výkonných programů pro hlasovou syntézu je například Voice Reader Home, který si můžete za 49 eur koupit na internetových stránkách www.linguatec.net. Vzhledem k tomu, že každý jazyk má svoje odlišnosti, najdete program v jedenácti jazykových verzích a patří mezi ně i čeština. Kvalitu výstupu si před zakoupením můžete otestovat na internetových stránkách
www.linguatec.net/onlineservices/voice_reader. Stačí pouze zadat text, který chcete přečíst.
Další zajímavou aplikací je program Natural Reader 6.6, který si můžete za 39,50 dolarů zakoupit na internetové adrese www.naturalreaders.com. I zde máte možnost výběru z řady jazyků. K dispozici je i zdarma dostupná verze 6.5, kterou vám přinášíme jako soubor STANDARDSETUP.EXE o velikosti 9,19 MB, popřípadě na již zmíněné internetové adrese
www.naturalreaders.com. V této verzi je však k dispozici pouze anglický mluvčí, který vám v češtině moc neposlouží.

Rozpoznávání obličeje

Rozpoznávání obličeje se dá využít dvěma způsoby: buď pro identifikaci určité osoby na obrázku (obličej této osoby však musí být uložen v databázi), nebo pro interpretaci mimiky osob.

Identifikace osoby podle obličeje

Například program X-Login 1.0 vám umožní pracovat na počítači pouze tehdy, pokud před ním bude sedět určitá dříve zadaná osoba. vám nabízíme 15denní demoverzi. Jedná se o soubor SETUP.EXE o velikosti 29,9 MB, který se případně dá stáhnout na internetové adrese www.pixelreality.com. Na stejné adrese si můžete program také zakoupit. Plná verze stojí 299 dolarů. Obraz se do programu snímá obyčejnou webovou kamerou. Programy tohoto druhu mají sklon pracovat spíše jednodušeji, neboť si pamatují pouze umístění osoby a vzdálenost partií obličeje. Ochrana počítače tímto softwarem se tedy dá svým způsobem obejít tak, že použijete fotografii oprávněné osoby, kterou umístíte před webovou kameru. Profesionální programy pro rozpoznávání osob sází na složitější výpočty, například na wavelet analýzu a na analýzu hlavních komponent, které se vždy vylepšují použitím umělé inteligence, zejména samoučícími se procesy.

Rozpoznávání pocitů

V případě druhého způsobu využití rozpoznávání obličeje se jedná o to rozebrat, kde v obrázku se daná osoba nachází a jaké zažívá pocity. Frauenhoferův institut pro integrované obvody (IIS) vyvinul aplikaci, která dokáže rozpoznat aktuální rozpoložení osob. Aplikace používá k nalezení osob na obrázcích velmi složité algoritmy, přičemž dokáže rozlišit mezi mužským a ženským obličejem a dokonce umí rozebrat i jejich mimiku. Jedná se o program Real Time Face Detector 4.05, který najdete jako 60denní demoverzi , popřípadě ji můžete stáhnout na internetové adrese http://www.iis.fraunhofer.de/bf/bv/kognitiv/biom/dd.jsp jako soubor RTFACEDETECT_SETUP_V405_TCM97-78258.EXE o velikosti 7 MB.
I některé digitální fotoaparáty dokáží rozpoznat lidské obličeje a zaměřit na ně objektiv. Forma Sony jde se svými modely DSC-T70 a DSC-T200 dokonce ještě dále. V jejich případě můžete nastavit, aby přístroj pořídil snímek až tehdy, když na tváři fotografované osoby objeví úsměv. 8 0006/TJi ?

Čtení myšlenek

Bude v nejbližší době nějaký program tak chytrý, že dokáže číst naše vlastní myšlenky? Tak docela nemožné to zase není – alespoň to naznačují aktuální výsledky dosažené ve výzkumu v této oblasti. Při vlastních testech se hlava testované osoby zasune do tomografu využívajícího magnetické rezonance. Toto zařízení využívá elektromagnetického vlnění k měření aktivity neuronů. Tak se zjistí, ve které části mozku mají v daný okamžik neurony největší aktivitu. Kvůli přesnějšímu určení dělí výzkumní pracovníci mozek do několika různých oblastí, pro které používají pojem voxel. Testované osobě pak ukazují několik obrázků stejného druhu, ale z několika oblastí – například nejprve obrázky koní a poté třeba obrázky ptáků. Výsledky ukazují, že při předložení obrázků z různých oblastí jsou vždy aktivní jiné voxely mozku. Po provedení důkladnějšího testování pak dokáže speciální software s vysokou přesností určit, zda testovaná osoba právě myslela na koně nebo na ptáka. Jiné myšlenky se (zatím) ještě zachytit nedají. O něco snazší to mají výzkumní pracovníci v případě, pokud mají určit, zda někdo mluví pravdu nebo lže. V obou případech jsou totiž aktivní různé části mozku. Nicméně doba, kdy budou detektory lži pracující na zmiňovaném principu uvedeny na trh nebo kdy se budou běžně využívat při soudních procesech, je ještě velmi vzdálená.