Umělá inteligence v praxi

Agenti a havěť podobná Zapomeňme na chvíli na všechny lákavé přísliby toho, že za nás začne myslet někdo jiný....


Agenti a havěť podobná
Zapomeňme na chvíli na všechny lákavé přísliby toho, že za nás začne myslet
někdo jiný. Hlavním příslibem umělých inteligencí především je, že nám pomohou
probrat se množstvím informací, které dnes exponenciálním způsobem roste. Tak
jak se komunikační možnosti a schopnosti lidí zlepšují, není dnes pro
jednotlivce či firemní oddělení problémem dostal řádově sta e-mailových zpráv
denně. Totéž platí opačným směrem, a třeba i o množství publikovaných WWW
stránek. Dnes už nás asi nepřekvapí, že do diskusních skupin přibývá něco přes
50 MB textových informací denně, nebo že vyhledávací nástroj Alta Vista
"nabídne" nějakých těch 10 000 odkazů na téma "umělá inteligence".
Zpracování podobných informací ovšem už není otázkou jen hrubé výpočetní síly,
vyžaduje nějakou formu inteligentního předzpracování hodnotnějších odkazů. A
zde se otevírá prostor pro různé roboty a agenty, operující na bázi umělé
inteligence. Obecná definice říká, že robot (Web Wanderers, Web Crawlers,
Spiders)
je program, který automaticky prochází WWW hypertextové struktury a extrahuje
dokumenty, splňující určitá kritéria. Vzhledem k duplikacím stránek, možnosti
rekurzivního zabloudění v odkazech a podobných problémům, je jeho úspěšnost
skutečně závislá na míře inteligentnosti
jeho algoritmů.
Slovo agent má dnes více významů. Můžeme mluvit o autonomních agentech, kteří
se sami rozhodují (na rozdíl od robotů), na jakou adresu se přesunou a jaký typ
dokumentů prohledají. Inteligentní agenti jsou programy aktivně uživateli
pomáhající při činnostech, jako je výběr produktu, vyplňování objednávek apod.
Obecně nemají příliš mnoho společného se sítěmi a transportem dat po nich,
dobrým příkladem jsou pomocníci provázející aplikace Microsoft Office (i když
jsou trošičku moc agilní).
User-agent je čistě technické označení pro klienty provádějící síťové úlohy pro
uživatele, většinou je považujeme za čisto-krevné a prosté programy, jako je
Netscape Navigator či Internet
Explorer.
Možnosti robotů a agentů se dnes teprve ukazují. Vývoj jde cestou speciálních
kitů pro uživatele, kteří si mohou doslova sestavit pomocníka podle svých
potřeb. Již dnes se ale ukazuje největší slabinou nedostatečná metodika, jak
roboty od svých stránek (běžících na snadno přetížitelném serveru) odradit.
Data mining dolování dat
Ale nejen pasivním vyhledáváním informací živi jsou uživatelé. Potřebují pomoc
také při jejich zpracování, nebo třeba i při jejich vytváření. Z tohoto pohledu
se dnešní počítače příliš neliší od běžných kancelářských strojů. Mírný pokrok
(v mezích zákona) začal přece jen s nástupem současného kancelářského balíku
Microsoft Office. Již verze 95 nabízela jazykový korektor, za jehož nenápadným
vzhledem byla skryta řádka zvučných jmen z univerzit, zabývajících se výzkumem
AI. V rámci češtiny to asi mnoho uživatelů nepoznalo, ale tento "spellchecker"
byl schopen sémanticky analyzovat gramatiku anglické věty a velmi slušně
navrhovat korekce.
To je zřejmě opět případ, kdy používání algoritmů AI daleko předčí jinak
přitažlivější rozpoznávání hlasu. Při dostatečném hrubém výkonu počítače je
možné psát text, zatímco program na pozadí automaticky koriguje běžné chyby,
jako jsou špatné mezery, typické nespisovné tvary (bychom/bysme) atd. Jak
daleko může být stylistický korektor, korigující náš sloh?
Ve verzi 97 se podstatně zlepšila autokorekce češtiny a přiby-la funkce
"Automatické shrnutí" (bohužel vykazující nevýraznou činnost jen v angličtině),
která vybírá z dokumentu MS Wordu věty s největším výskytem
nejfrekventovanějších slov. Pokročilejší formy takovýchto funkcí nej-sou ale už
ničím jiným, než automatickým rešeršním agentem, který musí jednotlivé věty
analyzovat syntakticky, sémanticky a v kontextu celého textu. Podobné procedury
(skutečného vyhodnocování smyslu dat) jsou někdy označovaného jako "Data
mining" a objevující se ve všech moderních verzí highendových databází.
My však pro jeden z nejlepších příkladů nemusíme chodit tak daleko, na
Internetu je k "zastižení" demoverze jinak komerčního programu (cca 50 dolarů)
Data Hammer firmy Glucose Development Corp., který je ale prozatím jen pro
MacOS. Jeho hlavním úkolem je zpracovávání textů a generování jejich abstraktů
či shrnutí jejich obsahu. Je to fascinující ukázka toho, co může přinést
aplikace AI algoritmu (konkrétně Microword Tree Trimming) i v rámci osobního
počítače a denní praxe. To, co MS Word naznačuje, Data Hammer provádí u
označeného textu určí použitý jazyk (podporováno je přes 12, včetně toho
našeho), provede analýzu a nabídne "šoupák" posuvný jezdec umožňující plynule
měnit velikost či podrobnost shrnutí. Doprovodný obrázek ukazuje schopnosti
programu vytvářet čitelné a takřka gramaticky korektní věty (v původním textu
se vůbec nevyskytující a především při kompresi 1:20 shrnující nejdůležitější
informace textu). Program příležitostně vyprodukuje nesmysly, občas ale doslova
vyrazí dech svou chytrostí.
Obecnějším pomocníkem je Intelligent Minert, produkt firmy IBM, který zjišťuje
obecné vzory v datových souborech. Konkrétní nasazení? Národní banka USA před
rokem zjistila, že již nedokáže roztřiďovat do odpovídajících oddělení 20 000
e-mailů přicházejících za měsíc. Protože Miner patří k novému typu učících se
AI, bylo mu předhozeno na 5 000 zpráv, ke kterým již bylo lidským operátorem
přiřazeno hodnoce-ní; a bylo na jeho algoritmech, aby zjistil, proč právě
takovéto. Dnes má Národní banka k dispozici automatizovaný systém, který s
přesností 91 % (dále roste s praxí) rozesílá zprávy zodpovědným pracovníkům.
Tato přesnost nestačí na automatické odpovídání, umožňuje ale předpřipravovat
pro úředníky předlohy dopisů. Toto je aplikace na samé hranici utopického snění
o AI program vyhodnocuje zprávy podle kritérií, které si sám našel a o nichž
původní programátoři ani nic nevědí.
V daném případě šlo o premiérové nasazení Mineru a současně o jeho první
nasazení ve velmi bohaté bázi dat a tak je tento produkt během své práce a při
svém zdokonalování pozorně sledován. Jak dlouho mu může trvat zjištění, že
žádost "Chci postavit dům a potřebuji peníze" je ekvivalentní žádosti o
hypotéku? No, nepříliš dlouho.
Stroj, který slyšel a viděl
Na konci loňského roku uspořádala firma IBM na výstavě Comdex působivou
demonstraci své představy inteligentního počítače stroje, který skutečně vidí a
slyší. Uživatel byl schopen slovy a gesty ovládat dění na obrazovce vyvolat
model zeměkoule (slovy "Lets see the world!"), zmenšovat jej podle potřeby
(slovy "Make it this big" a současným naznačením velikosti vzdáleností dlaní).
Demo způsobilo hodně rozruchu a určitě splnilo svůj účel otřáslo zažitou
představou IBM jako konzervativní společnosti.
Žádná z použitých technologií nebyla zase tak převratná. Poprvé ale byla k
vidění jejich funkční kombinace běžící na dostupném komerčním hardwaru
videokamera, sloužící jako oko, spolupracovala s IBM Netfinityr 7000 PC s
Windows NT. Kameru obsluhovaly algoritmy pro "strojové vidění", schopné
sledovat pohyby hlavy, končetin a trupu uživatele. Jejich prostorové
charakteristiky byly potom interpretovány jako instrukce pro počítač. Co
bohužel v ukázkách chybělo, byly poslední práce rešeršního centra IBM v
Almadenu na poli rozpoznávání tváře uživatele a reagování na jeho emocionální
stav (odezírání ze rtů je jednodušší aplikace téhož, zlepšující možnosti
rozpoznávání řeči v hlučném prostředí).
Hlas byl zachycován do malého mikrofonku připevňovaného na šaty a rozpoznáván
komerčním programem IBM ViaVoicet Gold, který akceptuje neomezený počet
příkazů. Odhadovaná cena celého řešení byla 20-30 000 dolarů, a to naznačuje,
že při běžném pádu pořizovacích cen nastupujících technologií na polovinu
každým rokem se s něčím podobným můžeme za tři roky setkat v běžných komerčních
modelech stolních počítačů. Samotní autoři nazývají tuto formu ovládání
"Visualization Space", tedy visualizační prostor, který můžeme považovat za
dnes dostupnou realizaci virtuální reality, bez nutnosti jít cestou taktilních
rukavic, hlavových projektů a tělových taktilních kombinéz. To vše zde
zastupuje velká projekční obrazovka (s kamerou), kde je do počítačové grafiky
klíčován obraz uživatele, který může pohyby rukou třeba učit aportovat
virtuálního psa (příklad konkrétní existující aplikace, jakýsi Tamagoshi super
ultra).
Slyším a poslouchám!
Hlasové ovládání a možnost diktovat text počítači se již dlouho laikům předvádí
jako nastupující "kouzlo" moderní generace počítačů a operačních systémů, které
jim konečně umožní pracovat s počítači přirozeným způsobem. Vše je samozřejmě
pravda, ovšem na rozpoznávání řeči se již pracuje přes dvacet let, a takové
době výsledky přece jen neodpovídají. Motivace je přitom velmi silná, protože
již dlouho existují lukrativní odbytiště například v oblasti medicíny, která
velmi rychle akceptovala možnosti ručních počítačů (Newton či Palm Pilot) pro
vyšetřování v "poli". Investice do diktování anamnéz hlasem by byla jen dalším
logickým krokem, což dokazují výborné prodeje diktovacích softwarů v Japonsku
(kde se těsnopis nikdy příliš neujal).
Nejdříve je ale třeba vyřešit spoustu problémů. Narozdíl od rozeznávání psaného
písma či obrazu je řeč zastiňována ruchy, včetně typického hudebního pozadí na
pracovištích. Problémy také způsobuje nedostatečná kvalita běžných zvukových
karet a mikrofonů. Značné rozdíly jsou i v přístupech k rozpoznávání mluvené
řeči (NLU natural language understanding). Software určený pro veřejná místa
jde spíše cestou omezené sady povelů, které by měly být vyslovovány např. ve
středoameričtině, zatímco personální varianty dosahují podstatně lepších
výsledků díky schopnosti učit se. Jejich uživatel však s nimi musí strávit
několik hodin předčítáním textů, než začne být jeho diktování skutečně
produktivní.
Nicméně, píše se rok 1998 a snad se konečně objevují reálně použitelné
produkty. (Ovšem ještě během loňského podzimu testoval kanál EBN všechny
dostupné komerční diktovací balíky a s čestnou výjimkou programu IBM všechny
naprosto pohořely.) Corel nedávno demonstroval svůj WordPerfect Suite 8, který
obsahuje NaturallySpeaking, komerční softwarovou komponentu firmy Dragon
Systems pro rozpoznávání řeči. Verze 8 byla předvedena na výstavě PC Expo v New
Yorku v červnu tohoto roku. Můžeme tušit, že Corel, bojující s Lotusem o druhé
místo na trhu s kancelářskými integrovanými programy, doufá, že schopnost
diktování hlasem v jeho textovém procesoru bude znamenat výraznou marketingovou
výhodu. WordPerfect během vlastní premiéry ukázal, co můžeme očekávat od nové
generace aplikací pro zpracovávání textu uživatel bude moci diktovat rychlostí
až 150 slov za minutu, s přesností okolo 95 %. (I případné korekce chyb mohou
být provedeny hlasem.) V praxi to znamená až třikrát větší rychlost psaní, než
jaké je schopen průměrně sběhlý pisatel.
Corel ovšem nezůstal sám. Odpovědí Lotusu se v červenci stane SmartSuite
Millennium Edition, jejíž luxusnější verze textového procesoru Word Pro a
tabulkového procesoru 1-2-3 jsou integrovány s ViaVoice Gold firmy IBM.
Překvapivě se z tohoto pole stahuje Microsoft, jehož výkonný ředitel Bill Gates
byl velkým propagátorem podobných technologiích při každé předchozí
příležitosti. Podle oficiálních prohlášení nebude ani nadcházející verze
Microsoft Office 2000 obsahovat žádné prvky související s ovládáním hlasem.
Podle vyjádření Microsoftu nejsou tyto technologie ještě zralé pro praktické
nasazení, vzhledem k úrovni přesnosti, s jakou pracují.
No, uvidíme. Nic z toho se ovšem netýká hlasové syntézy, která nenaráží na
žádné principiální bariéry a jejíž vývoj se už dávno posunul až k problémům s
vyjadřováním emocí a jazykového původu mluvčího, spolu se samozřejmou
synchronizací s animovanou tváří na obrazovce. Ostatně, některé profesionální
3D programy, jako např. Animation Master firmy Hash, již několik let nabízejí
podporu pro podobné záležitosti; i když nikoli v reálném čase.
Ultimativní použití hlasového ovládání je ovšem možné jen v kombinaci s plně
skriptovatelnými operačními systémy, a především s inteligentními agenty, kteří
na povel "Go to the conclusion!", vyhledají závěr článku a nebudou hlásit, že
slovo "conclusion" v textu není.
8 1578 / Maf









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.