Hlas místo klávesnice?

Přirozená řeč a její rozpoznávání fascinuje jako objekt zájmu i počítačové odborníky, a to již od šedesátých...


Přirozená řeč a její rozpoznávání fascinuje jako objekt zájmu i počítačové
odborníky, a to již od šedesátých let 20. století, kdy byly položeny základy
strojového rozpoznávání řeči.

Počátky technologií rozpoznávání hlasu (voice recognition) jsou ještě spojeny s
analogovými počítači, ale brzy nastoupilo číslicové zpracování. Jedním z
průkopníků, kteří položili základy číslicového zpracování řeči, je Frederik
Jelinek, náš krajan, jenž vedl více než dvacet let výzkumný tým IBM. Na tehdy
formulovaných základech pracuje dodnes většina komerčních rozpoznávačů řeči. V
nejbližší době nás čeká velký rozmach těchto aplikací, vždyť jenom v jedné jeho
části telefonii založené na rozpoznávání řeči se objem trhu pohybuje v řádech
miliard dolarů ročně.

Nejefektivnější komunikace
Jazyk představuje nejpřirozenější způsob komunikace. Dialog je vlastní každému
z nás a osvojujeme si ho od narození. Struktury našeho mozku jsou dlouhou
evolucí dokonale přizpůsobeny tomu, abychom tento nástroj rozvíjeli k
dokonalosti už dítě dokáže bez jakéhokoli násilí do dvou let vstřebat ohromné
množství informací z jazykového systému, základní slovní obraty a jejich smysl,
takže mu nebrání nic v tom, aby se prostřednictvím řeči efektivně vyjadřovalo a
komunikovalo. Je pro nás mnohem jednodušší a rychlejší něco říct, než to napsat
v řeči počítačů například ve formě "regular expressions", známých z operačního
systému Unix. Člověk se dokáže v řeči vyjadřovat při veškeré její úspornosti i
nanejvýš exaktně zatímco věta "Najdi mi všechny e-maily, které jsem dostal do
minulého týdne, a přitom ne starší než dva měsíce," vyznívá co do svého významu
jednoznačně a její vyslovení nám nezabere víc než několik vteřin, zápis toho
samého ve formalizovém jazyce se může stát oříškem i pro zkušeného
programátora.

Současné uplatnění
Rozpoznávání řeči se v současnosti uplatňuje především ve dvou základních
oblastech. Tou první je telefonie v podobě telefonních center. Ta jsou
vybavována rozpoznávači a syntetizéry řeči, které komunikují s volajícím. Tak
například u leteckých a dopravních společností lze díky rozpoznávání řeči
objednávat lety a poskytovat informace o spojení a jízdních řádech. Klienti
mohou prostřednictvím hlasového automatu zjišťovat stav svého účtu a zadávat
bankovní příkazy včetně převodů peněz. Rozpoznávání řeči je tak nedílnou
součástí call center. Druhou významnou oblastí uplatnění rozpoznávaní řeči jsou
přenosná zařízení. Může jít o mobilní telefony nebo o vestavěné počítače v
automobilech. Systémy rozpoznávání řeči v mobilních telefonech se zatím příliš
neprosadily. V automobilovém průmyslu je situace jiná. Řidiči jsou zcela
zaměstnáni řízením a každé snížení jejich pozornosti ovlivňuje bezpečnost
provozu. Zde představuje ovládání řeči jednoznačný přínos a velké vylepšení:
jasně to dokazují přední automobilky vybavující svoje modely stále častěji
navigačním systémem nebo telefonem, které jsou ovládány hlasem. V domácnosti se
brzo setkáme s hlasem ovládanými přehrávači a televizory. Na satelitech jsou
dnes stovky různých kanálů a pro diváka je velmi těžké nalézt přesně to, co
právě chce sledovat. Přečíst programy všech kanálů, byť jen za jeden den,
zabere hodně času. Hledání programů s řečovým vstupem nám opět může velmi
usnadnit situaci. Prostě se zeptáme, na kterém programu jsou právě zprávy nebo
kde vysílají hokej. Po vydání takového příkazu se na obrazovce objeví seznam
stanic, které právě hokej vysílají, a my si vybereme, jaký zápas budeme chtít
sledovat. Stejným způsobem lze například ovládat MP3 nebo CD přehrávač a volit
si pouze prostřednictvím hlasu zpěváka či název skladby.

Hlasem k bezpečnosti
Při uplatnění hlasových systémů je kladen důraz na slůvko inteligentní. Využít
nové prvky pouze z toho důvodu, že si to móda a design žádají, není cílem
současného vývoje. Vědci a technici se snaží zvolit správné a spolehlivé řešení
založené na hlasovém dialogu, které nebude odvádět pozornost uživatele. Na
základě takového zadání není divu, že prvotním katalyzátorem uvedení prvků
voice recognition do automobilů bylo vytáčení telefonních čísel prostřednictvím
hlasu. Kromě toho může být řeč využívána ke kontrole základních funkcí
automobilu k navigaci podle zadání cíle jízdy, k udržování teploty prostředí, k
ovládání rozhlasového přijímače a CD v zásadě tedy všeho toho, co by odvádělo
pozornost očí řidiče z vozovky a ruce z volantu a přitom to lze ovládat
prostřednictvím hlasových pokynů.
Bezpečnost je určitě prvořadým důvodem, ale jakmile výrobci automobilů
zjistili, že se jim podařilo uspokojit tyto potřeby, mohli začít spolupracovat
s technologickými partnery a vývojáři nezávislého softwaru na zabudování nových
aplikací, které zprostředkují nové služby a zjednoduší používání. Současné
automobily umožňují aktuálně informovat řidiče a poskytovat jim asistenční
služby v případě, že dojde k poruše či havárii. A to má samozřejmě dopad na
spokojenost řidičů: v nedávném průzkumu společnosti JD Power & Associates
hodnotícím spokojenost zákazníků s navigačními systémy byly tři z pěti aut s
nejlepším umístěním od jedné značky a všechny měly zabudovány systémy pro
rozpoznávání hlasu.
Automobil je příkladem prostředí, které jeho osádce dává pocit soukromého
prostoru i uprostřed hektického dopravního ruchu na frekventované silnici.
Právě díky svým parametrům je automobil zároveň místem, které před navrhovatele
hlasových systémů a technologií staví nové problémy. Jde především o velkou
hlučnost automobilu a hluky pronikající do kabiny z okolního provozu.
Rozpoznávače jsou na tyto rušivé vlivy velmi citlivé. Další limitující prvek
představuje výkonnost a cena počítače, na kterém rozpoznávač běží. Cenu je
potřeba i pro ty nejdražší automobily udržet co nejnižší. Vyvážení kompromisů
mezi náročnými požadavky hlasových technologií a kapacitou systému dostupného v
automobilu musí proto být velmi komplexní. Kromě toho nelze přehlížet
skutečnost, že řidiči tráví v autě dlouhé hodiny a kvalita konverzace s
přístrojovou deskou je klíčová pro to, aby řidič celý systém akceptoval jako
jeho uživatel. Hlas, který by ho rozptyloval, nebo opakování výzev může nakonec
vyústit až v to, že se řidič dostaví do servisu s přáním, aby mu ten obtěžující
hlas odpojili.

Intuitivní systémy
Co platí o automobilech, je do značné míry platné i obecně pro všechny ostatní
hlasové systémy a technologie. Ty byly původně vyvinuty pro úzkou a jasně
definovanou skupinu osob, která se ovšem nyní rozšiřuje. To s sebou přináší
celou řadu problémů, jako je široké spektrum dialektů a akcentů s odlišnými
styly mluvy (potichu, hlasitě, pomalu, rychle atd.), a to představuje velmi
náročný úkol pro vývojáře i výzkumníky. Jedno z možných řešení učí systém
pomocí odposlouchávání konkrétních uživatelů. Takové adaptivní systémy jsou
předmětem současného výzkumu a vývoje. Velké úsilí výzkumníků je zaměřeno na
vývoj dialogových aplikací. Ty dovedou s uživatelem konverzovat a vhodně
volenými dotazy zjistit, co přesně potřebuje. Uživatel se nemusí nic učit,
nemusí číst žádný manuál. Hlasové systémy a technologie se tak stávají doslova
intuitivními a tato schopnost osvobozuje jejich uživatele od frustrace z
nutnosti opakování rigidních frází. Místo toho mohou vyjádřit jednoduše to, co
chtějí. Ať už jde o dotaz na cestu k nejbližší čínské restauraci nebo o pokyn
ke změně rozhlasové stanice, auto musí být s to okamžitě a přesně porozumět.
Možnosti konverzační telematiky a s tím souvisejícího rozhraní (Conversational
Interface for Telematics, CIT) určitě představují budoucnost celého oboru
rozpoznávání řeči a dokumentují, jakou cestu urazil celý obor od prvotního a
přece v čase poměrně nedávného nasazení v situacích jednoznačně definovaných
kontextem (pouze rozeznávání odpovědi ano/ne) a slovníkem směrem k otevřenému a
přirozenému jazyku. Díky stupňující se komplexitě databáze je přístroj schopen
komunikovat s člověkem v některých situacích ne snad přímo jako partner, ale
minimálně jako ochotný pomocník. Nejnovější aplikace mohou využít i znalosti
hlasu "svého pána". To lze zajistit tím, že aplikace
je vybavena rozpoznávačem řečníka. Aplikace pak může automaticky nastavit
parametry, jako například oblíbenou rozhlasovou stanici, pozice sedadla či úhly
zrcátek.

Čeština? Proč ne!
Kdy s námi naše auta, ledničky, pračky a další spotřebiče budou běžně
komunikovat v češtině? Jako obvykle, odpověď na tuto otázku souvisí s
komerčními záležitostmi. O češtině se uvažuje, tak jako o mnohých dalších
jazycích našeho regionu. Z hlediska výzkumného pracovníka lze říci, že
problematika lokalizace těchto jazyků je vyřešena čili umíme i tyto specifické
jazyky rozpoznat. Většina systémů funguje v rámci telefonních aplikací a můžete
se s nimi setkat v některých komerčních provozech. Další specifické formy
nasazení pokračují ve vývoji. Hledisko, jak velký trh může daná aplikace v
určitém jazyce pokrýt, je prvotní. Například ve společnosti IBM je nabízíme po
celém světě a samozřejmě podporujeme všechny hlavní světové jazyky, jako jsou
americká a britská angličtina, němčina, španělština, italština, francouzština,
japonština, čínština.









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.