Skutečně rozumíte

Poměrně často přicházejí vědci s tím, že technologie pro automatické rozpoznávání hlasu je už konečně tady, av...


Poměrně často přicházejí vědci s tím, že technologie pro automatické
rozpoznávání hlasu je už konečně tady, avšak zdá se, že doposud šlo vždy jen o
planý poplach.

IVR
V posledních dvou desetiletích byly systémy s automatickými hlasovými výzvami a
tónovou volbou využívány firmami pro nejrůznější samoobslužné služby. V
současnosti řada firem investuje s cílem překonat omezení tónové volby do
novějších a technicky vyspělejších dvoucestných systémů IVR (Interactive Voice
Response).
Výzkumná agentura Datamonitor tvrdí, že v příštích pěti letech dojde k
masivnímu rozšíření IVR v podnicích a že se zároveň zvětší složitost a zvýší
vyspělost aplikací pro rozpoznávání hlasu.
Daniel Hong, analytik firmy Datamonitor, tvrdí: "V příštích pěti letech bude
trh svědkem několika velkých implementací hlasové autentizace. Proběhnou v
segmentu finančních služeb, a stane se tak díky stále vzrůstající potřebě
zabezpečení a rozšiřování aplikací typu znovunastavení PIN, uživatelského jména
nebo hesla.
Jednou z firem, která takovouto aplikaci nabízí již dnes, je Nuance
Communications. Jak systém od Nuance funguje? Volající během krátké chvilky
vytvoří parametricky definovatelný "záznam" svého hlasu čili dojde k vytvoření
hlasového "otisku". Když pak zákazník později zavolá, je jeho hlas porovnán s
uloženým otiskem. Pokud systém shledá aktuální hlasový vstup jako odpovídající
uloženému kontrolnímu vzorku, potom volající získá příslušná oprávnění.

Syntézou k přesnosti
V příštích pěti letech dojde také k těsnějšímu propojení mezi systémy pro
rozpoznávání řeči a hlasovými aplikacemi, které v současnosti představují spíše
samostatnou skupinu programů, prorokuje Jim Blake z firmy Lumen Vox.
Díky tomu se zlepší přesnost systémů pro rozpoznávání řeči. V případě, kdy bude
aplikace z hlasového vstupu zmatena, zapojí pro vyřešení problému nejprve
informace z databází, na které je napojena.
Například pokud systém rozpoznávání řeči v aplikaci pro rezervaci letenek
porozumí výchozím a cílovým destinacím vysloveným uživatelem, ale již
neporozumí číslu letu, může požádat aplikaci o seznam možností přicházejících v
úvahu. "To vše v rámci jedné interakce," podotýká Blake. "Jestliže není nějaká
část řeči správně rozpoznána, musí být volající obvykle požádán o
znovuvyslovení chybějící informace. Ale v našem příkladu je systém rozpoznávání
chytřejší díky tomu, že spolupracuje s aplikací."

Skutečná konverzace
Mimo to budou tyto aplikace schopny zpracovávat požadavky uživatelů podstatně
lidštějším způsobem, prohlašuje Peter Mahoney, viceprezident firmy ScanSoft,
která dodává hlasový software.
"Pokud v současnosti mluvíte s automatickým systémem a chcete provést rezervaci
letenky, musíte systému říct přesně to, co systém čeká, a tak, jak to systém
vyžaduje.", popisuje Mahoney. Aplikace se vás tedy zeptá kdy, odkud a kam
poletíte.
To se však dle Mahoneyho má v blízké budoucnosti změnit. Připravovaný systém se
vás zeptá: "Sdělte mi prosím údaje o své cestě." Vy mu odpovíte třeba: "Chtěl
bych letět z Bostonu do New Yorku příští čtvrtek... a poletí se mnou další dva
lidé." Inteligentní systém by měl být schopný toto zvukové sdělení zanalyzovat,
dostatečně přesně a adekvátně vyhodnotit jeho význam a případně položit
doplňující otázky.
"Většina dnešních hlasových aplikací není vůbec schopna zvládnout konverzaci,
která se odchýlí od velmi pevně určeného průběhu hovoru, což znamená, že pokud
se volající nedrží přesně daného modelu hlasové výměny - a statistiky
dokládají, že se tak děje často - výkon aplikace i dojem volajícího v mnohém
trpí," pokračuje Mahoney. "Díky vytvoření a implementaci výrazně pružnějšího
modelu řízení dialogu zvládnou hlasové systémy příští generace mnohem více
volajících, kteří budou moci komunikovat s aplikací efektivnějším a
přirozenějším způsobem."

Aktualizace
Jednou z věcí, která se ve světě rozpoznávání hlasu během příštích několika let
drasticky změní, bude to, že dodavatelé poskytnou zákazníkům nástroje pro
snadnou aktualizaci jejich hlasových aplikací, říká Azita Martinová,
viceprezidentka pro marketing společnosti TuVox, která vyvíjí a dodává
podnikové hlasové aplikace.
"V současnosti je velmi těžké podobné aplikace měnit," vysvětluje. "Pokaždé,
když chce firma provést nějaký zasáh do své hlasové aplikace, tak se musí
obrátit na jejího dodavatele. A to je velmi drahé." Martinová tvrdí, že
dodavatelé brzy nabídnou nástroje s výkonným grafickým rozhraním, pomocí
kterého budou firmy své hlasové aplikace aktualizovat stejně, jako to dělají v
případě webových serverů.

Emocionální výstupy
Jinou oblast vývoje, v níž se angažují především výzkumníci z firmy IBM,
představuje tvorba softwaru, který bude rozpoznávat emoce, jež zaznívají v
hlasu.
"Pracujeme na tom, aby řeč byla výmluvná, což znamená, že s pomocí systémů IVR
vytvoříme takový hlasový výstup, který bude odpovídat náladě mluvčího,"
vysvětluje David Nahamoo, manažer technologií přirozeného jazyka v IBM
Research. "Sděluje daná osoba dobrou, špatnou, nebo smutnou zprávu? Je mluvčí
rozčilený?"
"IBM rovněž připravuje systém rozpoznávání hlasu, který bude schopen rozeznat
různé přízvuky a dialekty," pokračuje David Nahamoo a dodává:
"Musíme stále zlepšovat kvalitu všech těchto systémů, abychom byli schopni
uspokojit rostoucí požadavky zákazníků v této oblasti".

Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.