Transakce s rozpoznáním řeči

Klíčovou roli hraje systém pro řízení dialogu. Technologie automatického rozpoznávání mluvené řeči postupně přec...


Klíčovou roli hraje systém pro řízení dialogu.
Technologie automatického rozpoznávání mluvené řeči postupně přecházejí z fáze
vývoje k aplikacím použitelným v praxi. Co vlastně dnešní systémy z oblasti
zvané Voice Recognition dokáží? Umějí od sebe odlišit několik povelů, nebo
správně pochopí i plynulý tok řeči? Pracují spolehlivě i v hlučném prostředí?
Dokáží se učit? Jsou dost spolehlivé pro běh kritických aplikací? A nakonec
máme šanci narazit také na systémy, které rozumějí česky?
Na naše otázky odpovídá Jan Šedivý, manažer divize Voice Technologies and
Systems IBM ČR.

Slouží dnes technologie rozpoznávání řeči k odlišení několika předdefinovaných
příkazů, nebo dokážete zachytit i tok "přirozeného" jazyka?
V první řadě pokládám za užitečné rozdělit současnou technologii rozpoznávání
řeči do dvou základních kategorií: obsluha systémů prostřednictvím mluvených
povelů (Command Control) a záznam řeči (Dictation).
V případě aplikací z první skupiny jde často jen o několik základních příkazů
např. pro obsluhu topení nebo vyladění autorádia. Totéž platí pro ovládání
mobilních telefonů v hands-free sadách nebo třeba i pro obsluhu domácích
elektrospotřebičů. Protože řeč je pro člověka nejpřirozenějším komunikačním
prostředkem, také volby realizované dnes tlačítky na telefonech jsou stále
častěji nahrazovány aplikacemi rozpoznávajícími přímo hlas.
Do druhého typu aplikací spadá rozpoznávání řeči a její převod do psané podoby
bez vazby na nějakou další konkrétní aplikaci. Při "diktování" se vlastně jedná
o určitou analogii OCR. Společnost IBM dodává tuto technologii např. ve spojení
s digitálními diktafony firmy Olympus. Záznamový systém musí samozřejmě rozumět
co největšímu počtu slov, a tedy mj. využívat velký slovník.
Nejvyšším typem aplikací rozpoznávání řeči je porozumění přirozenému jazyku
(NLU Natural Language Understanding). Uživatel v tomto případě konverzuje se
systémem zcela přirozeně tak, jako komunikuje s ostatními lidmi. Řízení
obstarává tzv. dialog manager, tedy program, který se inteligentně vyptává,
dokud není schopen uživateli zodpovědět původní problém. V podobných aplikací
je pochopitelně kladen důraz na vysokou kvalitu rozpoznávání.

Můžete uvést příklad aplikace NLU?
Může se kupříkladu jednat o nějaký telefonní rezervační systém. Pokud na něj
uživatel mluví přirozeným jazykem (tzn. předpokládáme, že při komunikaci se
současnými systémy jejich uživatel hovoří "uvolněně", nekontroluje se stále s
ohledem na to, aby mu počítač porozuměl), systém musí dokázat odlišit, kde se
ukrývá jádro sdělení. Například z věty "Chci na zítřek rezervovat letenku z New
Yorku do Miami" musí systém odfiltrovat balast a relevantní informaci převést
do databázového dotazu.
Asi si dovedete představit, že při tom může dojít k velkému množství odchylek
od "ideálního" průběhu komunikace. Při návrhu aplikace je s nimi třeba počítat,
systém musí adekvátně reagovat upřesňujícími a ověřujícími dotazy. Jádrem NLU
aplikace není vlastní rozpoznávání řeči, ale spíše nadstavba správná tvorba
vhodných a výstižných dialogů (výše zmíněný "dialog manager"). Když si
uvědomíte, co všechno se může stát i při té zdánlivě banální rezervaci letenky
(uvažte, že v angličtině existuje třeba řada slov se stejnou výslovností, ale
odlišným významem), je jasné, že se jedná o aplikaci dosti složitou.
Vývoj systému z oblasti NLU je dnes ještě relativně drahý, a proto se s nimi
zatím setkáváme jen zřídka. Náklady by ale časem měly klesat. Nakonec bude
levnější použít v call centru nějaký NLU systém, než přesouvat pracoviště na
místo s levnou pracovní silou.

Jak se dnes systémy pro rozpoznávání řeči dokáží vyrovnávat s rušením např. s
hlukem prostředí, s dalšími lidskými hlasy apod.?
Nejjednodušší a nejefektivnější je hluk prostředí vůbec nesnímat. K tomu nám
může významně pomoci mikrofon jeho kvalita a umístění jsou často rozhodující. V
hlučných prostředích dávají nejlepší výsledky náhlavní mikrofony. Jejich
zvláštní konstrukce založená na principu snímání rozdílů akustického tlaku
dovoluje šum na pozadí dobře potlačit. Problémy nastávají v situacích, kdy
nemůžeme po uživateli žádat, aby mluvil přímo do mikrofonu (např. řidič v autě).
V hlučných prostředích se setkáváme s dvěma typy hluku stacionárním a
proměnlivým. U stacionárního dopředu víme, jak rušení vypadá (např. hučení
motoru při rozpoznávání hovoru v autech), takže můžete systém na tento faktor
připravit a toto rušení minimalizovat.
Nejobtížnější je problém označovaný jako koktejlová party, kdy se má systém
zorientovat ve zmatku hlasů přicházejících s různou intenzitou z různých stran
a mezi nimi sledovat toho pravého člověka. V tomto případě je řešení obtížné.
Uvažte ale, s jakými potížemi se v tomto případě potýkají i samotní lidé...

Co se standardně stane, pokud systém, který disponuje pouze omezenou paletou
slov ve své databázi, narazí na výraz, který nezná?
Záleží na tom, jak je aplikace koncipována buď se bude tvářit, jako by se nic
nestalo (a při rozpoznávání delšího úseku řeči pak do textu třeba přidá určité
upozornění ve smyslu tří teček), nebo se prostě pokusí neznámé slovo
identifikovat jako "akusticky nejbližší známé slovo".
Samozřejmě, že na tomto principu můžete ovládat třeba autorádio, nikoliv už
brzdy.

Uvedený příklad s automobilem jakoby naznačoval, že pro skutečně kritické
aplikace není rozpoznávání řeči ještě dostatečně spolehlivé. Zmínil jste ale
objednávkový systém, tedy aplikaci, kde se již přesouvají reálné peníze. Jak je
to třeba s nasazením rozpoznávání řeči ve finančních službách?
Zde již systém pro rozpoznávání řeči skutečně funguje a v USA existují
aplikace, kde se na základě této technologie provádějí i převody akcií (s
automatickým centrálním systémem přitom investor komunikuje pouze telefonicky).
Což vlastně můžete, chcete-li, označit za kritickou aplikaci...

Na závěr, co naše mateřština? Můžeme se setkat s nějakou aplikací, která umí
rozpoznávat češtinu?
Jsou to prozatím spíše drobnosti. Existují jednodušší (a jednoúčelové)
aplikace, které např. po vyslovení jména určité ulice ukáží příslušné místo na
mapě. Interně jsme u nás v IBM ČR využívali systém pro vnitrofiremní telefonní
síť stačilo do telefonu pouze vyslovit jméno volaného. Tímto způsobem jsme
vlastně úplně odbourali otravné hledání v telefonních seznamech...

text ON-LINE
Kompletní text tohoto rozhovoru najdete na www.scienceworld.cz s datem 3. 10.
2003.









Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.