Jak rozpoznat obsah řeči

Cílem výzkumů v oblasti rozpoznávání přirozené lidské řeči je vyvinout systém nezávislý na řečníkovi a na pro...


Cílem výzkumů v oblasti rozpoznávání přirozené lidské řeči je vyvinout systém
nezávislý na řečníkovi a na prostředí, ve kterém hovoří. K tomu se používá
nejrůznějších metod, z nichž některé dokonce nemají nic polečného s tím, co je
zaznamenáno zvukově kromě zvuku se totiž k rozpoznávání řeči využívá i analýzy
pohybu rtů a gest. Analýza "zvukového projevu" řeči je ovšem stále základem.
Rozpoznávání řeči se provádí v několika fázích. Nejdříve je třeba zapsat průběh
mluvené řeči, ovšem nikoli v podobě zvukových vln, ale tak, aby bylo možné jej
dále exaktně zpracovat. Řeč se zpravidla rozkládá na fonémy (jednotlivé zvukové
prvky slov), které lze pomocí statistických metod porovnat s referenčními
vzorky. Stěžejním úkolem je zápis parametrů jednotlivých vzorků namluvené řeči
takovým způsobem, který je pokud možno co nejméně závislý na osobě řečníka.
V praxi pochopitelně velmi záleží na požadovaném praktickém využití podstatně
jednodušší je systém, kde je nutné rozpoznat 10 základních hlasových povelů,
než systém, který má převést libovolnou řeč mluvčího na psaný text. V prvním
případě lze totiž v nejjednodušším případě použít jen 10 referenčních vzorků
(pro každý povel jeden), zatímco ve druhém už je nezbytné každé slovo rozložit
na řadu krátkých úseků.
Zjišťujeme slova
V další fázi rozpoznávání řeči při vlastním určování vyřčených slov se
používají slovníky obsahující fonetický přepis desítek až stovek tisíc výrazů.
Dokonalý systém by však měl být schopen v rámci možností počítače provádět i
analýzu obsahu textu. Jinak je to podobné, jako když člověk nerozumí cizí řeči
pak totiž těžko rozliší ve větě dvě různá velmi podobně znějící slova s různým
významem.
K lepšímu zvládnutí analýzy řeči slouží řada výzkumných projektů k těm
nejzajímavějším patří ty, které se snaží porozumět procesu, díky kterému se
vlastně náš "tělesný aparát" uzpůsobený k mluvení a poslouchání adaptoval na
psaní a čtení. Stále také existuje snaha pokud možno co nejdetailněji popsat,
co vše je zdrojem zvuků, které jsou součástí lidské řeči. Nejde pochopitelně
jen o hlasivky, ale o poměrně komplexní systém chodeb včetně celého dýchacího
ústrojí. Výzkumy tohoto druhu se velmi dobře hodí i k právě opačné činnosti,
než je analýza řeči totiž k její syntéze.
Pro zlepšení rozpoznávání v rušném prostředí existují projekty na odečítání ze
rtů, o kterém jsme již v Computerworldu psali (č. 37/99), a systémy analýzy
lidských gest. Praktické využití výsledků těchto projektů je však zatím
pravděpodobně značně vzdáleno.
Výzkum a praxe
K zajímavým oblastem nasazení skutečně komplexních systémů rozpoznávání řeči
patří přepis a indexace obsahu rozhlasového a televizního vysílání. Tento úkol
je o to složitější, že vyžaduje i zpracování různých šumů a hluků, schopnost
poradit si s řadou druhů zkreslení a v neposlední řadě i s polohou mluvčího
vůči divákovi.
Zajímavé zdroje informací o projektech rozpoznávání řeči lze samozřejmě nalézt
na Internetu. V České republice stojí za pozornost např. stránky Fakulty
mechatroniky Technické univerzity v Liberci, kde se již poměrně dlouho zabývají
otázkami řečové komunikace s počítači. Výsledkem jejich práce je i řada
konkrétních aplikací, o nichž se více dočtete na adrese
http://itakura.kes.vslib.cz/ kes/splab.html. V zahraničí lze informace hledat
např. na stránkách Centre for Speech Technology Research na Edinburgské
univerzitě http://www.cstr.ed.ac.uk/, na Webu LIMSI CNRS (The Laboratory of
Computer Science for Mechanical and Eng. Sciences French National Scientific
Research Agency CNRS) http://www. limsi.fr/Recherche/TLP/PageTLP.
html nebo na stránkách Carnegie Mellon University http://www.
speech.cs.cmu.edu/speech/.
9 3223 / pen

Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.