Spletité cesty vývoje

Zajímavým pokusem, jak se posunout o krok vpřed v oblasti rozpoznávání řeči je technologie nedávno představená věd...


Zajímavým pokusem, jak se posunout o krok vpřed v oblasti rozpoznávání řeči je
technologie nedávno představená vědci z Hongkongu. Hlavním přínosem při využití
jejich systému by měla být především podstatně nižší spotřeba energie, bez
zajímavosti ale není ani odolnost a spolehlivější funkce v hlučném prostředí.
Technologie označovaná jako ASSF (Auditory Spectrum-based Speech Feature) by
měla být komerčně využívána v horizontu 3-5 let. Vzhledem k nižší spotřebě by
mohla být ideálním řešením pro mobilní telefony a PDA umožňující prohlížení
Webu.
Na rozdíl od dnes běžné technologie MFCC (Mel Function Cochlear Coefficient)
používá méně parametrů pro interpretaci tvaru křivky hlasu uživatele. Namísto
filtrování zvukových dat pomocí komplexních algoritmů používá ASSF podstatně
jednodušší "rozhodovací pravidla". Zpracování pomocí rozhodovacích pravidel
může probíhat přímo v paměti (např. RAM v případě PC) a technologie je mnohem
méně náročná na výkon procesoru.
Nic se však neobejde zcela bez problémů. ASSF nedosahuje při minimálních
rušivých vlivech okolí tak dobrých výsledků (co do přesnosti) jako běžná MFCC.
Naproti tomu v hlučném prostředí se technologie ASSF projevila jako
spolehlivější. Přesto však bylo v podmínkách maximální úrovně hlučnosti (při
které je ještě hlasová komunikace možná) dosaženo 70% podílu chybných
zpracování. Hongkongští vědci rovněž nastínili další, nepříliš často jmenovanou
oblast využití, jíž jsou počítačové hry. Přitom to není oblast nezajímavá stačí
když si uvědomíme, že herní průmysl patří k tahounům vývoje hardwarových
komponent PC. Hlasem ovládaná hra by měla rychle reagovat na hlasové příkazy
typu "Fire!", a to i v prostředí, které bývá obvykle podstatně hlučnější ve
srovnání s kanceláří.
1 0533 / wep

Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.