Rozpoznávání řeči - Promluvte si s PC

Software pro rozpoznávání řeči prochází rychlým vývojem, růst kvality doprovází stejně jako je tomu v mnoha dalš...


Software pro rozpoznávání řeči prochází rychlým vývojem, růst kvality doprovází
stejně jako je tomu v mnoha dalších oblastech IT pokles cen a objevují se stále
nové možnosti pro využití těchto systémů. Pod rozpoznáváním řeči rozumíme
technologii, která je schopna převést mluvené slovo do digitálního formátu
např. na alfanumerický text nebo řídicí příkazy, jimž počítač rozumí a mohou
jím být zpracovány. V minulosti s sebou tyto systémy přinášely množství
problémů a nepříliš vysokou spolehlivost či uživatelskou přívětivost (např.
nutnost zřetelně oddělovat jednotlivá slova mezerami, což není pro běžný
mluvený projev přirozené). Jejich ceny je spolu s velkými nároky na hardware o
mnoho přitažlivějšími také nečinily.
Rychlé počítače a výrazná zlepšení softwaru jsou dnes hlavními faktory, díky
nimž jsou nyní tyto technologie schopny přinést mnohem větší užitek. Dochází
rovněž k rozšíření jejich aplikací do mnoha různých oblastí jmenovat je třeba
zejména trh mobilních telefonů, biometrii, počítá se s jejich širokým
uplatněním v kapesních počítačích. Důležitou roli hraje i Internet populární
záležitostí se stává hlasem ovládané surfování na Webu či "psaní" e-mailů.
Počítat můžete se spolehlivostí a přesností pohybující se kolem 95 %.
Je třeba připomenout, že ani dnes se neobejdete bez rychlého CPU (nad 200 MHz)
a dostatečně velké operační paměti (64 MB je spíše nezbytné minimum). Kromě
toho je samozřejmě potřeba mít mikrofon a zvukovou kartu odpovídajících kvalit.

Funkce softwaru
Prvním článkem řetězce pro zpracování řeči počítačem je mikrofon, který ji
převádí na analogový signál. Ten je poté zpracován zvukovou kartou, přičemž
analogový signál je A/D převodníkem transformován na digitální. A zde už
přichází "ke slovu" samotný software.
Lze říci, že každá firma zabývající se vývojem systémů pro rozpoznávání řeči
používá svoji vlastní metodu zpracování mluveného slova, dá se však říci, že
základ či důležitou součást všech běžných produktů tvoří 2 hlavní komponenty
bývají označovány jako akustický model a jazykový model.
Akustický model analyzuje zvuková data a konvertuje řeč na fonémy (hlásky),
které jsou jejími základními elementy. Celý proces probíhá tak, že nejprve je
odstraněn šum a některé pro další zpracování nepotřebné informace např. změny
hlasitosti. Pak přicházejí na řadu matematické výpočty, které data zredukují na
spektrum frekvencí, jež jsou dále analyzovány a převedeny na digitální
reprezentaci fonémů.
Druhá důležitá komponenta softwaru pro rozpoznávání řeči, tj. jazykový model,
už analyzuje přímo samotný obsah takto zpracovaného záznamu. Porovnává
kombinace fonémů se slovy, která jsou obsažena ve slovníku systému to jest v
poměrně objemné databázi slov daného jazyka. Software navíc zkoumá, v jakém
kontextu je slovo použito (např. pomocí 2 předchozích slov), neboť mluvený
projev s sebou obvykle přináší různé komplikace, především v souvislosti s
totožnou výslovností slov různého významu.
Současné kvalitní systémy jsou navíc schopny se "učit" a přizpůsobovat
konkrétnímu uživateli přizpůsobují se vašemu akcentu, pamatují si některé
specifické vzorky řeči, nebo si vytváří pomocný slovník vámi často užívaných
slov.

Aby počítač slyšel
Nejvýznamnějšími výrobci softwaru pro rozpoznávání řeči v celosvětovém měřítku
jsou dnes firmy IBM, Philips a Lernout & Hauspie, která v minulém roce pohltila
svého konkurenta Dragon Systems. Podle údajů IDC činil tržní podíl Dragon
Systems v minulém roce (když byl ještě samostatnou firmou) přibližně 60 %,
druhé místo patřilo Lernout & Hauspie a IBM.
Základní verze softwaru jmenovaných firem lze pořídit už zhruba za 50 dolarů,
sofistikovanější verze (s rozsáhlejšími slovníky a lepší podporou aplikací) se
pohybují v cenových relacích 200-250 dolarů.
V úvodu už byly zmíněny poměrně vysoké hardwarové nároky dané značnou
komplexností těchto systémů. Většina z nich pracuje na počítačích s 200MHz
Pentiem, ale jestliže nejste nuceni šetřit, o 100 či více MHz rychlejší
procesor znamená poměrně dramatický růst rychlosti softwaru. Procesory Intel i
AMD vyráběné v současnosti však nicméně poskytují výkony, které podobné úvahy
činí prakticky zbytečnými. Kromě samotné rychlosti procesoru se navíc projeví i
vliv podporovaných multimediálních instrukcí. Podobně i v případě operační
paměti platí "čím více, tím lépe" doporučit lze přinejmenším 128 MB.
Nutno podotknout, že kvalita mikrofonu a zvukové karty mají vliv na přesnost
samotného rozpoznávání. Většina prodávaných balení systémů pro rozpoznávání
řeči obsahuje i mikrofon, často se však jedná o levné a nepříliš kvalitní
modely, proto můžeme doporučit (zejména pro náročnější aplikace) investici do
produktu osvědčené třetí strany. V širokém cenovém rozpětí 30-150 dolarů lze
pořídit mikrofon dostatečných kvalit. Dalším kritickým článkem je zvuková
karta, pro niž analogicky platí totéž, co bylo řečeno v předchozích odstavcích,
tj. rostoucí kvalita karty se přímo úměrně projeví při práci se softwarem.
Levné modely zkreslují signál a poskytují výstup nízké kvality (s vyšším
obsahem šumu). 16bitová zvuková karta odpovídá minimální konfiguraci, ovšem
lepší výrobek v ceně 100-150 dolarů zajisté přispěje k vyšší spokojenosti
uživatele. L&H Dragon pak např. prodává sadu obsahující mikrofon i digitální
signálový procesor, čímž se stává otázka kvality zvukové karty irelevantní. S
výhodou takové řešení použijete např. i ve spojení notebookem.

Možnosti využití
Začněme u pro běžného uživatele PC zřejmě základního způsobu využití. Většina
současných systémů umožňuje hlasové ovládání některých aplikací ve Windows
(které to jsou, záleží na konkrétním softwaru). Obvykle se tak děje tím
způsobem, že mluvená slova jsou konvertována na odpovídající text či na
příkazy, které jsou poté odesílány aplikaci. Word nebo Excel jsou ovládány
standardními příkazy a nezáleží na tom, zda jsou zadávány prostřednictvím
klávesnice nebo (zpracované) řeči. Většinou lze takto ovládat i internetový
browser. Takovému "hlasovému surfování" po Síti je mimochodem předpovídána
velmi vysoká popularita.
Jednou z důležitých aplikací je i samotný převod řeči na text. Mnohé z firem
působících na tomto poli nabízejí i přenosné digitální záznamníky, z nichž si
můžete své nahrávky stáhnout do počítače s pomocí softwaru jsou přímo převáděny
na textový dokument.
Pozornost ale můžeme zaměřit i jinými směry než k samotným PC. Masivní využití
systémů pro rozpoznávání řeči skýtá v nejbližší budoucnosti např. oblast
kapesních zařízení umožňujících přístup k Webu. Tyto přístroje nedisponují
standardní klávesnicí, proto je hlasové ovládání pro uživatele velmi praktické.
Zřejmě však zůstane vždy pouze u určité omezené skupiny specifických aplikací,
nebude se jednat o plně funkční systémy srovnatelné s těmi, které jsou
provozovány v PC.
Pokud jde ale o stolní počítače, zde je další výrazný technologický posun
očekáván až v horizontu následujících 3-5 let. Jde především o komerční
rozšíření technologií zpracování přirozeného jazyka a umělé inteligence.
Výsledkem této snahy bude podstatně vyšší spolehlivost a přesnost zpracování.
Systémy pro zpracování přirozeného jazyka potom budou každé slovo analyzovat
nikoliv v kontextu několika sousedních slov, ale v kontextu celé věty.
A co přinese umělá inteligence? Počítač už nebude jen zpracovávat to, co
řeknete. Pozná také, co tím myslíte, povede s vámi diskuzi a bude analyzovat
emocionální aspekty vašich slov. To je možná poněkud frustrující představa.

Zabezpečení vlastními slovy
Jednou z neopomenutelných oblastí využití systémů pro rozpoznávání řeči je
bezesporu biometrie. Jedná se o způsob zajištění bezpečnosti prostřednictvím
určitých tělesných znaků uživatele nejčastěji pomocí otisku prstu nebo mluveným
slovem.
V zásadě je princip všech systémů podobný a jde jen o to, jaký typ dat slouží k
autentifikaci uživatele otisky prstů jsou skenovány, zatímco zvuková data jsou
zaznamenána pomocí běžného mikrofonu. Tato data jsou ukládána do databáze
uživatelů, kteří mají umožněn přístup do počítače.
Výhodou u hlasového systému je, že mikrofony už bývají běžně zabudovány např. v
noteboocích (pro které je tento způsob zabezpečení dat poměrně vhodný). Naopak
snímač otisků prstu zatím zcela běžný není (mluvíme-li stále o noteboocích), je
tedy třeba použít externí. Po pořízení jsou data porovnávána se záznamy
uloženými v databázi.
Vždy existuje určité riziko, že systém uživatele prostě nepozná v případě
otisků může být důvodem např. mastný prst, u rozpoznávání řeči hlučnost okolí
apod. Procento neúspěšných autentifikací však bývá minimální. S ohledem na
fakt, že software pro rozpoznávání řeči je stále dokonalejší a má mnohem širší
možnosti dalšího využití, lze se domnívat, že právě tato forma se v budoucnu
stane hlavním směrem vývoje. Každopádně myšlenka spouštění počítače a
přihlašování se do systému několika slovy není k zahození.
1 0531 / wep

Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.