Promluvte si občas vážně se svým počítačem

Je absurdní, že článek o rozpoznávání mluvené řeči a diktování hlasem do počítače se rodí pomocí klávesnice....


Je absurdní, že článek o rozpoznávání mluvené řeči a diktování hlasem do
počítače se rodí pomocí klávesnice. Je to asi jako když kočí píše o výhodách
motoristického sportu. Taková je však realita. Software pro diktát hlasem v
češtině, alespoň oficiálně, zatím neexistuje.
Podle kuloárových zpráv se český software rodí, ale porodní bolesti jsou zřejmě
veliké. Touhle dobou měl totiž být dávno na světě. Pokud jde o software
anglický, měl jsem tu čest ho asi před půldruhým rokem několik dní zkoušet. Buď
však mám tak špatnou anglickou výslovnost nebo tak neskonale malou trpělivost v
učení počítače svému hlasu, že jsem se raději pokorně vrátil ke klávesnici. Tím
však vůbec nechci říct, že dnešní software pro rozpoznávání řeči nemá
budoucnost. Zvláště poslední programy pracující se spojitou řečí jsou mnohem
spolehlivější. Konečně, posuďte sami!
Od klávesnice k mluvené řeči
Po dlouhou dobu komunikoval operátor s počítačem pomocí příkazového řádku, tedy
prostřednictvím alfanumerických znaků. To je způsob jednoduchý, spolehlivý, ale
ne moc rychlý. Je mnohem pomalejší psát každé písmenko, každé slovo, které
chceme říci, než tato slova vyslovit nahlas. Mimo to tím, že odstraníme nutnost
psaní textů, zprostředkujeme přístup k počítačům nepíšícím, včetně dětí a
postižených jedinců, a u mnohých tím předejdeme opakovanému stresu z omezené
možnosti komunikace.
Už během 80. a počátkem 90. let proto na problémech spojených s vyhodnocováním
řeči intenzivně pracovalo několik firem. Byly to především některé japonské
společnosti, dále IBM, ale také např. firmy Kurzweil a Dragon Systems.
Ty všechny už počátkem tohoto desetiletí měly k dispozici systémy schopné bez
předchozího učení rozeznat několik tisíc izolovaných slov. Používaly se v
lékařství a jako pomůcka pro hlasově postižené. Stále však přetrvávaly potíže,
a to nejen s řečí vázanou, tedy plynulou, ale i s řadou přeřeknutí a zakoktání,
s různými nepravidelnostmi a odchylkami, které naše ucho ani nevnímá, ale které
byly pro počítač nepřekonatelnou překážkou.
Vývoj šel však nezadržitelně dál. Například Voice System firmy Verbex už v roce
1992 dovedl rozpoznat plynulý tok řeči mluvčího, na něhož byl natrénován, ovšem
při značně omezené slovní zásobě.
Počátkem 90. let se zdálo, že doba, kdy budeme s počítači mluvit, je vzdálena
maximálně pět let. Trvalo to však přece jen o něco déle. První opravdu komerčně
použitelné systémy pro rozpoznávání plynulé řeči vstoupily na trh až v poslední
době.
Náhrada klávesnice ano či ne?
Nad technologií rozpoznává-ní řeči však každý nejásá. Budete-li diktovat text
svému počítači, změní se charakter vaší práce. Diktát vás nutí více se
soustředit a formulovat své myšlenky precizněji, ale také rychleji, zatímco nad
klávesnicí, zvláště píšete-li jen dvěma prsty, je tok vašich myšlenek mnohem
pozvolnější. Je to obdobný rozdíl jako mezi horskou bystřinou a řekou poklidně
meandrující kdesi v nížině.
Navíc diktovat počítači nemůžete hned. Musí poznat váš hlas. Musí se naučit mu
porozumět. Každému uživateli se to nepodaří hned napoprvé. Někoho tento proces
dokonce odradí.
Řeč spojitá a nespojitá
Stav vývoje v systémech pro rozpoznání řeči s velkou slovní zásobou byl až
donedávna stále omezen na nespojitou řeč. Systémy po vás chtěly, abyste dělali
mezi slovy pomlku. Na rozdíl od nich jsou nové aplikace pro rozpoznání spojité
řečí více fluidní, vyžadují však větší výkon počítače.
Na cestě od rozpoznávání nespojité řeči k rozpoznávání jejího plynulého toku
byl až dosud jednou z největších překážek nedostatečně výkonný hardware. Dnes
už je konečně všechno jinak. A další ještě lepší možnosti se teprve objevují.
Intel představil v prvním čtvrtletí tohoto roku novou generaci procesorů
Katmai, které dále rozvíjejí technologii MMX. Mezi nejdůležitější novinky
procesoru patří i nová architektura memory-streaming, která má urychlit
zpracování zvuku a v závislosti na kódu užívaném vývojáři řečového softwaru tím
zvýšit výkon vyhledávacích algoritmů. Výsledkem v oblasti rozpoznávání spojité
řeči bude redukovaná chybovost a zkrácený čas odezvy.
Díky stoupající kvalitě hardwaru nyní i kvalita softwaru pro rozpoznávání řeči
konečně dosáhla stadia, kdy můžeme aplikací pro rozpoznávání řeči použít pro
zvýšení produktivity práce zaměstnanců v mnoha oborech lidské činnosti.
Software pro rozpoznání spojité řeči je už od loňska k mání a lze ho používat
na novějších stolních počítačích. Dovoluje vám plynule mluvit a opravdu
většinou píše, co říkáte, nebo vykonává vaše hlasové příkazy, které byste
normálně museli psát nebo použít myši.
K čemu nový software?
Představujme si chvíli, k čemu by nám nový software mohl být dobrý.
Můžeme hlasitě promýšlet, co chceme říct ve sdělení nebo e-mailu. Myšlenky,
které verbalizujeme, jsou zapsány do dokumentu, který okamžitě vidíme na
monitoru. Nemusíme se koncentrovat na to, kde je která klávesa a jak se které
slovo píše.
Zbavíme se práce s diktafonem a jinými nepohodlnými záznamovými zařízeními,
čímž ušetříme spoustu času. Nyní můžeme diktovat svá sdělení přímo do dokumentu
a dát jej sekretářce pouze ke kontrole a opravě případných chyb.
Můžeme užívat i hlasový vstup pro řízení programů. Nyní už lze surfovat v síti
bez dotyku klávesnice tím, že dáváme hlasem myši povely jako např.: "myš
nahoru", "myš kliknout" atd. Obdobně můžeme editovat dokument ve Wordu
vyslovením editačních příkazů k nalezení, výběru, nahrazení nebo formátování
textu.
A je tu další výhoda. Dlouhý dokument nebo e-mail nám může počítač nahlas
přečíst (buď mužským, nebo ženským "počítačovým" hlasem), takže mezitím můžeme
dělat jinou práci. Software Voice Pilot nám dokonce umožní mluvit anglicky a
sledovat na obrazovce objevující se text ve španělštině.
Ošidnosti nového softwaru
Je tu ovšem několik potenciálních nástrah. Všechny produkty pro rozpoznávání
spojité řeči vyžadují počítač osazený nejméně Pentiem 133 MHz (nebo rychlejším
procesorem), s Windows 95, přinejmenším 32 MB RAM (více je lépe) a zvukovou
kartu SoundBlaster nebo jinou s ní kompatibilní. Potřebný je i mikrofon, který
je však většinou součástí softwaru.
Každý produkt vyžaduje nejméně jedno úvodní sezení, během něhož přečtete do
mikrofonu několik předepsaných textů, aby se počítač naučil rozpoznávat váš
hlas. V souvislosti s tím je nutno si uvědomit, že žádný z produktů není 100%
přesný ty nejlepší mají přesnost okolo 95 %. Všechny tedy během diktátu nebo po
něm vyžadují určitou editaci vzniklého textu. Kromě oprav chyb musíte doplnit
interpunkci a formátovat text do odstavců, sloupců atd. To všechno však můžete
většinou také dělat pomocí povelů vydávaných vaším hlasem.
I když vstup z klávesnice je nahrazen hlasovým, musíte stejně jako dříve vědět,
jak užívat textový editor nebo jiný program do něhož diktujete. Software nemůže
pracovat v prostředích, která mají značný hluk pozadí.
Enginy pro rozpoznávání řeči aneb jak to funguje?
Software pro rozpoznávání řeči dovolí vašemu počítači získat z vašeho hlasu
informaci stejně, jako to činí z klávesnice a myši. Je to jakási třetí vstupní
brána. A užitečná. Mnoho lidí se totiž nikdy nenaučilo pořádně psát na
klávesnici, a protože mluvení je člověku přece jen bližší, je hlasový vstup
podstatná výhoda pro ty, kdo chtějí bez problémů využívat svůj počítač.
Základem řečového softwaru je stejně jako u jakéhokoliv jiného druhu softwaru
jakýsi hnací motor, engine. Existují různé druhy hlasových nebo řečových
enginů, které zpracovávají zvuky vašeho hlasu a přidělují jim odpovídající
slova.
A jak to funguje? Mluvíme do mikrofonu spojeného s počítačem. Čip na zvukové
kartě pak sejme zvuk hlasu, který je dále zpracován již zmíněným enginem pro
rozpoznávání řeči. Každá osoba, která program používá, má svůj vlastní,
jedinečný hlasový profil, který je odlišný od jiných. Je to něco jako otisky
prstů.
Když software začínáme používat, vytvoří počítač náš hlasový profil. Dále se
pak počítač učí stále blíže poznávat náš hlas, vždy když software používáme.
Stejně jako malé dítě se bude učit slova, která říkáme a když slovo špatně
pochopí, musíme ho hned opravit. Většina programů je vybavena režimem "zápis",
během jehož aktivace přečteme určitý seznam jednotlivých slov nebo vět do
mikrofonu. Tím počítač získá základní vzorek toho, jak vytváříme zvuky. Z něho
"hádá" jiná slova, která říkáme. Procento úspěšnosti závisí na rychlosti
počítače a na tom, jak často software používáme. Není nic neobvyklého dosahovat
při převodu mluveného slova na psaný text s některými enginy přesnost 95 %.
V závislosti na kvalitách používaného počítače můžeme použít verze softwaru pro
nepřetržitou řeč (s normální rychlostí řeči mluvčího) či diskrétní řeč (kdy je
třeba dělat nepatrné odmlky mezi jednotlivými slovy). Nepřetržitá řeč je sice
člověku bližší, ale vyžaduje výkonnější počítač pro zpracování informací. Ten
musí mít například dostatečně velkou paměť RAM (velikost RAM rozhoduje, do jaké
míry může počítač analyzovat zvuky, aniž by musel okamžitě využít "knihovnu" na
pevném disku). Už 32 MB RAM velmi zlepší výkon programu pro rozpoznávání řeči a
konečně i všech dalších programů v počítači. Některé hlasové programy běží i s
menší velikostí paměti RAM.
Přehled dostupného softwaru
Jak už jsme se zmínili, v podstatě existují dva druhy softwaru pro rozpoznávání
řeči software pro nespojitou řeč a software pro spojitou, nepřetržitou řeč.
Podívejme se na dostupné populární programy v obou těchto kategoriích.
V oblasti nespojité řeči nabízí firma Dragon System produkt Dragon Dictate 3.0,
firma IBM produkt Simply Speaking Gold, firma Kurzweil produkty VoicePro a
Voice Plus 2.5 a konečně firma Voice Pilot Technologies produkt Voice Pilot 3.5.
V oblasti spojité řeči je na trhu produkt NaturalySpeaking 2.02 ve verzích
Personal, Preffered a Deluxe od firmy Dragon Systems, ViaVoice Gold od firmy
IBM a Free Speech 98 od firmy Philips. Zatímco právě Philips programově nemá ve
svém výrobním programu žádný produkt pro rozpoznávání nespojité řeči, firmy
Kurzweil a Voice Pilot Technologies nenabízejí produkty rozpoznávající spojitou
řeč.
Kdy který software používat?
Asi se budete chtít při diktátu počítači vyhnout verzím vyžadující diktování po
slovech, protože není příjemné říkat každé slovo samostatně, tedy s odmlkou
mezi slovy. Tento software nás omezuje na 90-100 slov za minutu a nutí nás ke
koncentraci na to, jak mluvíme. Verze pro nespojitou řeč však mohou být velmi
užitečné pro krátký diktát (jako jsou krátké e-mailové zprávy) nebo pro lidi,
kteří hlavně editují existující dokumenty. Také jsou vhodné pro ty, kteří se
chtějí vyhnout užívání klávesnice a myši, a přitom provozovat programy pod
Windows tedy pohybovat se v programu, simulovat pohyb a kliknutí myši a
přepínat mezi aktivními okny programů, a to všechno hlasem.
Verze se spojitou řečí by měly počítat s přirozenou rychlostí mluvčího, která
se blíží 160 slovům za minutu. Dva doposud nejznámější a nejrozšířenější balíky
softwaru pro rozpoznávání spojité řeči, které najdete na trhu jsou produkty
NaturallySpeaking firmy Dragon Systems a ViaVoice firmy IBM. Oba mají schopnost
rozpoznat nepřetržitou řeč, takže uživatelé mohou mluvit svou normální
rychlostí bez vkládání odmlk mezi slovy. Oba se honosí více než 90procentní
správností, rychlost psaní se zvýšila asi na 150 slov za minutu, oba dovolí
uživatelům přidat slova k základním slovníkům programu. Oba balíky ale také
vyžadují 20-40 minut tréninku, aby se software seznámil s hlasem mluvčího.
Mezi programy NaturallySpeaking a ViaVoice je několik klíčových rozdílů.
ViaVoice dovolí uživatelům diktovat přímo do Microsoft Wordu, zatímco
NaturallySpeaking nabízí vlastní textový editor. Uživatelé softwaru
NaturallySpeaking mohou redigovat během diktátu, zatímco uživatelé ViaVoice
musí v případě oprav používat stejně jako dřív klávesnici a myš.
Někteří recenzenti preferují 100 % "hands-free" NaturallySpeaking, ale jestliže
jste skalní uživatelé Wordu a nevadí vám ruční editace, může být právě ViaVoice
produktem pro vás. Díky partnerství firem Dragon Systems a Corel bude brzy
možné diktovat prostřednictvím softwaru NaturallySpeaking do WordPerfectu.
Software NaturallySpeaking je dostupný v americké angličtině, britské
angličtině, francouzštině, němčině, italštině a španělštině. ViaVoice je k mání
v americké angličtině, britské angličtině, francouzštině, němčině, italštině,
španělštině, a čínštině.
Říká se, že když se dva perou, třetí se směje. Teprve nedávno se na trhu
objevil software od dalšího renomovaného výrobce. Je jím Free Speech 98 firmy
Philips. Je bezkonkurenčně nejlevnější, opravdový poměr mezi cenou a užitnou
hodnotou produktu však prozradí až následující měsíce.
Výhledy do budoucna
Je jasné, že před softwarem pro rozpoznávání řeči, především té spojité, je
ještě dlouhá cesta, ať již jde o přesnost rozpoznávání či o způsob používání.
Ona deklarovaná 95% přesnost je sice na první pohled fascinující, ale výsledný
text se chybami stále jen hemží. Jen si představte, že z 1 800 znaků na
normované straně formátu A4 jich bude 90 špatně. S tím souvisí i druhý problém
naučit počítač porozumět vašemu hlasu je stále příliš složité.
Ale abychom nešířili jen pesimismus. Stále se rodí něco nového. Podívejme se
tedy na to, co se právě objevilo na trhu i na to, co se teprve chystá.
V letošním roce uvede například na trh firma 21st Century Eloquence svůj nový
produkt k rozpoznávání spojité řeči pro lékařskou komunitu Eloquently Stated.
Jedná se o první lékařskou databázi, do níž je začleněna i technologie
rozpoznávání řeči. Eloquently Stated doplňuje dosud chybějící článek v řečovém
softwaru pro profesionály lékaře, který umožňuje využít hlasu k řízení záznamů
o pacientech a vytvořit úplnou referenční zdrojovou databázi.
Software L&H Voice Xpress Professional firmy Lernout & Hauspies, o němž tu řeč
ještě nebyla vyhrál koncem loňského roku dvě ceny pro produkty PC na výstavě
Comdex; cenu Most Valuable Product pro nejužitečnější produkt a cenu
Breakthrough Award 98 pro produkt přinášející značný technologický pokrok.
Lernout & Hauspies nyní také uvolnil nový produkt Now Youre Talking Deluxe.
Jeho součástí je i Natural Language Understanding Technology, která vám umožní
ovládat MS Office 97/95 běžnou hovorovou řečí místo počítačového jazyka.
Ve světě PC je poměrně jasno a co Apple?
Hlavní společnosti, které se zabývají rozpoznáváním řeči tedy IBM, Dragon
Systems a Lernout & Hauspie, v Evropě pak ještě Philips jsou zainteresovány v
prudké bitvě o ovládnutí prostoru PC. Jiné je to ve světě počítačů Apple. Od
chvíle, kdy Dragon Systems opustil trh počítačů Mac, nikdo další o něj v
oblasti softwaru pro rozpoznávání řeči neprojevil vážný zájem.
Na trh rozpoznávání řeči však možná vstoupí sama firma Apple. Už nyní má k
dispozici PlainTalk, který umožňuje hlasovou navigaci v menu.
Kromě Applu je tu ještě firma Macspeech, společnost skládající se ze čtyř osob,
z nichž jednou je bývalý vývojář společnosti PowerSecretar. I ta zamýšlí
produkovat program pro rozpoznávání řeči pro platformu Mac.
9 0454 / ijan

Produkty ViaVoice firmy IBM
Firma IBM představila v polovině minulého roku produkt ViaVoice 98, další
generaci nejlépe prodávaného softwaru pro rozpoznávání řeči. Aplikací mnoha
tisíců variant hlasových povelů dochází ke značnému pokroku v použitelnosti
softwaru. "Hands-free" editace a opravný režim je možný v řadě populárních
aplikací včetně Wordu 97 a Lotus Word Pro.
ViaVoice 98 Speech Family sestává ze tří produktů:
ViaVoice 98 Executive Edition je nejvýkonější software IBM pro rozpoznávání
nepřetržité řeči a může být velmi produktivním nástrojem pro spisovatele,
manažery či zkušené uživatele PC. Nabízí přímý diktát do většiny populárních
windowsovských aplikací, hlasové řízení programů a dále zahrnuje moduly
ViaVoice Computer a ViaVoice Business & Finance, které doplňují základní
slovník.
ViaVoice 98 Office Edition umožňuje nepřerušovaný diktát a je navržen tak, aby
pomohl maximalizovat efektivitu kanceláře nebo domácí kanceláře. Uživatelé
mohou doplnit svůj slovník o modul ViaVoice Business & Finance Topic.
ViaVoice 98 Home Edition je základní produkt IBM pro diktát spojitou řečí a je
ideální k vytváření dopisů, zpráv nebo e-mailů pro rodinu. ViaVoice 98 Home
Edition zahrnuje modul ViaVoice Cuisine Topic, který dovolí uživateli použít
svůj hlas k zápisu vlastních receptů nebo si sestavit vlastní rodinnou kuchařku.

Pro a proti sotwaru pro rozpoznávání spojité řeči
Podívejme se nyní stručně na hlavní klady a zápory produktů pro rozpoznávání
spojité řeči, které nabízejí firmy Dragon Systems, IBM a Philips. Je paradoxem,
že programátoři mohou očekávat od těchto produktů jen málo, protože většina
toho, co píší, není angličtina. Jejich šance je snad jedině v tom, že použijí
verze, které mají schopnost vytvářet makra, kde jedno slovo je převedeno do
řady stisků kláves.
Dragon Systems Personal Edition
Klady: Přesnost produktu je 95%, zpracuje 160 slov za minutu. Aktivní slovník
obsahuje 30 000 slov, v záložním slovníku najdete dalších 230 000 slov.
Zápory: Musíte diktovat do odděleného okna programu a text převádět do vašeho
textového editora nebo e-mailu. Produkt není vybaven hlasovou navigací. Napsaný
text nedovede počítač přečíst hlasem.
Dragon Systems Preferred Edition
Klady: Nejrychlejší produkt se stejnou přesností jako má produkt předešlý. Je
možné diktovat do některých programů pracujících pod Windows. Vyžaduje počítač
s Pentiem 133 a 32 MB RAM. Dobře spolupracuje s Wordem. Dovede nahlas přečíst
text. Možná je hlasová oprava chyb.
Zápory: Nezahrnuje hlasovou navigaci, ta se však dá za 90 dolarů přikoupit.
Dragon Systems Deluxe Edition
Klady: Základní vlastnosti stejné jako u předchozího produktu, je tu však
možnost vytváření maker. Aktivní slovník nabízí 55 000 slov. Diktovat je možno
přímo do některých programů pracujících pod Windows. Zahrnuje též Dragon
Dictate pro hlasovou navigaci v programech.
Zápory: Chcete-li užít oba produkty společně, musíte mít počítač s rychlejším
Pentiem a 48 MB RAM.
Komentář: Pro diktát do e-mailu, dokumentů atd. doporučujeme produkt Preferred
Edition. Pro základní editaci dokumentů vystačíme s verzí Dictate, která za
méně peněz zastane poměrně dost práce.
IBM ViaVoice Gold
Klady: Obsahuje jak možnost diktátu, tak i hlasové navigace programů. Diktovat
lze přímo do některých programů pracujících pod Windows. Zpracuje 125-140 slov
za minutu. Základní slovník obsahuje 260 000 slov. Umožňuje číst text
počítačem. Součástí je i mikrofon Andrea NC-50u, který nepotřebuje baterie.
Zápory: Vyžaduje minimálně Pentium 150 MMX a 48 MB RAM. Je pomalejší než
produkty firmy Dragon. Editace je méně pohodlná než u jiných produktů. V
aktivním slovníku může být maximálně 42 000 slov. Není možná oprava hlasem
chcete--li opravit chyby, musíte použít klávesnici.
Phillips FreeSpeech 98
Klady: Obsahuje jak diktát, tak i hlasovou navigaci programů. Spolupracuje s
většinou programů pracujících pod Windows (včetně Wordu). V aktivním slovníku
může být 64 000 slov. Základní slovník obsahuje 270 000 slov.
Zápory: Vyžaduje počítač s Pentiem 166 a 32 MB RAM. Nezahrnuje mikrofon pro
diktát.
Komentář: FreeSpeech98 byl na trh uveden jako poslední, zatím nejsou k
dispozici téměř žádné výsledky testů.

FreeSpeech 98 firmy Philips
FreeSpeech 98 (v.2) je program pro rozpoznávání řeči, který využívá možnosti
on-line rozpoznávání spojité řeči pro diktát dokumentů spojený s výhodami
aplikace pracující pod Windows. Můžeme s ním vytvářet, redigovat nebo
formátovat dokumenty a převzít řízení windowsovského prostředí, udělujeme-li
počítači pokyny hlasem. Podporuje programy pracující pod Windows, Office 95 a
Office 97 stejně jako mnoho jiných populárních aplikací pro PC.
FreeSpeech 98 (v.2) přichází s úplným a uživatelsky přizpůsobitelným
kontextovým slovníkem. Dává k dispozici nejméně 30 000 slov včetně nejvíce
používaných termínů, výrazů a jmen a může být snadno rozšířen až do maximální
velikosti 64 000 slov. Důležitou předností FreeSpeech 98 je jeho schopnost učit
se, což přináší rychlejší a mnohem přesnější rozpoznávání řeči uživatele.
Vestavěné "ladění" nám umožní analyzovat už existující dokumenty na PC a
vyhledat slova, která chceme přidat ke slovníku. Patentovaná technologie
diktátu nám dovolí snadno a rychle kontrolovat vznikající text.

Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.