Nové aplikace zvyšují význam počítačového rozpoznávání řeči

Společnosti, které si neuvědomují, že počítačem rozpoznávané mluvené slovo je strategickou technologií, se dopouš...


Společnosti, které si neuvědomují, že počítačem rozpoznávané mluvené slovo je
strategickou technologií, se dopouštějí stejné chyby jako společnosti, které
přede dvěma roky ignorovaly Internet. Podle průmyslového analytika Billa
Meisela však naštěstí stále roste počet velkých společností, které svým
zákazníkům produkty využívající technologie počítačově rozpoznávané řeči
nabízejí.
Pokud informační manažeři někdy váhali s využitím technologie "počítačového"
mluveného slova, bylo to pravděpodobně proto, že si představovali tu hrůzu,
kdyby měli vybavovat tisíce klientských stolních pracovišť drahými sluchátky,
tlumícími šum, a vysoce výkonnými PC. A výsledek by navíc nebyl v době nedávno
minulé nijak úchvatný.
Nyní však kvalita výstupu roste, a přestože tato technologie není kvůli své
ceně ještě vhodná pro běžná pracoviště uvnitř firem, podniky ji alespoň ve
vzrůstající míře užívají jako další možnost interaktivního kontaktu se
zákazníky, přičemž se jim často daří i snížit náklady procesu. Informační
manažeři tak využívají zrychlující se vývoj technologií od čipu Pentium III až
po sofistikované rozpoznávací stroje aby trumfli své konkurenty ve službě
zákazníkům.
"Dokud všechny společnosti nezahrnou technologii mluveného slova do svých
komerčních činností, budou mít konkurenční náskok ty z nich, které tak již
učinily," říká Meisel, který ve své funkci redaktora a vydavatele informačního
bulletinu "Speech Recognition Update" bedlivě sleduje technologii řeči.
Např. Sears je typem společnosti, která buď upgraduje své vlastní systémy
rozpoznávání hlasu, založené na tónové volbě, nebo přechází od živých operátorů
k systému hovorového dialogu generovaného počítačem. Přede dvěma roky čelila
tato firma rostoucí cenové konkurenci nového typu distributorů, jakými jsou
např. CostCo a WalMart, kteří u zákazníků vyvolávali očekávání lepších služeb.
"Naši zákazníci museli někdy čekat až 20 vyzvánění, než se jim operátor ozval.
Ztráceli jsme hovory a zákazníci přecházeli k Circuit City a k jiným
konkurentům," říká Jan Drummond, reprezentant Searsu v Hoffman Estates III. Tři
tisíce telefonistů Searsu pracovalo dvanáct hodin denně, sedm dní v týdnu, aby
si poradili s nepřetržitým proudem dotazů ohledně informací o produktech firmy.
Na napjatém pracovním trhu je vyškolení a udržení dobrých pracovníků náročným a
drahým úkolem.
Sears hledal pomoc u dodavatele produktů pro rozpoznávání řeči u Nuance
Communications z Kalifornie. Jeho software měl nahradit 3 000 telefonních
operátorů ve více než 800 obchodech Searsu a to prostřednictvím systému
počítačové technologie hovorové řeči, který by přepojoval volající na příslušná
oddělení.
Na kolik
to přijde
Žádný z protagonistů projektu není ochoten diskutovat o nákladech, Meisel však
odhaduje účet na zhruba půl milionu dolarů. Drummond pouze konstatoval, že se
systém zaplatil již za tři měsíce po implementaci.
Cenová kalkulace řečového systému je určována především tím, kolik "energie"
aplikace potřebuje pro rozpoznání, a dále počtem přijatých telefonních volání.
"Jednoduché aplikace, jako např. přečtení čísla konta místo použití dálkového
ovladače po telefonu, vyjde asi na 200 dolarů na jednu telefonní linku," říká
Meisel. Velmi rozsáhlé aplikace které rozpoznají věty jako např. "Chci letět
zítra z New Yorku do Chicaga," jsou výrazně dražší, některé se vyšplhají až na
10 000 dolarů za linku.
Systém firmy Sears v sobě zahrnuje technologii zpracování přirozeného jazyka,
která vyhledá odpovídající znění k frázím nebo i celým větám, spíše než aby
rozuměla přímé řeči nebo pečlivě vysloveným jednotlivým slovům.
Tato aplikace např. bez meškání přepojí volajícího na oddělení domácích
spotřebičů, zeptá-li se volající, kolik stojí "lednička", "chladnička" nebo i
"chladicí pult". Systém také ví, že dotazy na tenisky, plátěnky, mokasíny a
dámské lodičky má přepojit na oddělení obuvi. Volající bude přepojen na
oddělení, i když bude mluvit jakýmkoliv exotickým přízvukem.
Automatické placení daní
Firma Sears užívá technologii rozpoznávání řeči, aby pomohla zákazníkům, kteří
hledají informaci. Jiné společnosti aplikovaly tutéž technologii k uzavírání
obchodu tj. pro elektronickou komerci. Zákazníci nyní mohou zařídit po telefonu
jakoukoliv rezervaci, nakoupit akcie a dokonce i vyplňovat daňová přiznání.
Firma Renaissance Worldwide z Newtonu například dodává systémy pro rozpoznávání
řeči pro vládní úřady včetně systému pro vyplňování daňových přiznání, který
chce zavést stát Illinois.
Systém začne pozdravem: "Děkujeme vám, že voláte stát Illinois. Laskavě
přečtěte nebo vyťukejte své DIČ." Po odpovědi se systém zeptá: "Kolik jste si
vydělal?" Program se daňového poplatníka dokonce zeptá, zda chce přispět na
Natural Wildlife Fund (Fond na ochranu přírody) to alespoň tvrdí zástupce
berního úřadu státu Illinois. Porozumí odpovědím jako "ani nápad", "určitě ne",
"ne, děkuji" nebo "až příště, kámo".
Hlasová komerce
Na poli elektronické komerce přišel v roce 1998 E*Trade se svou Tele*Master,
plně transakční službou využívající technologii mluvené řeči. V lednu 1999 byla
služba rozšířena i pro transakce investičních fondů. Systém, který vytvořila
firma Speech Works International v Bostonu, rozpozná přes 3 400 názvů různých
fondů a provede instrukce pro nákup, prodej a výměnu.
Jméno místo čísla
Druhou významnou kategorií využití technologie mluvené řeči je její uplatnění
při komunikačních transakcích, např. při navazování spojení přes automatickou
spojovatelku. Hlasová volba a hlasové adresářové služby jsou dva hlavní
příklady.
Např. Motorola nebo IBM se snaží v současnosti implementovat vnitropodnikovou
hlasovou adresářovou službu pro tisíce svých zaměstnanců. Dalším krokem bude
rozšíření této služby i na externí volající.
Dnes si tak může kterýkoliv zaměstnanec IBM vyžádat vyřčením jména spojení s
kterýmkoliv jiným zaměstnancem kdekoliv na světě, a bude s ním spojen. Má-li
více spolupracovníků stejné jméno, systém se zeptá, ve kterém oddělení nebo ve
které lokalitě pracuje. Navíc mohou být tímto systémem zpřístupněny nebo
změněny i některé personální informace. Rozpoznávání řeči v kanceláři
Třetí kategorie technologie mluvené řeči se někdy nazývá "správa osobních dat"
jednodušeji řečeno, jde o ovládání běžných kancelářských aplikací na počítači
hlasem. A byla to právě tato kategorie, která vyvolala u mnoha IT manažerů
dojem, že jejich počítače nejsou ještě zralé pro hlasovou technologii.
Ačkoliv systémy elektronické komerce mohou při uzpůsobení existujících aplikací
dosáhnout velkého rozvoje, experti předpokládají, že kancelářská technika bude
poslední oblastí, v níž se rozpoznávání mluvené řeči prosadí. Pro vysoké
náklady a problémy s podporou bude kancelářská aplikace technologie mluvené
řeči vhodná a přiměřená především pro tělesně postižené osoby.
Navíc tato technologie dosud nedosahuje obvyklého standardu. Jestliže diktuje
uživatel do textového procesoru vybaveného programem na rozpoznávání mluveného
slova, jehož míra úspěšnosti je 95 % a průměrná stránka obsahuje 220 slov, bude
na každé stránce 10 chyb. Pro většinu uživatelů by taková chybovost byla
nepřijatelná. Rozpoznávání řeči pro přeměnu na text má zatím jen menší význam a
používá se zpravidla pouze na veletrzích a výstavách při předvádění této
technologie.
Ačkoliv hlasové předvádění s "nádechem budoucnosti" bude i nadále populární,
uživatelé budou od technologie vyžadovat větší dostupnost a pohodlí. Většině
serverů pobočkových ústředen na platformě Windows NT stačí aktualizovaná
telefonní karta s integrovanou podporou pro technologii rozpoznávání řeči.
Problémy v praxi
Největší překážkou, s níž se potýkala společnost Sears, nebyla implementace
techniky rozpoznávání řeči, nýbrž vytvoření hlasových rozhraní, která by mohla
komunikovat s množstvím nejrůznějších telefonních systémů, které se v USA
vyskytují. "Byli bychom to mohli zprovoznit daleko dřív, kdyby nebylo několika
dosud provozovaných starých telefonních systémů," říká Drummond od Searsu.
Některé vývojářské firmy, jako např. Nuance nebo SpeechWorks, se snaží
technologii zjednodušit pomocí dodávky jednotlivých komponent, které by
umožnily podnikovým vývojářům snadno vytvořit nebo aktualizovat hlasová
rozhraní podle svých vlastních potřeb.
Jak javová divize firmy Sun Microsystems, tak i Microsoft, uvedly na trh
hlasová aplikační rozhraní (API) pro své platformy. Prefabrikované složky mohou
také urychlit vývoj a zvýšit přesnost hlasových aplikací. Může být sto způsobů,
jak odpovědět "ano" nebo "ne", ale všechny tyto alternativní odpovědi se musejí
integrovat do jediné složky.
K vašim službám
Stále se objevují nové služby založené na technologii mluvené řeči, které se
nabízejí jako alternativa k "po domácku" vyvinutému softwaru. Univerzální
zpracování zpráv se zaměřuje hlavně na mobilní telefonii a umožňuje uživatelům
přijímat, poslechnout si a přepínat hlasovou a elektronickou poštu přes jediné
volací číslo.
V tomto oboru jsou veřejnosti známé firmy Wildfire Communications z Lexingtonu
a General Magic ze Sunnyvale. Služba firmy Wildfire je dosažitelná přes
provozovatele telefonních sítí, jako např. Pacific Bell Wireless nebo Canadas
Bell Mobility. General Magic prodává své Portico služby především přes
maloobchod a zatím neplánuje nabízet je prostřednictvím IT organizací.
Obě společnosti používají rozpoznávání hlasu ke správě telefonních zpráv;
Portico může i přijímat, číst a dodat elektronickou poštu na hlasový povel.
Wildfire zahrne tyto funkce až do své nové verze, kterou chce spustit koncem
tohoto roku.
General Magic hodlá podle vyjádření svého CEO Stewe Markmana oznámit koncem
tohoto roku novou službu, v jejímž rámci budou mít předplatitelé možnost
hlasového přístupu ke zprávám, které pro ně došly.
Další přínosy hlasu
Z hlediska IT manažera je univerzální zpracování zpráv alternativou k
podporování stovek různých handheldů a podobných přístrojů. "Než abychom se
snažili podporovat spoustu WinCE nebo PalmPilotů, nahradíme je výhodně
mobilem," říká Markman.
V bulletinu "Speech Recognition Update" se zdůrazňuje ještě další výhoda. Když
instalujete systém pro rozpoznávání mluvené řeči, automaticky aktualizujete
všech 100 milionů telefonních přípojek, takže mají hlasový interface, aniž by
jejich uživatel hnul prstem.
Přes určitý pokrok koncoví uživatelé volají po možnosti snadného přístupu k
osobním a podnikovým datům kdekoliv a kdykoliv po jakémsi neosobním asistentovi
pro oblast osobních informací. Experti předpokládají, že právě v této oblasti
je slibná budoucnost pro technologii mluvené řeči.
"Průmysl přechází od diktování k elektronické komerci, a pokročil tak o kousek
dál směrem k transparenci výpočetní techniky," říká Ozzie Osborne, hlavní
manažer hlasových systémů u IBM. Až se tak stane, bude podle Osborna vliv na IT
dramatický. "Lidé budou mít jednodušší rozhraní a postačí jim méně (počítačové)
odbornosti, aby věci zvládli," tvrdí Osborne.
Dvě úspěšná nasazení v praxi
Technologie automatizované řeči se začíná prosazovat v amerických podnicích,
pomáhá konzervativním společnostem modernizovat zákaznický servis a umožňuje
vznik nových činností, které by bez systémů pro rozpoznávání řeči nebyly vůbec
možné.
Jednou takovou tradiční zavedenou společností, která využívá předností
automatizované řeči, je United Parcel Service (UPS). Uvážíme-li, co tato
společnost nyní dělá, je poněkud ironické, že UPS začala v roce 1907 doručovat
telefonické vzkazy zákazníkům. Dá se říci, že se UPS vrací ke svým kořenům,
když nyní znovu začleňuje telefon jako klíčový prvek do své strategie
zákaznického servisu.
Ve špičkových dobách roku registruje UPS denně přes 500 000 hovorů. Většina z
nich jsou dotazy, kde je očekávaný balík, nebo žádosti o vyzvednutí balíku,
který chce volající odeslat. "Chtěli jsme, aby se operátoři našeho zákaznického
servisu uvolnili pro komplikovanější záležitosti," říká Joan Schnorbussová,
mluvčí UPS v Atlantě.
Kde je můj balík
Hlasový vyhledávací systém UPS implementovaný firmami Nuance Communications,
Lernout & Hauspi a Paraphonic používá rozpoznávání přirozeného hlasu pro
vyhledávání balíku. "Zadat 17 alfanumerických znaků, nutných pro vyhledávání,
je po telefonu obtížné," říká Schnorbussová. "Při rozpoznávání přirozeného
hlasu můžete říci třeba Z jako zebra, a systém vám porozumí."
Než firma UPS uvedla systém do provozu, testovala ho s mluvčími mluvícími
rychle i pomalu a mluvícími s různými akcenty. V novém systému zájemce vysloví
číslo balíku, který se má vyhledat; počítač číslo opakuje a po chvíli označí
volajícímu polohu balíku např. takto: "Byl složen u dveří garáže vzadu za
domem." Nedávno dále zdokonalili systém tak, že si zákazníci mohou zavolat, aby
byl vyzvednut balík, který chtějí odeslat.
"Potřeba telefonistů pro živý styk se snížila asi o 7 procent, říká
Schnorbussová. "Obsazení personálem je vždy problém a tento způsob ušetří
budoucí výlohy se zaměstnáváním více lidí."
Kam zajít na oběd
Firma Foodline z Bostonu, která po telefonu a Internetu informuje o
restauracích, je příkladem podniku, který by bez technologie automatizované
řeči vůbec nemohl existovat. Zákazník, který zavolá Foodline, je spojen se
"šéfkuchařem Bobem", který se ho vyptá, kde a co by chtěl jíst a v jaké cenové
kategorii.
Služba, kterou vyvinula firma Lernout & Hauspie, prolistuje a vytřídí podle
odpovědí volajícího databázi serveru a "Chef Bob" mu z ní přečte návrhy.
"Dialog je zaměřen tak, aby získal přesné odpovědi," poznamenává Paul
Lightfoot, prezident a CEO Foodline.
"Až získáme více zkušeností, rozšíříme domlouvání v přirozené řeči ještě více.
Zatím se soustřeďujeme na direktivní přístup, abychom docílili vysokého stupně
rozpoznání," říká Lightfoot. Foodline rozjela svou službu v Bostonu v lednu
1999 a plánuje brzké otevření poboček i v dalších městech.

Významní hráči na trhu
Technologií "automatizované řeči" ve verzi pro stolní počítače se zabývají tři
velké firmy a softwarová jádra jejich produktů pronikají do stále rostoucího
počtu aplikací. Firma Dragon Systems nabízí svůj produkt Dragon
Naturally-Speaking. IBM prodává podobnou aplikaci pod názvem Via Voice a
Lernout & Hauspie, společnost, do které investuje Microsoft, nabízí svůj
produkt pod názvem Voice Express.
Aplikace Via Voice, stejně jako produkt firmy Dragon, zahrnuje rozpoznávání
řeči a její převod na text (speech-to-text recognition) pro účely diktátu,
rozpoznávání textu pro převod na řeč (text--to-speech recognition), tak aby
diktát mohl být znovu přečten, a dále příkazové a kontrolní funkce nahrazující
grafické uživatelské rozhraní ovládané z menu.
Všechny tři společnosti mezi sebou bojují o podíl na trhu. Pokud se týká
technologie, všechny tři vyvinuly vlastní stroje pro rozpoznávání řeči, které
nabízejí formou licence vývojářským společnostem, aby na jejich bázi vytvořily
"lidská rozhraní" pro nejrůznější typy aplikací.
9 1923 / pen

Komentáře
K tomuto článku není připojena žádná diskuze, nebo byla zakázána.