Rozhovor s Davem Burkem z Google: „Čekají nás ještě úžasné věci“

1. 10. 2010

Sdílet

Dave je vedoucím členem týmu, který zodpovídá za vývoj mobilních platforem, zejména pak v prostředí Androidu a Chrome.

Při příležitosti představení hlasového vyhledávání Google v českém jazyce jsme měli možnost hovořit s Davem Burkem z pobočky Google v Londýně. Dave je vedoucím členem týmu, který zodpovídá za vývoj mobilních platforem, zejména pak v prostředí Androidu a Chrome. Dave aktivně působí v několika celosvětových vývojářských komunitách (W3C, IETF), napsal také knihu zabývající se strojovým zpracováním mluvené řeči.

Dave BurkePC World: Google představil technologii hlasového vyhledávání v češtině určenou pro mobilní zařízení vybavená operačním systémem Android a pro iPhone. Jak to celé funguje?

Dave Burke: V zásadě jde o to, že využíváme našich výkonných serverů jakožto vhodného nástroje pro rozpoznání řeči. Jakmile do telefonu zadáte patřičný pokyn, například vyhledat sousloví „počasí v Londýně“, dochází k odeslání těchto dat na servery Googlu, kde jsou data analyzována. Poté, co server vybere z mnoha dostupných variant v databázi tu nejpravděpodobnější, jejíž zvukový záznam se podobá vašemu pokynu, je k této položce přiřazen její význam v psané podobě. Ta následně přechází do klasického engine vyhledávače Google a váš webový prohlížeč obratem zobrazí výsledky vyhledávání.

PC World: Kdy nabídnete tuto funkcionalitu také pro další mobilní platformy? Dočkáme se někdy hlasového vyhledávání i pro desktopy?

Dave Burke: V současnosti jsou v češtině k dispozici verze pro Android a iPhone, ale samozřejmě pracujeme na tom, abychom náš produkt postupně přinesli na všechny možné platformy. V angličtině již kromě výše uvedených možností funguje také klient pro zařízení vybavená operačním systémem Symbian S60 a pro Blackberry, ve vývoji jsou ale i další významné platformy. Přesná data uvedení po mně ale nechtějte, jednak je nevím a i kdybych věděl, nesměl bych je prozradit.

Co se týče hlasového vyhledávání pro stolní počítače, tak v současnosti tuto funkcionalitu nabízíme v připravované verzi internetového prohlížeče Google Chrome. Aktuálně je k dispozici vývojářům a testerům, jsem si tedy v zásadě jistý, že se objeví již v příští verzi Google Chrome. 

PC World: Jak je na tom hlasové vyhledávání z hlediska architektury klient/server? Do jaké míry je zpracování hlasu výpočetně náročné?

Dave Burke: Na straně klienta, tedy mobilního zařízení, dochází v podstatě pouze k tomu, že je hlasový pokyn zkomprimován a odeslán na náš server, neboli do cloudu, jak je dnes moderní říkat.

Zpracování hlasu představuje bezesporu výpočetně náročný úkol, ale vzhledem k tomu, jak výkonnými datovými centry Google disponuje, se nejedná o velký problém. Rozpoznávání hlasu se totiž rozdělí do mnoha paralelních úkolů, kdy zkoumáme pravděpodobnost shody určitého záznamu v databázi s aktuálním pokynem uživatele. V konečném důsledku ze zpracování vyplyne ta nejpravděpodobnější varianta. Pokud servery vyhodnotí pokyn špatně, máme k dispozici pravděpodobnostní modely, které jsou schopny se ze špatných výsledků ponaučit, a tak se vlastně kvalita služby neustále zvyšuje díky tomu, že ji používá spousta lidí.

PC World: Jakým způsobem probíhá vývoj aplikací potřebných pro chod hlasového vyhledávání? Kolik lidí se na něm podílelo?

Dave Burke: Základ pro hlasové vyhledávání, který fungoval v angličtině, jsme představili již v roce 2008, od té doby se však projekt posunul o značný kus cesty směrem vpřed. Postupně přidáváme podporu dalších jazyků - čeština byla v pořadí již desátým. Díky tomu, jak lidé hlasové vyhledávání používají, získáváme nové vzorky mluveného hlasu, různé výslovnosti a dialekty, díky nimž jsme schopni výsledky analýzy hlasu neustále zpřesňovat, učit ji nová slova atd.

K tomu, aby mohlo rozpoznávání hlasu fungovat, je nejprve nutné vytvořit databázi zvukových záznamů slov, k níž přiřazujeme psanou variantu. Do databáze češtiny jsme potřebovali vložit více než milion výrazů, a to nejlépe namluvených několika různými hlasy (ženský, mužský, dětský, s šumem v pozadí apod.), aby si naše servery dokázaly při rozeznávání hlasu poradit se všemi možnými variantami. Za tímto účelem jsme najali celou řadu externích spolupracovníků, protože si dokážete jistě představit, že se jednalo o časově poměrně náročný úkol.

PC World: Přejděme od hlasového vyhledávání k další oblasti, kterou se zabýváte, a sice k vývoji operačních systémů Android a Chrome OS. Který z nich se objeví v příští generaci tabletů?

Dave Burke: Víte, na vývoji Androidu a Chrome OS pracují dva rozdílné týmy, takže nikdy přesně nevíme, co který z nich přinese nového. A myslíme si, že je to tak správně, jedině tak totiž můžeme maximalizovat přínos, který z vývoje těchto platforem získáváme. Je možné, že se časem v určitém segmentu trhu více prosadí pouze jeden z nich, v jiném možná oba, ale v současnosti celé věci ponecháváme do určité míry volný vývoj, abychom nebrzdili jejich potenciál.

PC World: Kam si myslíte, že se oblast mobilních zařízení bude ubírat v následujících pěti letech?

Dave Burke: V této věci jsme jednoznačně optimistou, myslím si, že v oblasti mobilních zařízení se stále můžeme těšit na velký vývoj, čekají nás ještě úžasné změny. Dnes totiž držím v ruce mobilní zařízení (Google Nexus One, pozn. redakce), které má vyšší výkon než můj stolní počítač před sedmi lety, a zvládá funkce, nad nimiž jsme se podivovali před deseti lety ve sci-fi filmech. Myslím si, že se bude výkon mobilních zařízení dále zvyšovat, dočkáme se tak samozřejmě vyšší kapacity paměti, rychlejších procesorů i detailnějších displejů. Co však považuji za mnohem důležitější - díky tomu, že dnes máme čím dál tím častěji k dispozici vysokorychlostní mobilní připojení k internetu – to ale není případ O2 sítě tady v Praze (smích). Myslím si, že rychle bude narůstat i míra propojení mobilních zařízení s cloudem. Díky tomu budou vývojáři schopní uživatelům přinášet stále zábavnější a efektivnější aplikace.

PC World: Další otázka se bude týkat vaší práce v Google. Mohl byste nám prosím popsat váš běžný pracovní den? Společnost Google bývá považována za dobrého zaměstnavatele, v čem spočívají tyto výhody?

Dave Burke: Můj pracovní den není příliš „běžný“, protože jsem programátor (smích), navíc hodně cestuji a potkávám se s lidmi. Práce pro Google má pro mě výhodu v tom, že se dostanu do styku se skutečnými odborníky. Potkávám například spoustu mladých nadaných jedinců, kteří k nám přijdou rovnou po dokončení studií a doslova srší novými, originálními nápady, ale jsou zároveň schopni je dotáhnout do konce. S kolegy jim říkáme „zázračné děti“.

PC World: Podle dostupných informací se zdá, že se aktivně účastníte života ve vývojářských komunitách. Co všechno taková práce obnáší a co vám přináší?

Dave Burke: Pracuji na manažerské pozici, takže na psaní kódu již nemám zdaleka tolik času jako dříve, což však rozhodně neznamená, že by mě to nebavilo. Potřebuji si totiž udržet patřičnou hloubku technických vědomostí, abych byl u jednotlivých projektů schopen hlubšího než pouze povrchního porozumění tomu, jaké problémy řešíme. Kdybych měl použít sportovní terminologii, tak se díky programování stále udržuji ve formě. Nejlepším časem pro programování je pro mě transoceánská cesta letadlem. Když pravidelně létáte z Londýna do Los Angeles, máte spoustu času se ponořit do zdrojového kódu a vytvořit něco zajímavého. Nedávno jsem si tak ve volném čase naprogramoval malou utilitku pro radost…

(Dave v tuto chvíli předvádí funkčnost utility, která dokáže synchronizovat obsah obrazovky stolního počítače s mobilním telefonem, přičemž uvádí příklad telefonního čísla nebo výřezu mapy, kterou si takto můžete jedním kliknutím přenést)

Rozhovor s Davem Burkem z Google: „Čekají nás ještě úžasné věci“

Při příležitosti představení hlasového vyhledávání Google v českém jazyce (http://pcworld.cz/Videos/video-hlasove-vyhledavani-google-se-jako-desaty-jazyk-naucilo-cestinu-11666)

jsme měli možnost hovořit s Davem Burkem z pobočky Google v Londýně. Dave je vedoucím členem týmu, který zodpovídá za vývoj mobilních platforem, zejména pak v prostředí Androidu a Chrome. Dave aktivně působí v několika celosvětových vývojářských komunitách (W3C, IETF), napsal také knihu zabývající se strojovým zpracováním mluvené řeči.

PC World: Google představil technologii hlasového vyhledávání v češtině určenou pro mobilní zařízení vybavená operačním systémem Android a pro iPhone. Jak to celé funguje?

Dave Burke: V zásadě jde o to, že využíváme našich výkonných serverů jakožto vhodného nástroje pro rozpoznání řeči. Jakmile do telefonu zadáte patřičný pokyn, například vyhledat sousloví „počasí v Londýně“, dochází k odeslání těchto dat na servery Googlu, kde jsou data analyzována. Poté, co server vybere z mnoha dostupných variant v databázi tu nejpravděpodobnější, jejíž zvukový záznam se podobá vašemu pokynu, je k této položce přiřazen její význam v psané podobě. Ta následně přechází do klasického engine vyhledávače Google a váš webový prohlížeč obratem zobrazí výsledky vyhledávání.

PC World: Kdy nabídnete tuto funkcionalitu také pro další mobilní platformy? Dočkáme se někdy hlasového vyhledávání i pro desktopy?

Dave Burke: V současnosti jsou v češtině k dispozici verze pro Android a iPhone, ale samozřejmě pracujeme na tom, abychom náš produkt postupně přinesli na všechny možné platformy. V angličtině již kromě výše uvedených možností funguje také klient pro zařízení vybavená operačním systémem Symbian S60 a pro Blackberry, ve vývoji jsou ale i další významné platformy. Přesná data uvedení po mně ale nechtějte, jednak je nevím a i kdybych věděl, nesměl bych je prozradit.

Co se týče hlasového vyhledávání pro stolní počítače, tak v současnosti tuto funkcionalitu nabízíme v připravované verzi internetového prohlížeče Google Chrome. Aktuálně je k dispozici vývojářům a testerům, jsem si tedy v zásadě jistý, že se objeví již v příští verzi Google Chrome.

PC World: Jak je na tom hlasové vyhledávání z hlediska architektury klient/server? Do jaké míry je zpracování hlasu výpočetně náročné?

Dave Burke: Na straně klienta, tedy mobilního zařízení, dochází v podstatě pouze k tomu, že je hlasový pokyn zkomprimován a odeslán na náš server, neboli do cloudu, jak je dnes moderní říkat.

Zpracování hlasu představuje bezesporu výpočetně náročný úkol, ale vzhledem k tomu, jak výkonnými datovými centry Google disponuje, se nejedná o velký problém. Rozpoznávání hlasu se totiž rozdělí do mnoha paralelních úkolů, kdy zkoumáme pravděpodobnost shody určitého záznamu v databázi s aktuálním pokynem uživatele. V konečném důsledku ze zpracování vyplyne ta nejpravděpodobnější varianta. Pokud servery vyhodnotí pokyn špatně, máme k dispozici pravděpodobnostní modely, které jsou schopny se ze špatných výsledků ponaučit, a tak se vlastně kvalita služby neustále zvyšuje díky tomu, že ji používá spousta lidí.

PC World: Jakým způsobem probíhá vývoj aplikací potřebných pro chod hlasového vyhledávání? Kolik lidí se na něm podílelo?

Dave Burke: Základ pro hlasové vyhledávání, který fungoval v angličtině, jsme představili již v roce 2008, od té doby se však projekt posunul o značný kus cesty směrem vpřed. Postupně přidáváme podporu dalších jazyků - čeština byla v pořadí již desátým. Díky tomu, jak lidé hlasové vyhledávání používají, získáváme nové vzorky mluveného hlasu, různé výslovnosti a dialekty, díky nimž jsme schopni výsledky analýzy hlasu neustále zpřesňovat, učit ji nová slova atd.

K tomu, aby mohlo rozpoznávání hlasu fungovat, je nejprve nutné vytvořit databázi zvukových záznamů slov, k níž přiřazujeme psanou variantu. Do databáze češtiny jsme potřebovali vložit více než milion výrazů, a to nejlépe namluvených několika různými hlasy (ženský, mužský, dětský, s šumem v pozadí apod.), aby si naše servery dokázaly při rozeznávání hlasu poradit se všemi možnými variantami. Za tímto účelem jsme najali celou řadu externích spolupracovníků, protože si dokážete jistě představit, že se jednalo o časově poměrně náročný úkol.

PC World: Přejděme od hlasového vyhledávání k další oblasti, kterou se zabýváte, a sice k vývoji operačních systémů Android a Chrome OS. Který z nich se objeví v příští generaci tabletů?

Dave Burke: Víte, na vývoji Androidu a Chrome OS pracují dva rozdílné týmy, takže nikdy přesně nevíme, co který z nich přinese nového. A myslíme si, že je to tak správně, jedině tak totiž můžeme maximalizovat přínos, který z vývoje těchto platforem získáváme. Je možné, že se časem v určitém segmentu trhu více prosadí pouze jeden z nich, v jiném možná oba, ale v současnosti celé věci ponecháváme do určité míry volný vývoj, abychom nebrzdili jejich potenciál.

PC World: Kam si myslíte, že se oblast mobilních zařízení bude ubírat v následujících pěti letech?

Dave Burke: V této věci jsme jednoznačně optimistou, myslím si, že v oblasti mobilních zařízení se stále můžeme těšit na velký vývoj, čekají nás ještě úžasné změny. Dnes totiž držím v ruce mobilní zařízení (Google Nexus One, pozn. redakce), které má vyšší výkon než můj stolní počítač před sedmi lety, a zvládá funkce, nad nimiž jsme se podivovali před deseti lety ve sci-fi filmech. Myslím si, že se bude výkon mobilních zařízení dále zvyšovat, dočkáme se tak samozřejmě vyšší kapacity paměti, rychlejších procesorů i detailnějších displejů. Co však považuji za mnohem důležitější - díky tomu, že dnes máme čím dál tím častěji k dispozici vysokorychlostní mobilní připojení k internetu – to ale není případ O2 sítě tady v Praze (smích). Myslím si, že rychle bude narůstat i míra propojení mobilních zařízení s cloudem. Díky tomu budou vývojáři schopní uživatelům přinášet stále zábavnější a efektivnější aplikace.

PC World: Další otázka se bude týkat vaší práce v Google. Mohl byste nám prosím popsat váš běžný pracovní den? Společnost Google bývá považována za dobrého zaměstnavatele, v čem spočívají tyto výhody?

Dave Burke: Můj pracovní den není příliš „běžný“, protože jsem programátor (smích), navíc hodně cestuji a potkávám se s lidmi. Práce pro Google má pro mě výhodu v tom, že se dostanu do styku se skutečnými odborníky. Potkávám například spoustu mladých nadaných jedinců, kteří k nám přijdou rovnou po dokončení studií a doslova srší novými, originálními nápady, ale jsou zároveň schopni je dotáhnout do konce. S kolegy jim říkáme „zázračné děti“.

PC World: Podle dostupných informací se zdá, že se aktivně účastníte života ve vývojářských komunitách. Co všechno taková práce obnáší a co vám přináší?

Dave Burke: Pracuji na manažerské pozici, takže na psaní kódu již nemám zdaleka tolik času jako dříve, což však rozhodně neznamená, že by mě to nebavilo. Potřebuji si totiž udržet patřičnou hloubku technických vědomostí, abych byl u jednotlivých projektů schopen hlubšího než pouze povrchního porozumění tomu, jaké problémy řešíme. Kdybych měl použít sportovní terminologii, tak se díky programování stále udržuji ve formě. Nejlepším časem pro programování je pro mě transoceánská cesta letadlem. Když pravidelně létáte z Londýna do Los Angeles, máte spoustu času se ponořit do zdrojového kódu a vytvořit něco zajímavého. Nedávno jsem si tak ve volném čase naprogramoval malou utilitku pro radost…

(Dave v tuto chvíli předvádí funkčnost utility, která dokáže synchronizovat obsah obrazovky stolního počítače s mobilním telefonem, přičemž uvádí příklad telefonního čísla nebo výřezu mapy, kterou si takto můžete jedním kliknutím přenést)