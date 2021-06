Na veřejné prezentaci společnosti Adobe, která se konala v kalifornském San Diegu, bylo v ten den nebývale živo a veselo. Výzkumník Zeyu Jin zde předvedl praktické použití nového nástroje s názvem Adobe VoCo (z angl. voice conversion – neboli „proměna hlasu“). Tento systém, který používá strojové učení, potřebuje záznam přibližně dvaceti minut řeči mluvčího.

Následně analyzuje tón a zabarvení hlasu a potom je schopný řeč rozložit na jednotlivé hlásky a vytvořit zbrusu novou, umělou promluvu. Uživatel pak může měnit výroky podobně snadno, jako se mění slova v textovém editoru. Za potlesku a smíchu v sálu si Zeyu Jin pohrává se slůvky v angličtině a původní větu ve znění „Políbil jsem své tři psy a ženu“ po několika krocích proměňuje na výrok „třikrát jsem políbil Jordana.“

Podobné nástroje přinášejí nové možnosti manipulace s digitálními médii. V mnoha oborech najdou praktické uplatnění, třeba při úpravách dabingu ve filmech. Na druhou stranu nastolují také etické otázky, například jestli by bylo s jejich pomocí možné oživit hlas již zemřelých lidí. Právě digitalizace, tedy rozložení zvuku či obrazu na digitální nuly a jedničky, tyto možnosti mediální manipulace značně rozšířily a usnadnily. Rozvíjející se obor umělé inteligence je pak dalším mocným nástrojem.

„Prozatím v tomto případě podle mého názoru nejde o průlom, protože Adobe VoCo v manipulaci se zvukem nedosahuje takové dokonalosti,“ říká odborník na digitální média Josef Šlerka. „Myslím si ale, že vytvoření systému, který by vyprodukoval novou promluvu k nerozeznání od té původní, je jenom otázkou času – technický vývoj se neuvěřitelným způsobem zrychluje. Vytvořit falešnou nahrávku, na níž bychom si mohli poslechnout, jak se Joe Biden domlouvá s Donaldem Trumpem o tom, jak si předají vládu, bude už brzy jednodušší – podobně jako je dnes snadné ve Photoshopu vytvořit fotomontáž, kde se ti dva objímají.“

Hranice umělé inteligence

Nástroj Adobe VoCo je označován za „photoshop pro zvuk“ a diskutuje se také o tom, zda po jeho uvedení do praxe bude možné nadále používat nahrávky u soudu jako důkazní materiál. Již dnes jsou možnosti manipulace s digitálními médii značné, i když k dokonalosti mají v některých případech daleko.

„Myslím, že dnes je už celá věc na takové úrovni, že bychom klidně mohli natáčet filmy s Humphreyem Bogartem,“ domnívá se Josef Šlerka. „Zatím by to ale vypadalo trochu směšně a cvičené oko by poznalo, že jde o podvod. Dosud neoživujeme podobu nebo hlas zemřelých lidí také z toho důvodu, že je to podle nás neetické. Vyvinout dokonalejší technologii je ale jenom otázkou času, etické bariéry se prolomí a myslím, že jednoho dne k tomu dojde.“

Nové možnosti manipulace přináší také technika hlubokého učení (deep learning).