Společnost OpenAI představila novou schopnost své generativní umělé inteligence, která dokáže na základě textového vstupu vygenerovat video – s postavami a dalšími pohyblivými částmi. Nový model genAI, nazvaný Sora, má funkci převodu textu na video, která dokáže vytvářet komplexní, realistické pohyblivé scény s více postavami, specifickými typy pohybu i přesnými detaily „při zachování vizuální kvality a dodržení zadání uživatele“. Sora rozumí nejen tomu, co uživatel požaduje, ale také tomu, jak tyto věci existují ve fyzickém světě.
Využíváte už ve firmě autonomní agenty postavené na bázi umělé inteligence?
Podle Bernarda Marra, technologického futuristy a konzultanta, technologie v podstatě převádí psané popisy na videoobsah pomocí modelů umělé inteligence, které rozumí textovým vstupům a generují odpovídající vizuální a zvukové prvky.
„Tento proces zahrnuje algoritmy hlubokého učení schopné interpretovat text a syntetizovat videa, která odrážejí popsané scény, akce a dialogy,“ říká Marr.
Ačkoli nejde o novou schopnost enginů umělé inteligence, které nabízejí i jiní poskytovatelé, jako je například Gemini společnosti Google, Marr očekává, že dopad Sory bude značný. Stejně jako každá pokročilá technologie genAI podle něj i Sora pomůže změnit tvorbu obsahu, zlepšit vyprávění příběhů a demokratizovat produkci videa. Potenciál má prý zejména v oblastech jako jsou vzdělávání, marketing nebo zábavní průmysl.
Marr však upozorňuje, že schopnost modelů umělé inteligence převádět textové popisy na plnohodnotná videa také zdůrazňuje potřebu přísných etických úvah a záruk proti zneužití.
Chcete dostávat do mailu týdenní přehled článků z Computerworldu? Objednejte si náš mailový servis a žádná důležitá informace vám neuteče. Objednat si lze také newsletter To hlavní, páteční souhrn nejdůležitějších článků ze všech našich serverů. Newslettery si můžete objednat na této stránce.
„Nástup technologie převodu textu na video přináší složité otázky týkající se porušování autorských práv, zejména proto, že je schopna generovat obsah, který může věrně kopírovat díla chráněná autorským právem,“ podotýká Marr s tím, že v současnosti na toto téma už probíhá několik soudních sporů.
„Obavy vzbuzuje schopnost technologie vytvářet velmi přesvědčivé deepfakes, což vyvolává vážné etické problémy a problémy s ochranou soukromí, což podtrhuje potřebu důkladné kontroly a regulace.“
Dan Faggella, zakladatel a vedoucí výzkumný pracovník společnosti Emerj Artificial Intelligence, přednesl před pěti lety v OSN prezentaci právě o deepfakes. Tehdy zdůraznil, že bez ohledu na varování „lidé budou chtít věřit tomu, čemu chtějí věřit“.
Za zvážení však stojí i následující: lidé budou brzy moci žít ve světech vygenerovaných umělou inteligencí, kdy jim postačí headset a jedinečný na míru vytvořený svět vygenerovaný umělou inteligencí, který uspokojí jejich emocionální potřeby, ať už jde o relaxaci, humor nebo akci.
„A to, co bude stroj schopen udělat, je vykouzlit pro mě vizuální a zvukové a nakonec i haptické zážitky, které jsou vyškoleny na základě (předchozích zkušeností) s nošením headsetu“ řekl tehdy Faggella a nadhodil i téma k zamyšlení. „Musíme se i z pohledu regulace zamyslet nad tím, kolik takového eskapismu povolíme.“
Modely převodu textu na video mohou také vytvářet aplikace, které vykouzlí zážitky s umělou inteligencí a pomohou lidem být produktivní, vzdělávat je a udržet je soustředěné na jejich nejdůležitější práci.
„Možná je vyškolí, aby se stali skvělými prodejci, možná jim pomohou napsat skvělý kód a umožnit mnohem více kódování, než umí právě teď,“ řekl.
Jak model Sora společnosti OpenAI, tak multimodální model umělé inteligence Gemini 1.5 společnosti Google jsou prozatím interními výzkumnými projekty, které jsou nabízeny pouze určitému okruhu akademických pracovníků třetích stran a dalším subjektům testujícím tuto technologii. Přestože jsou Sora a Gemini 1.5 v současné době interními projekty, prezentují reálné příklady a podrobné informace, včetně videí, fotografií, gifů a souvisejících výzkumných prací.
Spolu s multimodálním enginem umělé inteligence Gemini předcházelo aplikaci Sora několik modelů pro převod textu na video, včetně modelů Emu společnosti Meta, Gen-2 společnosti Runway a Stability AI's Stable Video Diffusion.
Google má navíc dva souběžné výzkumné projekty, které označuje za „nejmodernější modely generování videa“. Jedná se o projekty Lumiere a VideoPoet. Lumiere, který byl zveřejněn na začátku února, je pokročilejší technologie generování videa, když nabízí 80 snímků za sekundu ve srovnání s 25 snímky za sekundu u konkurentů, jako je Stable Video Diffusion.
„Gemini, který je určen ke zpracování informací a automatizaci úkolů, nabízí od počátku bezproblémovou integraci modalit, což jej potenciálně činí intuitivnějším pro uživatele, kteří hledají přímočaré, na úkoly zaměřené prostředí,“ říká Marr. „Na druhou stranu, přístup GPT-4 založený na vrstvení umožňuje v průběhu času granulárnější vylepšování schopností, což poskytuje flexibilitu a hloubku konverzačních schopností a generování obsahu.“
V přímém srovnání se Sora jeví jako výkonnější než modely generování videa společnosti Google. Zatímco Lumiere dokáže vytvořit video s rozlišením 512 × 512 pixelů, Sora tvrdí, že dosahuje rozlišení až 1920 × 1080 pixelů neboli FullHD kvality. Délka videí Lumiere je omezena na přibližně 5 sekund, videa Sora mohou trvat až jednu minutu.
Lumiere navíc nemůže vytvářet videa složená z více záběrů, zatímco Sora ano. Sora, stejně jako ostatní modely, je údajně schopna provádět také úkoly spojené s úpravou videa, jako je vytváření videí z obrázků nebo jiných videí, kombinování prvků z různých videí a prodlužování videí v čase.
„V konkurenci mezi Sorou od OpenAI a startupy, jako je Runway AI, může zavedenost značky nabídnout výhody z hlediska spolehlivosti a škálovatelnosti,“ říká Marr. „Zatímco startupy často přinášejí inovativní přístupy a agilitu, OpenAI s velkým financováním od společností, jako je Microsoft, bude schopna je dohnat a případně rychle předehnat.“
Computerworld si můžete objednat i jako klasický časopis. Je jediným odborným měsíčníkem na českém a slovenském trhu zaměreným na profesionály v oblasti informačních a komunikačních technologií (ICT). Díky silnému zázemí přináší aktuální zpravodajství, analýzy, komentáře a přehledy nejnovejších technologií dříve a na vyšší odborné úrovni, než ostatní periodika na tuzemském trhu.
Obsah Computerworldu je určen odborníkům a manažerům z firem a institucí, kteří se podílejí na rozhodovacím procesu při nákupu ICT technologií. Jednotlivá čísla si můžete objednat i v digitální podobě.