Text-to-video genAI nástroj Sora mění svět

27. 2. 2024

Společnost OpenAI není první, kdo představil technologii převodu textu na video, její nástroje se však zdají být těmi nejpokročilejšími.

Společnost OpenAI představila novou schopnost své generativní umělé inteligence, která dokáže na základě textového vstupu vygenerovat video – s postavami a dalšími pohyblivými částmi. Nový model genAI, nazvaný Sora, má funkci převodu textu na video, která dokáže vytvářet komplexní, realistické pohyblivé scény s více postavami, specifickými typy pohybu i přesnými detaily „při zachování vizuální kvality a dodržení zadání uživatele“. Sora rozumí nejen tomu, co uživatel požaduje, ale také tomu, jak tyto věci existují ve fyzickém světě.

Využíváte už ve firmě autonomní agenty postavené na bázi umělé inteligence?

Podle Bernarda Marra, technologického futuristy a konzultanta, technologie v podstatě převádí psané popisy na videoobsah pomocí modelů umělé inteligence, které rozumí textovým vstupům a generují odpovídající vizuální a zvukové prvky.

„Tento proces zahrnuje algoritmy hlubokého učení schopné interpretovat text a syntetizovat videa, která odrážejí popsané scény, akce a dialogy,“ říká Marr.

Ačkoli nejde o novou schopnost enginů umělé inteligence, které nabízejí i jiní poskytovatelé, jako je například Gemini společnosti Google, Marr očekává, že dopad Sory bude značný. Stejně jako každá pokročilá technologie genAI podle něj i Sora pomůže změnit tvorbu obsahu, zlepšit vyprávění příběhů a demokratizovat produkci videa. Potenciál má prý zejména v oblastech jako jsou vzdělávání, marketing nebo zábavní průmysl.

Marr však upozorňuje, že schopnost modelů umělé inteligence převádět textové popisy na plnohodnotná videa také zdůrazňuje potřebu přísných etických úvah a záruk proti zneužití.

Chcete dostávat do mailu týdenní přehled článků z Computerworldu? Objednejte si náš mailový servis a žádná důležitá informace vám neuteče. Objednat si lze také newsletter To hlavní, páteční souhrn nejdůležitějších článků ze všech našich serverů. Newslettery si můžete objednat na této stránce.

„Nástup technologie převodu textu na video přináší složité otázky týkající se porušování autorských práv, zejména proto, že je schopna generovat obsah, který může věrně kopírovat díla chráněná autorským právem,“ podotýká Marr s tím, že v současnosti na toto téma už probíhá několik soudních sporů.

„Obavy vzbuzuje schopnost technologie vytvářet velmi přesvědčivé deepfakes, což vyvolává vážné etické problémy a problémy s ochranou soukromí, což podtrhuje potřebu důkladné kontroly a regulace.“

Dan Faggella, zakladatel a vedoucí výzkumný pracovník společnosti Emerj Artificial Intelligence, přednesl před pěti lety v OSN prezentaci právě o deepfakes. Tehdy zdůraznil, že bez ohledu na varování „lidé budou chtít věřit tomu, čemu chtějí věřit“.

Za zvážení však stojí i následující: lidé budou brzy moci žít ve světech vygenerovaných umělou inteligencí, kdy jim postačí headset a jedinečný na míru vytvořený svět vygenerovaný umělou inteligencí, který uspokojí jejich emocionální potřeby, ať už jde o relaxaci, humor nebo akci.

„A to, co bude stroj schopen udělat, je vykouzlit pro mě vizuální a zvukové a nakonec i haptické zážitky, které jsou vyškoleny na základě (předchozích zkušeností) s nošením headsetu“ řekl tehdy Faggella a nadhodil i téma k zamyšlení. „Musíme se i z pohledu regulace zamyslet nad tím, kolik takového eskapismu povolíme.“

Modely převodu textu na video mohou také vytvářet aplikace, které vykouzlí zážitky s umělou inteligencí a pomohou lidem být produktivní, vzdělávat je a udržet je soustředěné na jejich nejdůležitější práci.

„Možná je vyškolí, aby se stali skvělými prodejci, možná jim pomohou napsat skvělý kód a umožnit mnohem více kódování, než umí právě teď,“ řekl.

Jak model Sora společnosti OpenAI, tak multimodální model umělé inteligence Gemini 1.5 společnosti Google jsou prozatím interními výzkumnými projekty, které jsou nabízeny pouze určitému okruhu akademických pracovníků třetích stran a dalším subjektům testujícím tuto technologii. Přestože jsou Sora a Gemini 1.5 v současné době interními projekty, prezentují reálné příklady a podrobné informace, včetně videí, fotografií, gifů a souvisejících výzkumných prací.

Spolu s multimodálním enginem umělé inteligence Gemini předcházelo aplikaci Sora několik modelů pro převod textu na video, včetně modelů Emu společnosti Meta, Gen-2 společnosti Runway a Stability AI's Stable Video Diffusion.

Google má navíc dva souběžné výzkumné projekty, které označuje za „nejmodernější modely generování videa“. Jedná se o projekty Lumiere a VideoPoet. Lumiere, který byl zveřejněn na začátku února, je pokročilejší technologie generování videa, když nabízí 80 snímků za sekundu ve srovnání s 25 snímky za sekundu u konkurentů, jako je Stable Video Diffusion.

„Gemini, který je určen ke zpracování informací a automatizaci úkolů, nabízí od počátku bezproblémovou integraci modalit, což jej potenciálně činí intuitivnějším pro uživatele, kteří hledají přímočaré, na úkoly zaměřené prostředí,“ říká Marr. „Na druhou stranu, přístup GPT-4 založený na vrstvení umožňuje v průběhu času granulárnější vylepšování schopností, což poskytuje flexibilitu a hloubku konverzačních schopností a generování obsahu.“

V přímém srovnání se Sora jeví jako výkonnější než modely generování videa společnosti Google. Zatímco Lumiere dokáže vytvořit video s rozlišením 512 × 512 pixelů, Sora tvrdí, že dosahuje rozlišení až 1920 × 1080 pixelů neboli FullHD kvality. Délka videí Lumiere je omezena na přibližně 5 sekund, videa Sora mohou trvat až jednu minutu.

Lumiere navíc nemůže vytvářet videa složená z více záběrů, zatímco Sora ano. Sora, stejně jako ostatní modely, je údajně schopna provádět také úkoly spojené s úpravou videa, jako je vytváření videí z obrázků nebo jiných videí, kombinování prvků z různých videí a prodlužování videí v čase.

„V konkurenci mezi Sorou od OpenAI a startupy, jako je Runway AI, může zavedenost značky nabídnout výhody z hlediska spolehlivosti a škálovatelnosti,“ říká Marr. „Zatímco startupy často přinášejí inovativní přístupy a agilitu, OpenAI s velkým financováním od společností, jako je Microsoft, bude schopna je dohnat a případně rychle předehnat.“

Computerworld si můžete objednat i jako klasický časopis. Je jediným odborným měsíčníkem na českém a slovenském trhu zaměreným na profesionály v oblasti informačních a komunikačních technologií (ICT). Díky silnému zázemí přináší aktuální zpravodajství, analýzy, komentáře a přehledy nejnovejších technologií dříve a na vyšší odborné úrovni, než ostatní periodika na tuzemském trhu.

Obsah Computerworldu je určen odborníkům a manažerům z firem a institucí, kteří se podílejí na rozhodovacím procesu při nákupu ICT technologií. Jednotlivá čísla si můžete objednat i v digitální podobě.

Našli jste v článku chybu?

Sdílet

Využíváte už ve firmě autonomní agenty postavené na bázi umělé inteligence?

Kyberútočníci si pomáhají umělou inteligencí, obránci oplácejí stejnou mincí

Jedna z nejhorších aplikací Windows doznala vylepšení

Autor článku

Lucas Mearian

Témata:

Komerční sdělení

Technologie mění svět. Jak držet krok s IT trendy?

Mohlo by vás zajímat

Anketa

Využíváte už ve firmě autonomní agenty postavené na bázi umělé inteligence?

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Je čas se rozhodnout – AI závod začíná! Stane se vaše firma lídrem, nebo zůstane pozadu?

Co dnes musí člověk umět, aby byl úspěšný v práci?

Canalys: Trh tabletů před vánoční sezonou vyrostl o 11 %

Karel Diviš: Firmy potřebují jednoho stabilního dodavatele IT

Odvody OSVČ se od roku 2025 zvýší zhruba o tisícovku. Ještě více poroste paušální daň

Denisa Arslanianová a Veronika Schieblová posilují marketing Samsungu v ČR a SR

Podzimní vydání CIO Business Worldu je tady

Limit na volnočasové benefity v roce 2025 je štědřejší

SWS získala distribuční smlouvu na spotřební materiál HP

Text-to-video genAI nástroj Sora mění svět

Sdílet

Využíváte už ve firmě autonomní agenty postavené na bázi umělé inteligence?

Kyberútočníci si pomáhají umělou inteligencí, obránci oplácejí stejnou mincí

Jedna z nejhorších aplikací Windows doznala vylepšení

Autor článku

Lucas Mearian

Témata:

Komerční sdělení

Technologie mění svět. Jak držet krok s IT trendy?

Mohlo by vás zajímat

Co se dočtete v novém Computerworldu 11/2024?

Facebook a Instagram vrací do hry rozpoznávání obličeje, aby nás „chránily“

Máte umělou inteligenci v malíku? Ověřte si to v našem kvízu

Anketa

Využíváte už ve firmě autonomní agenty postavené na bázi umělé inteligence?

Kvíz týdne

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Z našich webů

Je čas se rozhodnout – AI závod začíná! Stane se vaše firma lídrem, nebo zůstane pozadu?

Co dnes musí člověk umět, aby byl úspěšný v práci?

Canalys: Trh tabletů před vánoční sezonou vyrostl o 11 %

Karel Diviš: Firmy potřebují jednoho stabilního dodavatele IT

Odvody OSVČ se od roku 2025 zvýší zhruba o tisícovku. Ještě více poroste paušální daň

Denisa Arslanianová a Veronika Schieblová posilují marketing Samsungu v ČR a SR

Podzimní vydání CIO Business Worldu je tady

Limit na volnočasové benefity v roce 2025 je štědřejší

SWS získala distribuční smlouvu na spotřební materiál HP

Dále u nás najdete

Jak českým firmám pomáhá digitální transformace?

U předčasných porodů se snaží, aby se dítě narodilo ve vaku blan

Člověk může bez souhlasu skončit v nemocnici nejen na psychiatrii

Krevní skupiny a nemoci: „nulám“ hrozí vředy, „áčka“ chytí malárii

Nejčastější „AHA momenty“ začínajících podnikatelů

Ministr Válek má rakovinu, lékaři ji odhalili při prevenci

Katastrofální výsledky Intelu: ztráta 17 miliard dolarů za kvartál

Bolest prsu nemusí hned značit vážné onemocnění

O2 hlásí konec upgradu sítě. Na kmitočtech pro 2G spustí LTE

Evropská komise vyšetřuje Temu

Objem DDoS útoků na české firmy dlouhodobě stagnuje

Microsoft brzdí aktualizaci Windows 11 24H2

U freelancerů jsou výkyvy příjmů obvyklý jev a hlavní nevýhodou

Lékaři učí umělou inteligenci jak poznat infarkt

Čína vypouští vlastní humanoidní roboty

Rýsuje se jednodušší zdanění kryptoměn

Byli jsme oba mladí, ale na dítě jsme čekali dva roky

Slavné oběti syfilis: Známý hudební skladatel i oblíbený malíř

Starlink pronikl do zóny rádiového klidu, kde nesmí být ani Wi-Fi

Roční poplatky: Endokrinologie chce pětistovku, praktici tisíc korun