Text-to-video genAI nástroj Sora mění svět

27. 2. 2024

Společnost OpenAI není první, kdo představil technologii převodu textu na video, její nástroje se však zdají být těmi nejpokročilejšími.

Společnost OpenAI představila novou schopnost své generativní umělé inteligence, která dokáže na základě textového vstupu vygenerovat video – s postavami a dalšími pohyblivými částmi. Nový model genAI, nazvaný Sora, má funkci převodu textu na video, která dokáže vytvářet komplexní, realistické pohyblivé scény s více postavami, specifickými typy pohybu i přesnými detaily „při zachování vizuální kvality a dodržení zadání uživatele“. Sora rozumí nejen tomu, co uživatel požaduje, ale také tomu, jak tyto věci existují ve fyzickém světě.

Využíváte už některé z inovativních metod šifrování?

Podle Bernarda Marra, technologického futuristy a konzultanta, technologie v podstatě převádí psané popisy na videoobsah pomocí modelů umělé inteligence, které rozumí textovým vstupům a generují odpovídající vizuální a zvukové prvky.

„Tento proces zahrnuje algoritmy hlubokého učení schopné interpretovat text a syntetizovat videa, která odrážejí popsané scény, akce a dialogy,“ říká Marr.

Ačkoli nejde o novou schopnost enginů umělé inteligence, které nabízejí i jiní poskytovatelé, jako je například Gemini společnosti Google, Marr očekává, že dopad Sory bude značný. Stejně jako každá pokročilá technologie genAI podle něj i Sora pomůže změnit tvorbu obsahu, zlepšit vyprávění příběhů a demokratizovat produkci videa. Potenciál má prý zejména v oblastech jako jsou vzdělávání, marketing nebo zábavní průmysl.

Marr však upozorňuje, že schopnost modelů umělé inteligence převádět textové popisy na plnohodnotná videa také zdůrazňuje potřebu přísných etických úvah a záruk proti zneužití.

Chcete dostávat do mailu týdenní přehled článků z Computerworldu? Objednejte si náš mailový servis a žádná důležitá informace vám neuteče. Objednat si lze také newsletter To hlavní, páteční souhrn nejdůležitějších článků ze všech našich serverů. Newslettery si můžete objednat na této stránce.

„Nástup technologie převodu textu na video přináší složité otázky týkající se porušování autorských práv, zejména proto, že je schopna generovat obsah, který může věrně kopírovat díla chráněná autorským právem,“ podotýká Marr s tím, že v současnosti na toto téma už probíhá několik soudních sporů.

„Obavy vzbuzuje schopnost technologie vytvářet velmi přesvědčivé deepfakes, což vyvolává vážné etické problémy a problémy s ochranou soukromí, což podtrhuje potřebu důkladné kontroly a regulace.“

Dan Faggella, zakladatel a vedoucí výzkumný pracovník společnosti Emerj Artificial Intelligence, přednesl před pěti lety v OSN prezentaci právě o deepfakes. Tehdy zdůraznil, že bez ohledu na varování „lidé budou chtít věřit tomu, čemu chtějí věřit“.

Za zvážení však stojí i následující: lidé budou brzy moci žít ve světech vygenerovaných umělou inteligencí, kdy jim postačí headset a jedinečný na míru vytvořený svět vygenerovaný umělou inteligencí, který uspokojí jejich emocionální potřeby, ať už jde o relaxaci, humor nebo akci.

„A to, co bude stroj schopen udělat, je vykouzlit pro mě vizuální a zvukové a nakonec i haptické zážitky, které jsou vyškoleny na základě (předchozích zkušeností) s nošením headsetu“ řekl tehdy Faggella a nadhodil i téma k zamyšlení. „Musíme se i z pohledu regulace zamyslet nad tím, kolik takového eskapismu povolíme.“

Modely převodu textu na video mohou také vytvářet aplikace, které vykouzlí zážitky s umělou inteligencí a pomohou lidem být produktivní, vzdělávat je a udržet je soustředěné na jejich nejdůležitější práci.

„Možná je vyškolí, aby se stali skvělými prodejci, možná jim pomohou napsat skvělý kód a umožnit mnohem více kódování, než umí právě teď,“ řekl.

Jak model Sora společnosti OpenAI, tak multimodální model umělé inteligence Gemini 1.5 společnosti Google jsou prozatím interními výzkumnými projekty, které jsou nabízeny pouze určitému okruhu akademických pracovníků třetích stran a dalším subjektům testujícím tuto technologii. Přestože jsou Sora a Gemini 1.5 v současné době interními projekty, prezentují reálné příklady a podrobné informace, včetně videí, fotografií, gifů a souvisejících výzkumných prací.

Spolu s multimodálním enginem umělé inteligence Gemini předcházelo aplikaci Sora několik modelů pro převod textu na video, včetně modelů Emu společnosti Meta, Gen-2 společnosti Runway a Stability AI's Stable Video Diffusion.

Google má navíc dva souběžné výzkumné projekty, které označuje za „nejmodernější modely generování videa“. Jedná se o projekty Lumiere a VideoPoet. Lumiere, který byl zveřejněn na začátku února, je pokročilejší technologie generování videa, když nabízí 80 snímků za sekundu ve srovnání s 25 snímky za sekundu u konkurentů, jako je Stable Video Diffusion.

„Gemini, který je určen ke zpracování informací a automatizaci úkolů, nabízí od počátku bezproblémovou integraci modalit, což jej potenciálně činí intuitivnějším pro uživatele, kteří hledají přímočaré, na úkoly zaměřené prostředí,“ říká Marr. „Na druhou stranu, přístup GPT-4 založený na vrstvení umožňuje v průběhu času granulárnější vylepšování schopností, což poskytuje flexibilitu a hloubku konverzačních schopností a generování obsahu.“

V přímém srovnání se Sora jeví jako výkonnější než modely generování videa společnosti Google. Zatímco Lumiere dokáže vytvořit video s rozlišením 512 × 512 pixelů, Sora tvrdí, že dosahuje rozlišení až 1920 × 1080 pixelů neboli FullHD kvality. Délka videí Lumiere je omezena na přibližně 5 sekund, videa Sora mohou trvat až jednu minutu.

Lumiere navíc nemůže vytvářet videa složená z více záběrů, zatímco Sora ano. Sora, stejně jako ostatní modely, je údajně schopna provádět také úkoly spojené s úpravou videa, jako je vytváření videí z obrázků nebo jiných videí, kombinování prvků z různých videí a prodlužování videí v čase.

„V konkurenci mezi Sorou od OpenAI a startupy, jako je Runway AI, může zavedenost značky nabídnout výhody z hlediska spolehlivosti a škálovatelnosti,“ říká Marr. „Zatímco startupy často přinášejí inovativní přístupy a agilitu, OpenAI s velkým financováním od společností, jako je Microsoft, bude schopna je dohnat a případně rychle předehnat.“

Computerworld si můžete objednat i jako klasický časopis. Je jediným odborným měsíčníkem na českém a slovenském trhu zaměreným na profesionály v oblasti informačních a komunikačních technologií (ICT). Díky silnému zázemí přináší aktuální zpravodajství, analýzy, komentáře a přehledy nejnovejších technologií dříve a na vyšší odborné úrovni, než ostatní periodika na tuzemském trhu.

Obsah Computerworldu je určen odborníkům a manažerům z firem a institucí, kteří se podílejí na rozhodovacím procesu při nákupu ICT technologií. Jednotlivá čísla si můžete objednat i v digitální podobě.

Našli jste v článku chybu?

Sdílet

Využíváte už některé z inovativních metod šifrování?

Kyberútočníci si pomáhají umělou inteligencí, obránci oplácejí stejnou mincí

Jedna z nejhorších aplikací Windows doznala vylepšení

Autor článku

Lucas Mearian

Témata:

Mohlo by vás zajímat

Anketa

Využíváte už některé z inovativních metod šifrování?

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Co zjistil „Staťák“ o české digitální ekonomice?

Veselé Vánoce a šťastný nový rok 2025

Vivolink představí svoje ProAV a systémová řešení na veletrhu ISE 2025 v Barceloně

Spěcháte na návratnost investic AI? Je možné, že to bude drahé

Vyšlo nové číslo CFOworldu 4/2024

Arrow Electronics je AWS Rising Star Distributor Partner roku v regionu EMEA

Nedostatečné zabezpečení koncových zařízení ohrožuje firmy

Co se v roce 2025 mění pro firmy, zaměstnance a daňové poplatníky?

AT Computers je IDG Distributorem roku společnosti Lenovo

Text-to-video genAI nástroj Sora mění svět

Sdílet

Využíváte už některé z inovativních metod šifrování?

Kyberútočníci si pomáhají umělou inteligencí, obránci oplácejí stejnou mincí

Jedna z nejhorších aplikací Windows doznala vylepšení

Autor článku

Lucas Mearian

Témata:

Mohlo by vás zajímat

Předpověď kybernetických hrozeb pro rok 2025: Připravte se na větší a odvážnější útoky

Co je nejoblíbenější způsob použití umělé inteligence v práci?

Europol zatnul tipec hackerům, chystali hromadný útok během Vánoc

Kybernetická bezpečnost: Podcast o tajemstvích bezpečnostních operačních center s Pavlem Hrabcem

Anketa

Využíváte už některé z inovativních metod šifrování?

Kvíz týdne

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Z našich webů

Co zjistil „Staťák“ o české digitální ekonomice?

Veselé Vánoce a šťastný nový rok 2025

Vivolink představí svoje ProAV a systémová řešení na veletrhu ISE 2025 v Barceloně

Spěcháte na návratnost investic AI? Je možné, že to bude drahé

Vyšlo nové číslo CFOworldu 4/2024

Arrow Electronics je AWS Rising Star Distributor Partner roku v regionu EMEA

Nedostatečné zabezpečení koncových zařízení ohrožuje firmy

Co se v roce 2025 mění pro firmy, zaměstnance a daňové poplatníky?

AT Computers je IDG Distributorem roku společnosti Lenovo

Dále u nás najdete

Tyhle věci nezapomeňte do konce roku udělat, ušetříte tisíce

Online nákupy pohodlně. Známe trendy v e-commerce pro rok 2025

Reklama přímo v systému televize: Co kdyby nešla vypnout?

Outlook, jak ho známe, končí. Co ho nahradí a kdy?

Rekord Lindy Bartošové. Slast je na Wave nejúspěšnější

Let's Encrypt příští rok nabídne certifikáty jen na šest dnů

Co nás čeká příští rok v automatizaci a umělé inteligenci?

Hrozbou číslo jedna pro české počítače je spyware Formbook

Staronová podoba dohod o provedení práce 2025

Celofán nepatří do plastu a rozbité ozdoby nesmí do skla

Vztah k rodinné firmě by si nástupci měli tvořit už jako děti

Bramborový salát se vám povede, když koupíte správné brambory

Místo 25 formulářů budou firmy dávat jen jedno hlášení

Česká ekonomika příští rok zrychlí růst na 2,6 procenta

Jaká jsou úskalí recenzí spotřebitele z pohledu podnikatele?

Minimální mzda v roce 2025 vzroste, zaručená mzda končí

Češi mají aplikaci, která propojuje lidi podle společných koníčků

Operátoři testují nástroj proti podvrženým mobilním číslům

Experti zpochybnili pilíř, podle kterého se hodnotí zranitelnosti

GenAI nástroje pro tvorbu 3D světů přicházejí