Nová verze ChatGPT je tady, umí i třeba hlas

14. 5. 2024

OpenAI tvrdí, že inovovala svůj velký jazykový model, který je schopen komunikovat s rychlostí podobnou člověku pomocí textu, hlasu a vizuálních pokynů. Ne všichni analytici s tím ale souhlasí.

Po týdnech spekulací oznámil tvůrce ChatGPT, společnost OpenAI, novou verzi ChatGPT pro stolní počítače a upgrade uživatelského rozhraní nazvaný GPT-4o, který umožňuje komunikovat pomocí textových, hlasových a vizuálních výzev.

Pokud využíváte AI pro rozhodování, zkreslila už nějakou odpověď?

GPT-4o dokáže rozpoznat a reagovat na snímky obrazovky, fotografie, dokumenty nebo grafy, které do něj byly nahrány. Nový model GPT-4o dokáže rozpoznat také výrazy obličeje a informace napsané rukou na papíře. Společnost OpenAI uvedla, že vylepšený model a doprovodný chatbot dokáže reagovat na zvukové vstupy již za 232 milisekund, přičemž průměrná doba reakce je 320 milisekund, „což je podobná doba reakce člověka při konverzaci“.

Předchozí verze GPT měly také konverzační hlasový režim, ale jejich latence byla v průměru 2,8 sekundy (v GPT-3.5) a 5,4 sekundy (v GPT-4).

Podle technologické ředitelky společnosti OpenAI Miry Murati se nyní GPT 4o vyrovná výkonu GPT-4 Turbo (vydaného v listopadu) v případě textu v angličtině a kódu a výrazně se zlepší v případě textu v neanglických jazycích, přičemž je také rychlejší a o 50 % levnější ve verzi API.

Video ke kávě

Máte čas na rychlé a informativní video?

„GPT-4o je ve srovnání se stávajícími modely lepší zejména v oblasti vidění a porozumění zvuku,“ uvedla společnost OpenAI ve svém oznámení.

Během akce na pódiu Muratiová uvedla, že GPT-4o bude mít také nové paměťové schopnosti, díky nimž se bude moci učit z předchozích konverzací s uživateli a přidávat je ke svým odpovědím.

Chirag Dekate, analytik a viceprezident společnosti Gartner, , uvedl, že ačkoli na něj multimodální velký jazykový model (LLM) společnosti OpenAI udělal dojem, společnost zjevně dohání konkurenci, na rozdíl od svého dřívějšího postavení lídra v oboru generativní AI.

„Nyní začínáte vidět, jak GPT vstupuje do multimodální éry,“ řekl Dekate. „Ale dohánějí to, kde byla společnost Google před třemi měsíci, když oznámila Gemini 1.5, což je její nativní multimodální model s kontextovým oknem o velikosti jednoho milionu tokenů.“

Přesto jsou schopnosti, které předvedl GPT-4o a jeho doprovodný chatbot ChatGPT, na engine pro zpracování přirozeného jazyka působivé. Předvedl lepší konverzační schopnosti, kdy jej uživatelé mohou přerušit a zahájit nové nebo upravené dotazy, a také se vyzná v 50 jazycích. Při jedné živé ukázce na pódiu dokázal hlasový režim překládat tam a zpět mezi Muratim, který mluvil italsky, a Barretem Zophem, vedoucím post-trainingu společnosti OpenAI, který mluvil anglicky.

HP Knowledge HUB pro moderní firemní IT

NOVINKA Navštivte novou speciální on-line zónu CIO Business Worldu, kde vám ve spolupráci s HP budeme průběžně radit, jak snadno a bezpečně pracovat na cestách, jak si usnadnit život používám správných nástrojů, jak zvládnout přechod z kanceláří domů a zase nazpátek a jak se přitom chovat ekologicky.

Pomoc a inspiraci pro moderní IT najdete v našem HP Knowledge HUBu.

Během živé ukázky Zoph také napsal algebraickou rovnici na papír, zatímco ChatGPT sledoval přes objektiv kamery svého telefonu. Zoph poté požádal chatbota, aby mu řešení vysvětlil.

Zatímco rozpoznávání hlasu a konverzační interakce byly velmi podobné lidským, v interaktivním botovi byly také patrné závady, kdy se během konverzace přerušoval a o chvíli později se zase obnovil.

Chatbot byl poté požádán, aby vyprávěl pohádku na dobrou noc. Přednášející mohli chatbota přerušit a nechat ho přidat do intonace hlasu více emocí, a dokonce přejít na počítačové podání příběhu.

V další ukázce Zoph vyvolal na obrazovce svého notebooku softwarový kód a pomocí aplikace hlasových příkazů ChatGPT 4o jej nechal vyhodnotit kód, aplikaci mapující počasí, a určit, o co jde. GPT-4o pak dokázal přečíst graf aplikace a určit na něm datové body týkající se vysokých a nízkých teplot. Murati uvedla, že funkce GPT-4o pro práci s textem a obrázky se budou zavádět iterativně počínaje dneškem.

Platící uživatelé služby ChatGPT Plus budou mít až pětkrát vyšší limity zpráv. Nová verze hlasového režimu s GPT-4o přijde v alfa verzi v příštích týdnech, řekla Murati.

Chcete dostávat do mailu týdenní přehled článků z Computerworldu? Objednejte si náš mailový servis a žádná důležitá informace vám neuteče. Objednat si lze také newsletter To hlavní, páteční souhrn nejdůležitějších článků ze všech našich serverů. Newslettery si můžete objednat na této stránce.

Vývojáři modelů mohou nyní také přistupovat ke GPT-4o v rozhraní API jako k textovému a vizuálnímu modelu. Nový model je dvakrát rychlejší, o polovinu levnější a má pětkrát vyšší limity rychlostí ve srovnání s GPT-4 Turbo, uvedla Murati.

„V příštích týdnech plánujeme spustit podporu nových zvukových a obrazových funkcí modelu GPT-4o pro malou skupinu důvěryhodných partnerů v rozhraní API,“ uvedla.

V oznámení společnosti OpenAI o GPT-4o nebylo podle Dekate jasné, jaká je velikost kontextu vstupního okna, které u GPT-4 činí 128 000 tokenů. „Velikost kontextu pomáhá definovat přesnost modelu. Čím větší je velikost kontextu, tím více dat můžete zadat a tím lepší výstupy získáte,“ řekl.

Například model Gemini 1.5 společnosti Google nabízí kontextové okno o velikosti jednoho milionu tokenů, což z něj činí nejdelší ze všech dosavadních rozsáhlých nadačních modelů. Další v řadě je Claude 2.1 společnosti Anthropic, který nabízí kontextové okno s až 200 000 tokeny. Větší kontextové okno společnosti Google se projevuje tím, že se do něj vejde celá kódová základna aplikace pro aktualizace nebo upgrady modelu genAI; GPT-4 měl schopnost přijmout pouze asi 1 200 řádků kódu, uvedl Dekate.

Mluvčí OpenAI uvedl, že velikost kontextového okna GPT-4o zůstává na 128 kB.

Začátkem tohoto měsíce společnost Mistral rovněž oznámila svůj multimodální model LLaVA-NeXT. A očekává se, že společnost Google učiní další oznámení o Gemini 1.5 na své akci Google I/O.

„V jistém smyslu bych tvrdil, že OpenAI nyní dohání Metu, Google a Mistral,“ řekl Dekate.

Nathaniel Whittemore, generální ředitel platformy Superintelligent pro trénink AI, označil oznámení OpenAI za „nejrozporuplnější“, jaké kdy viděl.

„Někteří mají pocit, že zahlédli budoucnost; vizi z Her přenesenou do reálného života. Jiní si říkají: „To je všechno?“ uvedl v e-mailové odpovědi. „Částečně jde o to, co to nebylo: nebylo to oznámení o GPT4.5 nebo GPT-5. Tohle bylo jen oznámení o tom, co se stalo. Na nejmodernější koně je upřena taková pozornost, že pro některé by cokoli menšího bylo zklamáním, ať už by se dělo cokoli.“

Murati uvedla, že OpenAI si uvědomuje, že GPT-4o přinese také nové možnosti zneužití zvukového a vizuálního rozpoznávání v reálném čase. Uvedla, že společnost bude i nadále spolupracovat s různými subjekty, včetně vlády, médií a zábavního průmyslu, aby se pokusila vyřešit bezpečnostní problémy.

Předchozí verze ChatGPT (4.0) měla také hlasový režim, který používal tři samostatné modely: jeden model přepisuje zvuk na text, druhý přebírá text a vypisuje text a třetí model převádí tento text zpět na zvuk. Tento model, jak vysvětlila Murati, dokáže pozorovat tón, více mluvčích nebo zvuky v pozadí, ale nedokáže vyprodukovat smích, zpěv nebo vyjádřit emoce.

GPT-4o však používá jediný end-to-end model pro text, vidění a zvuk, což znamená, že všechny vstupy a výstupy jsou zpracovávány stejnou neuronovou sítí, což umožňuje větší zážitek v reálném čase.

„Protože je GPT-4o naším prvním modelem, který kombinuje všechny tyto modality, stále ještě jen škrábeme povrch zkoumání toho, co model dokáže, a jeho omezení,“ řekla Murati.

Computerworld si můžete objednat i jako klasický časopis. Je jediným odborným měsíčníkem na českém a slovenském trhu zaměreným na profesionály v oblasti informačních a komunikačních technologií (ICT). Díky silnému zázemí přináší aktuální zpravodajství, analýzy, komentáře a přehledy nejnovejších technologií dříve a na vyšší odborné úrovni, než ostatní periodika na tuzemském trhu.

Obsah Computerworldu je určen odborníkům a manažerům z firem a institucí, kteří se podílejí na rozhodovacím procesu při nákupu ICT technologií. Jednotlivá čísla si můžete objednat i v digitální podobě.

Našli jste v článku chybu?

Sdílet

Pokud využíváte AI pro rozhodování, zkreslila už nějakou odpověď?

Video ke kávě

HP Knowledge HUB pro moderní firemní IT

Blíží se uzávěrka druhého kola soutěže IT produkt roku 2024

Autor článku

Lucas Merian

Témata:

Mohlo by vás zajímat

Anketa

Využíváte už ve firmě autonomní agenty postavené na bázi umělé inteligence?

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Vsadili jste na digitální transformaci? Čekají vás neustálé změny a úpravy

Třetí čtvrtletí letošního roku ryze českých investic

Coffee break: Když Wi-Fi potřebuje překonávat i kovové zdi

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Na co mají zaměstnanci nárok, pokud se starají o nemocné blízké?

HPE ocenilo partnery roku 2024, nejlepším distributorem je DNS

Raspberry Pi: jaké příslušenství zvolit pro začátek?

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

IDC: Dodávky průmyslových tiskáren stagnují, výkonnost segmentů se ale liší

Nová verze ChatGPT je tady, umí i třeba hlas

Sdílet

Pokud využíváte AI pro rozhodování, zkreslila už nějakou odpověď?

Video ke kávě

HP Knowledge HUB pro moderní firemní IT

Blíží se uzávěrka druhého kola soutěže IT produkt roku 2024

Autor článku

Lucas Merian

Témata:

Mohlo by vás zajímat

Podcast: Kybernetická bezpečnost v Česku – dokážeme čelit novým hrozbám?

Co se dočtete v novém Computerworldu 11/2024?

Windows Recall: Kontroverzní funkce sledující obrazovku má další zpoždění!

Anketa

Využíváte už ve firmě autonomní agenty postavené na bázi umělé inteligence?

Kvíz týdne

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Z našich webů

Vsadili jste na digitální transformaci? Čekají vás neustálé změny a úpravy

Třetí čtvrtletí letošního roku ryze českých investic

Coffee break: Když Wi-Fi potřebuje překonávat i kovové zdi

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Na co mají zaměstnanci nárok, pokud se starají o nemocné blízké?

HPE ocenilo partnery roku 2024, nejlepším distributorem je DNS

Raspberry Pi: jaké příslušenství zvolit pro začátek?

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

IDC: Dodávky průmyslových tiskáren stagnují, výkonnost segmentů se ale liší

Dále u nás najdete

Čeští středoškoláci očekávají vypuštění své družice

Firmy mají řešit byznys, ne hledat účtenky, razí Fidoo

Dřívější neplodnost dnes řeší miniinvazivní operace

Lumbální punkce sice vypadá děsivě, ale nebolí

Začátek adventu je ten pravý čas, kdy začít s vánoční výzdobou

Policie zatkla provozovatele tržiště pro DDoS útoky

Opatrně s kofeinovým práškem, už jedna lžička je životu nebezpečná

Papírové letáky budou zpoplatněny, může jít o desetník za kus

Jak Mikýř vyděsil Novu, ale nakonec vydělaly obě strany

Balík od DPD si nově můžete vyzvednout i na České poště

Oznámení o osvobozených příjmech: shrnutí povinností

Chrome OS se zřejmě promění v Android

Youtubeři a influenceři se musí registrovat

Šlamastika kolem pozastavené výplaty důchodu

Jak uplatní pracující důchodci u zaměstnavatele slevu na pojistném?

World of Warcraft slaví 20 let a stále se hraje

Vánoční slevy operátorů? Daleko za očekáváním

Osvědčené způsoby, jak snížit vysoký krevní tlak

Obsah vytvořený pomocí AI vidíte každý den. Jen to nevíte

Správná péče o bércové vředy může zabránit zanícení