Nová verze ChatGPT je tady, umí i třeba hlas

14. 5. 2024

OpenAI tvrdí, že inovovala svůj velký jazykový model, který je schopen komunikovat s rychlostí podobnou člověku pomocí textu, hlasu a vizuálních pokynů. Ne všichni analytici s tím ale souhlasí.

Po týdnech spekulací oznámil tvůrce ChatGPT, společnost OpenAI, novou verzi ChatGPT pro stolní počítače a upgrade uživatelského rozhraní nazvaný GPT-4o, který umožňuje komunikovat pomocí textových, hlasových a vizuálních výzev.

Pokud využíváte AI pro rozhodování, zkreslila už nějakou odpověď?

GPT-4o dokáže rozpoznat a reagovat na snímky obrazovky, fotografie, dokumenty nebo grafy, které do něj byly nahrány. Nový model GPT-4o dokáže rozpoznat také výrazy obličeje a informace napsané rukou na papíře. Společnost OpenAI uvedla, že vylepšený model a doprovodný chatbot dokáže reagovat na zvukové vstupy již za 232 milisekund, přičemž průměrná doba reakce je 320 milisekund, „což je podobná doba reakce člověka při konverzaci“.

Předchozí verze GPT měly také konverzační hlasový režim, ale jejich latence byla v průměru 2,8 sekundy (v GPT-3.5) a 5,4 sekundy (v GPT-4).

Podle technologické ředitelky společnosti OpenAI Miry Murati se nyní GPT 4o vyrovná výkonu GPT-4 Turbo (vydaného v listopadu) v případě textu v angličtině a kódu a výrazně se zlepší v případě textu v neanglických jazycích, přičemž je také rychlejší a o 50 % levnější ve verzi API.

Video ke kávě

Máte čas na rychlé a informativní video?

„GPT-4o je ve srovnání se stávajícími modely lepší zejména v oblasti vidění a porozumění zvuku,“ uvedla společnost OpenAI ve svém oznámení.

Během akce na pódiu Muratiová uvedla, že GPT-4o bude mít také nové paměťové schopnosti, díky nimž se bude moci učit z předchozích konverzací s uživateli a přidávat je ke svým odpovědím.

Chirag Dekate, analytik a viceprezident společnosti Gartner, , uvedl, že ačkoli na něj multimodální velký jazykový model (LLM) společnosti OpenAI udělal dojem, společnost zjevně dohání konkurenci, na rozdíl od svého dřívějšího postavení lídra v oboru generativní AI.

„Nyní začínáte vidět, jak GPT vstupuje do multimodální éry,“ řekl Dekate. „Ale dohánějí to, kde byla společnost Google před třemi měsíci, když oznámila Gemini 1.5, což je její nativní multimodální model s kontextovým oknem o velikosti jednoho milionu tokenů.“

Přesto jsou schopnosti, které předvedl GPT-4o a jeho doprovodný chatbot ChatGPT, na engine pro zpracování přirozeného jazyka působivé. Předvedl lepší konverzační schopnosti, kdy jej uživatelé mohou přerušit a zahájit nové nebo upravené dotazy, a také se vyzná v 50 jazycích. Při jedné živé ukázce na pódiu dokázal hlasový režim překládat tam a zpět mezi Muratim, který mluvil italsky, a Barretem Zophem, vedoucím post-trainingu společnosti OpenAI, který mluvil anglicky.

HP Knowledge HUB pro moderní firemní IT

NOVINKA Navštivte novou speciální on-line zónu CIO Business Worldu, kde vám ve spolupráci s HP budeme průběžně radit, jak snadno a bezpečně pracovat na cestách, jak si usnadnit život používám správných nástrojů, jak zvládnout přechod z kanceláří domů a zase nazpátek a jak se přitom chovat ekologicky.

Pomoc a inspiraci pro moderní IT najdete v našem HP Knowledge HUBu.

Během živé ukázky Zoph také napsal algebraickou rovnici na papír, zatímco ChatGPT sledoval přes objektiv kamery svého telefonu. Zoph poté požádal chatbota, aby mu řešení vysvětlil.

Zatímco rozpoznávání hlasu a konverzační interakce byly velmi podobné lidským, v interaktivním botovi byly také patrné závady, kdy se během konverzace přerušoval a o chvíli později se zase obnovil.

Chatbot byl poté požádán, aby vyprávěl pohádku na dobrou noc. Přednášející mohli chatbota přerušit a nechat ho přidat do intonace hlasu více emocí, a dokonce přejít na počítačové podání příběhu.

V další ukázce Zoph vyvolal na obrazovce svého notebooku softwarový kód a pomocí aplikace hlasových příkazů ChatGPT 4o jej nechal vyhodnotit kód, aplikaci mapující počasí, a určit, o co jde. GPT-4o pak dokázal přečíst graf aplikace a určit na něm datové body týkající se vysokých a nízkých teplot. Murati uvedla, že funkce GPT-4o pro práci s textem a obrázky se budou zavádět iterativně počínaje dneškem.

Platící uživatelé služby ChatGPT Plus budou mít až pětkrát vyšší limity zpráv. Nová verze hlasového režimu s GPT-4o přijde v alfa verzi v příštích týdnech, řekla Murati.

Chcete dostávat do mailu týdenní přehled článků z Computerworldu? Objednejte si náš mailový servis a žádná důležitá informace vám neuteče. Objednat si lze také newsletter To hlavní, páteční souhrn nejdůležitějších článků ze všech našich serverů. Newslettery si můžete objednat na této stránce.

Vývojáři modelů mohou nyní také přistupovat ke GPT-4o v rozhraní API jako k textovému a vizuálnímu modelu. Nový model je dvakrát rychlejší, o polovinu levnější a má pětkrát vyšší limity rychlostí ve srovnání s GPT-4 Turbo, uvedla Murati.

„V příštích týdnech plánujeme spustit podporu nových zvukových a obrazových funkcí modelu GPT-4o pro malou skupinu důvěryhodných partnerů v rozhraní API,“ uvedla.

V oznámení společnosti OpenAI o GPT-4o nebylo podle Dekate jasné, jaká je velikost kontextu vstupního okna, které u GPT-4 činí 128 000 tokenů. „Velikost kontextu pomáhá definovat přesnost modelu. Čím větší je velikost kontextu, tím více dat můžete zadat a tím lepší výstupy získáte,“ řekl.

Například model Gemini 1.5 společnosti Google nabízí kontextové okno o velikosti jednoho milionu tokenů, což z něj činí nejdelší ze všech dosavadních rozsáhlých nadačních modelů. Další v řadě je Claude 2.1 společnosti Anthropic, který nabízí kontextové okno s až 200 000 tokeny. Větší kontextové okno společnosti Google se projevuje tím, že se do něj vejde celá kódová základna aplikace pro aktualizace nebo upgrady modelu genAI; GPT-4 měl schopnost přijmout pouze asi 1 200 řádků kódu, uvedl Dekate.

Mluvčí OpenAI uvedl, že velikost kontextového okna GPT-4o zůstává na 128 kB.

Začátkem tohoto měsíce společnost Mistral rovněž oznámila svůj multimodální model LLaVA-NeXT. A očekává se, že společnost Google učiní další oznámení o Gemini 1.5 na své akci Google I/O.

„V jistém smyslu bych tvrdil, že OpenAI nyní dohání Metu, Google a Mistral,“ řekl Dekate.

Nathaniel Whittemore, generální ředitel platformy Superintelligent pro trénink AI, označil oznámení OpenAI za „nejrozporuplnější“, jaké kdy viděl.

„Někteří mají pocit, že zahlédli budoucnost; vizi z Her přenesenou do reálného života. Jiní si říkají: „To je všechno?“ uvedl v e-mailové odpovědi. „Částečně jde o to, co to nebylo: nebylo to oznámení o GPT4.5 nebo GPT-5. Tohle bylo jen oznámení o tom, co se stalo. Na nejmodernější koně je upřena taková pozornost, že pro některé by cokoli menšího bylo zklamáním, ať už by se dělo cokoli.“

Murati uvedla, že OpenAI si uvědomuje, že GPT-4o přinese také nové možnosti zneužití zvukového a vizuálního rozpoznávání v reálném čase. Uvedla, že společnost bude i nadále spolupracovat s různými subjekty, včetně vlády, médií a zábavního průmyslu, aby se pokusila vyřešit bezpečnostní problémy.

Předchozí verze ChatGPT (4.0) měla také hlasový režim, který používal tři samostatné modely: jeden model přepisuje zvuk na text, druhý přebírá text a vypisuje text a třetí model převádí tento text zpět na zvuk. Tento model, jak vysvětlila Murati, dokáže pozorovat tón, více mluvčích nebo zvuky v pozadí, ale nedokáže vyprodukovat smích, zpěv nebo vyjádřit emoce.

GPT-4o však používá jediný end-to-end model pro text, vidění a zvuk, což znamená, že všechny vstupy a výstupy jsou zpracovávány stejnou neuronovou sítí, což umožňuje větší zážitek v reálném čase.

„Protože je GPT-4o naším prvním modelem, který kombinuje všechny tyto modality, stále ještě jen škrábeme povrch zkoumání toho, co model dokáže, a jeho omezení,“ řekla Murati.

Computerworld si můžete objednat i jako klasický časopis. Je jediným odborným měsíčníkem na českém a slovenském trhu zaměreným na profesionály v oblasti informačních a komunikačních technologií (ICT). Díky silnému zázemí přináší aktuální zpravodajství, analýzy, komentáře a přehledy nejnovejších technologií dříve a na vyšší odborné úrovni, než ostatní periodika na tuzemském trhu.

Obsah Computerworldu je určen odborníkům a manažerům z firem a institucí, kteří se podílejí na rozhodovacím procesu při nákupu ICT technologií. Jednotlivá čísla si můžete objednat i v digitální podobě.

Našli jste v článku chybu?

Sdílet

Pokud využíváte AI pro rozhodování, zkreslila už nějakou odpověď?

Video ke kávě

HP Knowledge HUB pro moderní firemní IT

Blíží se uzávěrka druhého kola soutěže IT produkt roku 2024

Autor článku

Lucas Merian

Témata:

Mohlo by vás zajímat

Anketa

Využíváte už některé z inovativních metod šifrování?

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Spěcháte na návratnost investic AI? Je možné, že to bude drahé

Vyšlo nové číslo CFOworldu 4/2024

Vivolink představí svoje ProAV a systémová řešení na veletrhu ISE 2025 v Barceloně

Nedostatečné zabezpečení koncových zařízení ohrožuje firmy

Co se v roce 2025 mění pro firmy, zaměstnance a daňové poplatníky?

Arrow Electronics je AWS Rising Star Distributor Partner roku v regionu EMEA

Jak zabránit zneužívání umělé inteligence – je AI Akt řešením?

Novela zákoníku práce pohledem firem? Rychlejší výpovědi a nedořešení dohodáři

AT Computers je IDG Distributorem roku společnosti Lenovo

Nová verze ChatGPT je tady, umí i třeba hlas

Sdílet

Pokud využíváte AI pro rozhodování, zkreslila už nějakou odpověď?

Video ke kávě

HP Knowledge HUB pro moderní firemní IT

Blíží se uzávěrka druhého kola soutěže IT produkt roku 2024

Autor článku

Lucas Merian

Témata:

Mohlo by vás zajímat

Kybernetická bezpečnost: Podcast o tajemstvích bezpečnostních operačních center s Pavlem Hrabcem

Europol zatnul tipec hackerům, chystali hromadný útok během Vánoc

Předpověď kybernetických hrozeb pro rok 2025: Připravte se na větší a odvážnější útoky

Co je nejoblíbenější způsob použití umělé inteligence v práci?

Anketa

Využíváte už některé z inovativních metod šifrování?

Kvíz týdne

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Z našich webů

Spěcháte na návratnost investic AI? Je možné, že to bude drahé

Vyšlo nové číslo CFOworldu 4/2024

Vivolink představí svoje ProAV a systémová řešení na veletrhu ISE 2025 v Barceloně

Nedostatečné zabezpečení koncových zařízení ohrožuje firmy

Co se v roce 2025 mění pro firmy, zaměstnance a daňové poplatníky?

Arrow Electronics je AWS Rising Star Distributor Partner roku v regionu EMEA

Jak zabránit zneužívání umělé inteligence – je AI Akt řešením?

Novela zákoníku práce pohledem firem? Rychlejší výpovědi a nedořešení dohodáři

AT Computers je IDG Distributorem roku společnosti Lenovo

Dále u nás najdete

Nestrkejte mrtvolu do auta, když kolem jede Google Street View

640 kB paměti by mělo stačit každému: skutečně?

Neplaťte si IT kurzy sami, využijte dotace od EU

Gynekologie zavedla poplatky, pacientky si to nenechaly líbit

Při balení dárků nemusíte vůbec používat izolepu, dokonce ani papír

Outlook, jak ho známe, končí. Co ho nahradí a kdy?

Operátoři testují nástroj proti podvrženým mobilním číslům

Jak okresní města mění koeficienty k dani z nemovitostí

Čtvrtinu dat posílaných z mobilu na internet tvoří obsah na sociální sítě

Autor zasněžených Vánoc přišel jako malý o oko

Google Agentspace zpřístupní AI agenty pro zaměstnance

Kapr se dříve připravoval na modro. Dnes se hlavně smaží, vyzkoušejte podkovy

Vztah k rodinné firmě by si nástupci měli tvořit už jako děti

Nové HDMI 2.2 už je za rohem

Online nákupy pohodlně. Známe trendy v e-commerce pro rok 2025

Hranolky, pizza, tatarák: příběhy pokrmů jsou často vymyšlené

Zahraniční cestovní náhrady 2025: Téměř 40 změn

GenAI nástroje pro tvorbu 3D světů přicházejí

I diabetici si mohou dát cukroví. Místo piva však raději střik

Díky aplikaci placené pojišťovnou se povedlo objevit devět melanomů