Google zvyšuje výkon svého genAI modelu s Gemini 1.5

22. 2. 2024

Týden po uvedení Gemini 1.0 začíná Google testovat multimodální genAI model Gemini 1.5.

Pouhý týden poté, co Google zveřejnil svůj nejnovější model generativní umělé inteligence, představil jeho nástupce Gemini 1.5. Společnost se chlubí, že nová verze překonává tu předchozí téměř ve všech ohledech.

Pokud využíváte AI pro rozhodování, zkreslila už nějakou odpověď?

Gemini 1.5 je multimodální model umělé inteligence, který je nyní připraven k předběžnému testování. Na rozdíl od populárního ChatGPT společnosti OpenAI mohou podle Googlu uživatelé do jeho dotazovacího systému zadávat mnohem větší množství informací, aby získali přesnější odpovědi.

Společnost OpenAI v těchto dnech rovněž oznámila nový model AI: Sora pro převod textu na video, který dokáže generovat složité video scény s více postavami, specifickými typy pohybu, přesnými detaily i pozadí. Model rozumí nejen tomu, co uživatel v zadání požadoval, ale také tomu, jak tyto věci existují ve fyzickém světě.

Modely Gemini společnosti Google jsou jedinými nativními multimodálními rozsáhlými jazykovými modely (LLM) v oboru. To znamená, že Gemini 1.0 i Gemini 1.5 mohou přijímat a generovat obsah prostřednictvím textu, obrázků, zvuku, videa a kódových pokynů. Uživatelské příkazy tak mohou mít například podobu obrázků JPEG, WEBP, HEIC nebo HEIF.

„Jak OpenAI, tak Gemini si uvědomují důležitost multimodality a přistupují k ní různými způsoby. Nezapomínejme, že Sora je pouhý preview model a ne něco, co bude v nejbližší době všeobecně dostupné,“ říká Arun Chandrasekaran, analytik společnosti Gartner. Podle něj bude Sora konkurovat start-upům, jako je například výrobce modelů pro převod textu na video Runway AI.

Gemini 1.0, který byl poprvé představen v prosinci 2023, byl vydán minulý týden. Tímto krokem Google transformoval svého chatbota Bard. Gemini je dle něj flexibilní a může běžet na všech zařízeních od datových center až po mobilní zařízení.

Ačkoli je ChatGPT 4, nejnovější LLM od OpenAI, také multimodální, podle jiného analytika společnosti Gartner Chiraga Dekateho nabízí pouze několik modalit, jako jsou obrázky a text nebo převod textu na video.

Chcete dostávat do mailu týdenní přehled článků z Computerworldu? Objednejte si náš mailový servis a žádná důležitá informace vám neuteče. Objednat si lze také newsletter To hlavní, páteční souhrn nejdůležitějších článků ze všech našich serverů. Newslettery si můžete objednat na této stránce.

„Google se ujímá své role lídra coby poskytovatel cloudu s umělou inteligencí. Už nezůstává pozadu. V tom už jsou jiní. Pokud jste registrovaným uživatelem služby Google Cloud, máte dnes přístup k více než 132 modelům. Jeho šíře modelů je šílená,“ říká Dekate.

„Vertikálním odvětvím, které může být prvními uživateli takových modelů, budou média a zábava. Jako další se mezi první přidají odvětví jako marketing a design,“ doplňuje Chandrasekaran.

V současné době společnost OpenAI pracuje na nové generaci GPT 5; tento model bude pravděpodobně také multimodální. Dekate však tvrdí, že GPT 5 se bude skládat z mnoha menších modelů poskládaných dohromady a nebude nativně multimodální. To bude mít pravděpodobně za následek méně efektivní architekturu.

Prvním modelem Gemini 1.5, který Google nabídl k předběžnému testování, je Gemini 1.5 Pro, který společnost popsala jako „multimodální model střední velikosti optimalizovaný pro škálování v širokém spektru úloh“.

Výkonově je na podobné úrovni jako Gemini 1.0 Ultra, dosud největší model, ale podle Googlu vyžaduje výrazně méně GPU cyklů. Gemini 1.5 Pro také zavádí experimentální funkci porozumění dlouhému kontextu, což znamená, že vývojářům umožňuje zadat enginu až 1 milion kontextových tokenů. Uživatel tak může do rozhraní chatbota zadat informace, které vydají na několik knih a získat přesnou odpověď.

Konkurenční LLM jsou obvykle omezeny na kontextová okna s přibližně 10 000 tokeny – s výjimkou GPT 4, který může přijmout až 125 000 tokenů.

Vývojáři se mohou přihlásit k soukromému preview Gemini 1.5 Pro v aplikaci Google AI Studio. To představuje je nejrychlejší způsob, jak modely Gemini využít k tvorbě, a umožňuje vývojářům integrovat rozhraní Gemini API do svých aplikací. Je k dispozici ve 38 jazycích ve více než 180 zemích.

Computerworld si můžete objednat i jako klasický časopis. Je jediným odborným měsíčníkem na českém a slovenském trhu zaměreným na profesionály v oblasti informačních a komunikačních technologií (ICT). Díky silnému zázemí přináší aktuální zpravodajství, analýzy, komentáře a přehledy nejnovejších technologií dříve a na vyšší odborné úrovni, než ostatní periodika na tuzemském trhu.

Obsah Computerworldu je určen odborníkům a manažerům z firem a institucí, kteří se podílejí na rozhodovacím procesu při nákupu ICT technologií. Jednotlivá čísla si můžete objednat i v digitální podobě.

Našli jste v článku chybu?

Sdílet

Pokud využíváte AI pro rozhodování, zkreslila už nějakou odpověď?

Šestero nejpřeceňovanějších IT technologií

Kvíz: Orientujete se dostatečně v oblasti bezpečnosti? (2)

Autor článku

Lucas Merian

Témata:

Mohlo by vás zajímat

Anketa

Využíváte už některé z inovativních metod šifrování?

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Spěcháte na návratnost investic AI? Je možné, že to bude drahé

Vyšlo nové číslo CFOworldu 4/2024

Vivolink představí svoje ProAV a systémová řešení na veletrhu ISE 2025 v Barceloně

Nedostatečné zabezpečení koncových zařízení ohrožuje firmy

Co se v roce 2025 mění pro firmy, zaměstnance a daňové poplatníky?

Arrow Electronics je AWS Rising Star Distributor Partner roku v regionu EMEA

Jak zabránit zneužívání umělé inteligence – je AI Akt řešením?

Novela zákoníku práce pohledem firem? Rychlejší výpovědi a nedořešení dohodáři

AT Computers je IDG Distributorem roku společnosti Lenovo

Google zvyšuje výkon svého genAI modelu s Gemini 1.5

Sdílet

Pokud využíváte AI pro rozhodování, zkreslila už nějakou odpověď?

Šestero nejpřeceňovanějších IT technologií

Kvíz: Orientujete se dostatečně v oblasti bezpečnosti? (2)

Autor článku

Lucas Merian

Témata:

Mohlo by vás zajímat

Co je nejoblíbenější způsob použití umělé inteligence v práci?

Europol zatnul tipec hackerům, chystali hromadný útok během Vánoc

Předpověď kybernetických hrozeb pro rok 2025: Připravte se na větší a odvážnější útoky

Kybernetická bezpečnost: Podcast o tajemstvích bezpečnostních operačních center s Pavlem Hrabcem

Anketa

Využíváte už některé z inovativních metod šifrování?

Kvíz týdne

TIP NA VIDEO

SPECIÁLNÍ PROJEKTY

Z našich webů

Spěcháte na návratnost investic AI? Je možné, že to bude drahé

Vyšlo nové číslo CFOworldu 4/2024

Vivolink představí svoje ProAV a systémová řešení na veletrhu ISE 2025 v Barceloně

Nedostatečné zabezpečení koncových zařízení ohrožuje firmy

Co se v roce 2025 mění pro firmy, zaměstnance a daňové poplatníky?

Arrow Electronics je AWS Rising Star Distributor Partner roku v regionu EMEA

Jak zabránit zneužívání umělé inteligence – je AI Akt řešením?

Novela zákoníku práce pohledem firem? Rychlejší výpovědi a nedořešení dohodáři

AT Computers je IDG Distributorem roku společnosti Lenovo

Dále u nás najdete

Při balení dárků nemusíte vůbec používat izolepu, dokonce ani papír

Outlook, jak ho známe, končí. Co ho nahradí a kdy?

Jak okresní města mění koeficienty k dani z nemovitostí

OpenAI zavádí do ChatGPT „Santa Mode“. Co říká na Ježíška?

Vyšetření krvácení do stolice jako prevence rakoviny nestačí

Neplaťte si IT kurzy sami, využijte dotace od EU

Let's Encrypt příští rok nabídne certifikáty jen na šest dnů

I diabetici si mohou dát cukroví. Místo piva však raději střik

Minimální mzda v roce 2025 vzroste, zaručená mzda končí

Nejistota pro podnikatele, zásadní změny DPH ještě nejsou schváleny

Nová prevence může zachránit před prasknutím aorty

Raspberry Pi má nový počítač v klávesnici a monitor

Online nákupy pohodlně. Známe trendy v e-commerce pro rok 2025

Zahraniční cestovní náhrady 2025: Téměř 40 změn

Nakupování během vánočních svátků: Zákon řeší otevírací dobu jasně

Tyhle věci nezapomeňte do konce roku udělat, ušetříte tisíce

Díky aplikaci placené pojišťovnou se povedlo objevit devět melanomů

Hranolky, pizza, tatarák: příběhy pokrmů jsou často vymyšlené

Jaká jsou úskalí recenzí spotřebitele z pohledu podnikatele?

Google Agentspace zpřístupní AI agenty pro zaměstnance