Google zvyšuje výkon svého genAI modelu s Gemini 1.5

22. 2. 2024

Sdílet

 Autor: PCWorld s využitím DALL-E
Týden po uvedení Gemini 1.0 začíná Google testovat multimodální genAI model Gemini 1.5.

Pouhý týden poté, co Google zveřejnil svůj nejnovější model generativní umělé inteligence, představil jeho nástupce Gemini 1.5. Společnost se chlubí, že nová verze překonává tu předchozí téměř ve všech ohledech.

Pokud využíváte AI pro rozhodování, zkreslila už nějakou odpověď?

Gemini 1.5 je multimodální model umělé inteligence, který je nyní připraven k předběžnému testování. Na rozdíl od populárního ChatGPT společnosti OpenAI mohou podle Googlu uživatelé do jeho dotazovacího systému zadávat mnohem větší množství informací, aby získali přesnější odpovědi.

Společnost OpenAI v těchto dnech rovněž oznámila nový model AI: Sora pro převod textu na video, který dokáže generovat složité video scény s více postavami, specifickými typy pohybu, přesnými detaily i pozadí. Model rozumí nejen tomu, co uživatel v zadání požadoval, ale také tomu, jak tyto věci existují ve fyzickém světě.

Modely Gemini společnosti Google jsou jedinými nativními multimodálními rozsáhlými jazykovými modely (LLM) v oboru. To znamená, že Gemini 1.0 i Gemini 1.5 mohou přijímat a generovat obsah prostřednictvím textu, obrázků, zvuku, videa a kódových pokynů. Uživatelské příkazy tak mohou mít například podobu obrázků JPEG, WEBP, HEIC nebo HEIF.

Šestero nejpřeceňovanějších IT technologií Přečtěte si také:

Šestero nejpřeceňovanějších IT technologií

„Jak OpenAI, tak Gemini si uvědomují důležitost multimodality a přistupují k ní různými způsoby. Nezapomínejme, že Sora je pouhý preview model a ne něco, co bude v nejbližší době všeobecně dostupné,“ říká Arun Chandrasekaran, analytik společnosti Gartner. Podle něj bude Sora konkurovat start-upům, jako je například výrobce modelů pro převod textu na video Runway AI.

Gemini 1.0, který byl poprvé představen v prosinci 2023, byl vydán minulý týden. Tímto krokem Google transformoval svého chatbota Bard. Gemini je dle něj flexibilní a může běžet na všech zařízeních od datových center až po mobilní zařízení.

Ačkoli je ChatGPT 4, nejnovější LLM od OpenAI, také multimodální, podle jiného analytika společnosti Gartner Chiraga Dekateho nabízí pouze několik modalit, jako jsou obrázky a text nebo převod textu na video. 

Chcete dostávat do mailu týdenní přehled článků z Computerworldu? Objednejte si náš mailový servis a žádná důležitá informace vám neuteče. Objednat si lze také newsletter To hlavní, páteční souhrn nejdůležitějších článků ze všech našich serverů. Newslettery si můžete objednat na této stránce.

„Google se ujímá své role lídra coby poskytovatel cloudu s umělou inteligencí. Už nezůstává pozadu. V tom už jsou jiní. Pokud jste registrovaným uživatelem služby Google Cloud, máte dnes přístup k více než 132 modelům. Jeho šíře modelů je šílená,“ říká Dekate. 

„Vertikálním odvětvím, které může být prvními uživateli takových modelů, budou média a zábava. Jako další se mezi první přidají odvětví jako marketing a design,“ doplňuje Chandrasekaran.

V současné době společnost OpenAI pracuje na nové generaci GPT 5; tento model bude pravděpodobně také multimodální. Dekate však tvrdí, že GPT 5 se bude skládat z mnoha menších modelů poskládaných dohromady a nebude nativně multimodální. To bude mít pravděpodobně za následek méně efektivní architekturu.

Prvním modelem Gemini 1.5, který Google nabídl k předběžnému testování, je Gemini 1.5 Pro, který společnost popsala jako „multimodální model střední velikosti optimalizovaný pro škálování v širokém spektru úloh“. 

Kvíz: Orientujete se dostatečně v oblasti bezpečnosti? (2) Přečtěte si také:

Kvíz: Orientujete se dostatečně v oblasti bezpečnosti? (2)

Výkonově je na podobné úrovni jako Gemini 1.0 Ultra, dosud největší model, ale podle Googlu vyžaduje výrazně méně GPU cyklů. Gemini 1.5 Pro také zavádí experimentální funkci porozumění dlouhému kontextu, což znamená, že vývojářům umožňuje zadat enginu až 1 milion kontextových tokenů. Uživatel tak může do rozhraní chatbota zadat informace, které vydají na několik knih a získat přesnou odpověď. 

bitcoin_skoleni

Konkurenční LLM jsou obvykle omezeny na kontextová okna s přibližně 10 000 tokeny – s výjimkou GPT 4, který může přijmout až 125 000 tokenů.

Vývojáři se mohou přihlásit k soukromému preview Gemini 1.5 Pro v aplikaci Google AI Studio. To představuje je nejrychlejší způsob, jak modely Gemini využít k tvorbě, a umožňuje vývojářům integrovat rozhraní Gemini API do svých aplikací. Je k dispozici ve 38 jazycích ve více než 180 zemích.

 

Computerworld si můžete objednat i jako klasický časopis. Je jediným odborným měsíčníkem na českém a slovenském trhu zaměreným na profesionály v oblasti informačních a komunikačních technologií (ICT). Díky silnému zázemí přináší aktuální zpravodajství, analýzy, komentáře a přehledy nejnovejších technologií dříve a na vyšší odborné úrovni, než ostatní periodika na tuzemském trhu.

Obsah Computerworldu je určen odborníkům a manažerům z firem a institucí, kteří se podílejí na rozhodovacím procesu při nákupu ICT technologií. Jednotlivá čísla si můžete objednat i v digitální podobě.