Generativní AI jako open source projekt

Sdílet

 Autor: Computerworld.cz s využitím Dall-E
Open source modely generativní umělé inteligence (GenAI) lze stáhnout zdarma, lze je používat ve velkém měřítku a mohou běžet bezpečně za firemními firewally. Jsou však s nimi spojená i určitá rizika.

Zdá se, že v dnešní době může vytvořit velký jazykový model (LLM) umělé inteligence kdokoli. Přestože nemáte tréninková data ani programátorské dovednosti, můžete vzít svůj oblíbený open source model, vyladit ho a vydat ho pod novým názvem.

Využíváte už v práci současné možnosti umělé inteligence?

Podle zprávy AI Index Report ze Stanfordu vydané letos v dubnu se v loňském roce objevilo celkem 149 základních modelů LLM, z nichž dvě třetiny byly typu open source.

A variant existuje šílené množství – společnost Hugging Face aktuálně eviduje více než 80 tisíc různých LLM jen pro generování textu. Naštěstí vydala žebříček, který umožní modely rychle seřadit podle toho, jaké výsledky mají v různých benchmarcích. Tyto modely sice zaostávají za těmi velkými komerčními, ale rychle se zlepšují.

Žebříčky jsou dobrým místem, kde začít, když se zajímáte o open source GenAI, a zejména v Hugging Face odvedli dobrou práci při srovnávání, říká David Guarrera, šéf pro generativní AI ve společnosti EY.

„Nepodceňujte však své schopnosti a možnosti si s těmito modely pohrát,“ připomíná. „Protože jde o open source, je snadné to udělat a případně je vyměnit.“ Navíc se zmenšuje výkonnostní propast mezi modely open source a jejich komerčními alternativami s uzavřeným zdrojem, dodává.

„Open source považuji za nesmírně cenný,“ dodává Val Marchevsky, šéf vývoje ve společnosti Uber Freight. Nejen že proprietární modely dohání z hlediska výkonu, ale v některých případech je k dispozici i úroveň transparentnosti, které se uzavřený zdroj nemůže rovnat, upozorňuje.

„Některé open source modely vám dokonce umožňují vidět, co se používá k usuzování a co nikoli,“ dodává. Auditovatelnost je podle něj důležitá pro prevenci halucinací.

Prémiové AI funkce: Stojí za příplatek? Přečtěte si také:

Prémiové AI funkce: Stojí za příplatek?

Navíc je tu samozřejmě cenová výhoda. „Pokud máte datové centrum, které má kapacitu, proč platit někomu jinému?“ vysvětluje.

Společnosti jsou už z minulosti celkem dobře obeznámené s používáním kódu open source ve své infrastruktuře. Podle analýzy zabezpečení a rizik open source od společnosti Synopsys zveřejněné v únoru 2024 obsahovalo 96 % všech základen komerčního kódu komponenty open source.

V důsledku všech těchto zkušeností by společnosti měly vědět, jak si zajistit, že používají správně licencovaný kód, jak kontrolovat výskyt zranitelností a jak vše udržovat v aktuálním stavu.

Některá z těchto pravidel a osvědčených postupů však mají určitá specifika, u kterých existuje riziko podcenění. Zde je několik nejvýznamnějších.

Podivné nové licenční podmínky

Scenérie různých typů licencí open source je už dost komplikovaná. Lze projekt bezpečně využívat komerčně, nebo jen pro nekomerční implementace? Lze ho upravit a distribuovat? Lze ho bezpečně začlenit do proprietární kódové základny?

S GenAI navíc přichází několik nových komplikací. Za prvé, existují nové typy licencí, které patří do kategorie open source jen ve smyslu velmi volné definice tohoto pojmu.

Vezměme si například licenci pro modely Llama. Tato rodina představuje jedny z nejlepších open source modelů LLM, ale Meta, jejich tvůrce, je oficiálně nabízí pod speciální komerční licencí, která vyvažuje otevřený přístup k těmto modelům se zodpovědností a zavedenou ochranou, což pomáhá řešit potenciální zneužití.

Podniky mohou používat modely Llama komerčně a vývojáři mohou vytvářet i distribuovat další práci nad těmito základními modely Llama, ale nesmějí používat jejich výstupy ke zlepšení LLM, které nejsou od modelů Llama odvozené.

Jak je na tom kybernetická bezpečnost v České republice? Jak bezpečné jsou české digitální sítě?
Jak je na tom kybernetická bezpečnost v České republice? Jak bezpečné jsou české digitální sítě?
0:00/

A pokud mají podniky nebo jejich přidružené společnosti více než 700 uživatelů měsíčně, musejí požádat o licenci, kterou Meta může, ale také nemusí udělit.

A pokud používají model Llama 3, musejí na nápadném místě uvést „Vytvořené s využitím modelu Llama 3.“

Podobně také Apple vydal model OpenELM pod licencí „Apple Sample Code License“, která byla také vytvořená pro tuto příležitost a vztahuje se jen na autorská práva a vylučuje práva patentová.

Apple ani Meta tedy nepoužívají běžně přijímané licence open source, ale kód je ve skutečnosti otevřený. Apple zveřejnil nejen kód, ale také váhy modelu, sadu tréninkových dat, tréninkové protokoly a předtréninkové konfigurace.

To přivádí k dalšímu aspektu licencování open source – tradiční software open source je představovaný kódem. Skutečnost, že jde o open source, znamená, že můžete vidět, co dělá a zda jsou v něm potenciální problémy nebo zranitelnosti.

GenAI ale nemá jen podobu kódu. Jsou to také tréninková data, váhy modelu a jemné vyladění. Všechny tyto věci jsou zásadní pro pochopení toho, jak model funguje, a pro identifikaci potenciálních zkreslení (předpojatost apod.).

Model trénovaný například na archivu konspiračních teorií o ploché zemi bude špatný v odpovídání na vědecké otázky, a model vyladěný severokorejskými hackery zase může být špatný ve správné identifikaci malwaru.

Vaše konverzace s AI nejsou tak soukromé, jak si myslíte – Co byste měli vědět! Přečtěte si také:

Vaše konverzace s AI nejsou tak soukromé, jak si myslíte – Co byste měli vědět!

Zpřístupňují tedy open source modely LLM všechny tyto informace? Záleží na modelu, a dokonce i na konkrétní verzi modelu, protože v tomto směru neexistují žádné standardy.

„Někdy se kód zpřístupní, ale pokud neexistuje jemné vyladění, můžete utratit spoustu peněz, abyste dosáhli srovnatelného výkonu,“ upozorňuje Anand Rao, profesor AI na Carnegie-Mellonově univerzitě a bývalý globální šéf pro AI ve společnosti PwC.

Nedostatek dovedností

Open source je často projektem typu „udělej si sám“. Společnosti si mohou kód stáhnout, ale pak potřebují vlastní odborné znalosti nebo najaté konzultanty, aby vše začalo fungovat.

V oboru GenAI to ale představuje velký problém. Nikdo nemá dlouholeté zkušenosti, protože technologie je nová. Pokud tedy organizace s generativní umělou inteligencí teprve začíná nebo se chce rychle posunout, je pro ni bezpečnější začít s proprietární platformou, radí Rao.

Video ke kávě

Máte čas na rychlé a informativní video?

Jakmile společnost dokončí ověření konceptu, nasadí komerční model do produkčního prostředí a začnou narůstat placené částky, může nastat čas podívat se na open source alternativy. „Využití verze open source ale vyžaduje odborné znalosti,“ upozorňuje.

Nedostatek odborných znalostí v oboru vytváří i další problém – jednou z klíčových výhod open source je, že se mnoho lidí podívá na kód a dokáže najít programátorské chyby, zranitelnosti zabezpečení a další slabiny.

Tento přístup „tisíce očí“ k open source zabezpečení však funguje jen v případě, že ve skutečnosti existuje tisíc očí schopných porozumět tomu, co vidí. A takový stav u GenAI zatím není.

Jailbreaking – obejití restrikcí

Modely LLM jsou velmi zranitelné ve smyslu možnosti obcházet jejich restrikce (jailbreaking) – uživatel jim předloží chytře vytvořený prompt, který je přiměje k překročení nastavených omezení, takže tak lze například vygenerovat malware.

V případě komerčních projektů existují vysoce motivovaní dodavatelé, kteří dokážou tyto mezery identifikovat a uzavřít je, jakmile se objeví. Kromě toho mají přístup k promptům, jež uživatelé zasílají veřejným verzím modelů, takže mohou monitorovat výskyt příznaků podezřelých aktivit.

Je ale nepravděpodobné, že by si zločinci pořídili podnikové verze produktů, které běží v privátních prostředích, kde se prompty nepředávají dodavateli za účelem vylepšení modelu.

Způsobí rozmach genAI energetickou krizi? Přečtěte si také:

Způsobí rozmach genAI energetickou krizi?

V případě projektu open source nemusí být v týmu nikdo, kdo by sledoval případné příznaky jailbreakingu. Zločinci si navíc mohou tyto modely stáhnout zdarma a provozovat je ve svých vlastních prostředích s cílem otestovat funkčnost možných způsobů napadení.

Zločinci tak získávají náskok ve svém jailbreakingovém úsilí, protože vidí systémový prompt používaný modelem a všechny další ochranné mechanismy, které mohli vývojáři modelu vytvořit.

„Není to jen styl pokus-omyl,“ varuje Rao. Útočníci mohou tréninková data analyzovat, například aby našli způsoby, jak přimět model, aby nesprávně identifikoval obrázky nebo překročil restrikce v případě neškodně vypadajícího promptu.

Pokud model umělé inteligence přidá do svého výstupu vodoznak, může hacker kód analyzovat, aby reverzním inženýrstvím přišel na postup pro odstranění takového vodoznaku. Útočníci by také mohli analyzovat model nebo jiný podpůrný kód a nástroje k nalezení oblastí zranitelnosti.

„Můžete zahltit infrastrukturu požadavky, takže model nebude fungovat,“ upozorňuje Elena Sügis, hlavní datová vědkyně v poradenské společnosti Nortal.

„Když je model součástí většího systému a jeho výstup využívá i jiná jeho část, potom pokud hacker dokáže kompromitovat způsob, jakým model vytváří výstup, naruší to celý systém, což může být pro podnik rizikové.“

Rizika tréninkových dat

Umělci, spisovatelé a další držitelé autorských práv hromadně žalují velké společnosti zaměřené na AI.

Ale co když se domnívají, že jejich práva k duševnímu vlastnictví porušuje open source model, ale dostatek financí na kompenzaci mají jen podniky, které tento model začlenily do svých produktů či služeb? Mohou být žalované samy podniky?

„Je to potenciální problém a nikdo ve skutečnosti vlastně neví, jak některé z probíhajících soudních sporů dopadnou,“ upozorňuje Guarrera z EY. Podle něj můžeme směřovat do světa, kde bude muset existovat nějaká kompenzace za soubory dat.

„Velcí technologičtí hráči jsou v lepší pozici, protože mají dostatek peněz, aby přečkali bouři, která může nastat v souvislostí s autorskými právy.“

Kybernetická bezpečnost: Podcast o tajemstvích bezpečnostních operačních centrech s Pavlem Hrabcem
Kybernetická bezpečnost: Podcast o tajemstvích bezpečnostních operačních centrech s Pavlem Hrabcem
0:00/

Významní poskytovatelé komerčních LLM mají peníze nejen na nákup tréninkových dat a vedení soudních sporů, ale i na vytvoření široce dostupných datových sad, které prošly kontrolou (curated data sets), prohlašuje Sügis.

Bezplatné, veřejné soubory dat také obsahují více než jen obsah chráněný autorským právem používaný bez povolení – jsou plné i nepřesných a neobjektivních informací, malwaru a dalších materiálů, které snižují kvalitu výstupu.

Mnoho vývojářů modelů LLM mluví o používání spravovaných dat, popisuje. „To je ale dražší, než když použijete k tréninku celý internet.“

Nové oblasti expozice

Protože projekt GenAI představuje více než jen kód, existuje hned několik oblastí, kde může dojít k potenciální expozici. Model LLM totiž zločinci mohou napadnout na několika frontách.

Mohli by například infiltrovat vývojový tým ve špatně řízeném projektu a přidat škodlivý kód do samotného softwaru. Také mohou otrávit tréninková data, jemné ladění nebo váhy, varuje Sügis.

„Hackeři mohou model přetrénovat pomocí příkladů škodlivého kódu, takže ve finále napadne infrastrukturu uživatele,“ vysvětluje. „Nebo ho mohou trénovat pomocí falešných zpráv a dezinformací.“

Dalším častým vektorem útoku je systémový prompt modelu. „Ten je obvykle uživateli nedostupný,“ dodává. Obsahovat může mantinely a bezpečnostní pravidla, která modelu umožňují rozpoznat nežádoucí nebo neetické chování.

Příští týden začne platit evropská regulace umělé inteligence. Hrozí pokuta až 35 milionů eur Přečtěte si také:

Příští týden začne platit evropská regulace umělé inteligence. Hrozí pokuta až 35 milionů eur

Proprietární modely své systémové prompty nezpřístupňují, protože přístup k nim by mohl hackerům umožnit zjistit, jak na model úspěšně zaútočit.

Chybějící mantinely

Některé skupiny open source mohou vznést filozofickou námitku proti samotné existenci mantinelů v jejich modelech, nebo mohou zastávat názor, že bude model fungovat lépe bez jakýchkoli omezení. A některé modely LLM jsou dokonce vytvořené speciálně pro použití ke škodlivým účelům.

Podniky hledající model LLM pouze pro zkoušení nemusejí nutně vědět, do které kategorie ten jimi vybraný spadá.

Umělá inteligence není jen ta generativní, upozorňuje odborník David Filgas
Umělá inteligence není jen ta generativní, upozorňuje odborník David Filgas
0:00/

V současnosti neexistuje žádný nezávislý orgán, který by bezpečnost open source modelů GenAI vyhodnocoval, konstatuje Sügis. Evropský zákon o AI bude vyžadovat část této dokumentace, ale většina jeho ustanovení vstoupí v platnost až za dva roky, popisuje.

„Snažila bych se získat co nejvíce dokumentace, otestovat i zhodnotit model a sama implementovat nějaké mantinely,“ doporučuje.

Nedostatek standardů

Projekty open source řízené uživateli jsou často založené na standardech, protože podnikoví uživatelé upřednostňují interoperabilitu.

Ve skutečnosti podle průzkumu mezi téměř 500 technologickými profesionály, který vloni uveřejnila nadace Linux Foundation, preferuje 71 % respondentů otevřené standardy ve srovnání s 10 %, kteří preferují proprietární pravidla.

Společnosti produkující proprietární software by na druhé straně mohly dát přednost tomu, aby byli jejich zákazníci uvězněni v jejich ekosystémech. Pokud byste však předpokládali, že budou všechny open source projekty GenAI založené na standardech, mýlili byste se.

Video ke kávě

Máte čas na rychlé a informativní video?

Ve skutečnosti, když většina lidí mluví o standardech AI, mluví o tématech, jako je etika, soukromí a vysvětlitelnost. V této oblasti probíhají rozsáhlé práce.

Příkladem je třeba standard ISO/IEC 42001 pro systémy řízení AI, který byl vydán v prosinci loňského roku.

Další příklad je z konce tohoto dubna, kdy institut NIST zveřejnil návrh plánu pro standardy AI, který pokrývá mnoho oblastí počínaje vytvořením společného jazyka pro diskuze o AI.

Zaměřuje se také do značné míry na rizika a otázky řízení či správy. Pokud však jde o technické standardy, zatím toho existuje málo.

„Je to vznikající oblast,“ konstatuje Taylor Dolezal, šéf IT a vedoucí ekosystémů v nadaci CNCF (Cloud Native Computing Foundation).

Podle něj nyní probíhají některé rozhovory v souvislosti s klasifikací dat a o potřebě standardního formátu pro tréninková data, pro rozhraní API a pro prompty. Zatím to však jsou jen rozhovory, dodává.

Zmiňuje, že už existuje společný datový standard pro vektorové databáze, ale žádný standardní dotazovací jazyk. A co standardy pro autonomní agenty?

„To jsem zatím neviděl, ale přivítal bych to,“ prohlašuje. „Přijít na způsoby, jak nejen nechat agenty plnit jejich specifické úkoly, ale také jak to propojit.“

Správa firemního IT vybavení poháněná AI: Klíč k chytřejšímu IT a spokojenějším zaměstnancům Přečtěte si také:

Správa firemního IT vybavení poháněná AI: Klíč k chytřejšímu IT a spokojenějším zaměstnancům

Nejběžnější nástroj pro vytváření agentů, LangChain, je spíše framework než standard, popisuje. A organizace, které vytvářejí poptávku po standardech, ještě nejsou připravené, vysvětluje. „Většina koncových uživatelů neví, co chtějí, dokud si s tím nezačnou hrát.“

Místo toho lidé považují rozhraní API a další rozhraní hlavních dodavatelů, jako je OpenAI, za vznikající de facto standardy. „Je to vidět na tom, jak probíhá praxe,“ dodává Dolezal.

Nedostatek transparentnosti

Možná si myslíte, že open source modely jsou ze své podstaty transparentnější. Někdy to ale tak být nemusí. Velké komerční projekty mohou mít více prostředků na vytváření dokumentace, popisuje Eric Sydell, šéf analytické platformy Vero AI.

Nedávno vydali zprávu hodnotící hlavní modely GenAI na základě různých oblastí, jako je viditelnost, integrita, legislativní připravenost či transparentnost. Nejlépe se umístily modely Gemini od Googlu a GPT-4 od OpenAI.

„To, že jde o open source, nutně neznamená, že poskytují stejné informace o pozadí modelu a o tom, jak jej tvůrci vyvinuli,“ upozorňuje Sydell. „V tomto bodě lepší práci odvedly komerční modely.“

Vezměme si například předpojatost. „Zjistili jsme, že dva nejlepší proprietární modely v našem žebříčku měly v tomto bodu k dispozici poměrně rozsáhlou dokumentaci, a bylo zjevné, že prozkoumání tohoto problému věnovaly dost času,“ dodává Sydell.

Problémy s původem

Je běžné, že projekty open source se forkují (paralelně se rozvíjejí původní nápady), ale když se to stane s GenAI, vznikají rizika, která u tradičního softwaru nejsou.

Řekněme například, že základní model používá problematickou trénovací datovou sadu a někdo z něj vytvoří nový model, takže tyto problémy zdědí, popisuje Tyler Warden, viceprezident bezpečnostní firmy Sonatype.

„Je v tom spousta aspektů černé skříňky s ohledem na váhy a ladění,“ vysvětluje.

Ve skutečnosti mohou tyto problémy sahat o několik úrovní zpět a v kódu konečného modelu nebudou viditelné. Když si pak podniky stáhnou model pro vlastní potřebu, ještě více jej izolují od původních zdrojů.

Technologická perspektiva světa: Zelená a přelomová Přečtěte si také:

Technologická perspektiva světa: Zelená a přelomová

U prvotního základního LLM následně možná došlo k vyřešení problémů, ale v závislosti na míře transparentnosti a komunikace nahoru a dolů v řetězci nemusejí vývojáři dalších podob o těchto opravách ani vědět.

Nové stínové IT

Společnosti využívající komponenty open source jako součást svého vývoje softwaru mají už zpravidla zavedené procesy k prověření knihoven a aktuálnosti komponent. Zajišťují tím, aby jejich projekty byly dobře podporované, aby řešily bezpečnostní problémy a aby měl software odpovídající licenční podmínky.

V případě GenAI však lidé, kteří mají takové prověření zajistit, nemusejí vědět, co vlastně mají hledat. Navíc projekty s GenAI někdy vybočují ze standardních procesů vývoje softwaru.

Mohou je totiž iniciovat týmy datové vědy nebo izolované, nezávisle fungující oddělení. Vývojáři si stáhnou modely, aby si s nimi mohli pohrát, a nakonec je začnou šířeji používat.

Nebo mohou firemní uživatelé sledovat on-line výukové programy a nakonfigurovat si vlastní GenAI, takže vlastně zcela obejdou IT oddělení.

Nejnovější evoluce generativní AI či autonomní agenty mají potenciál vložit do rukou těchto neevidovaných či nechválených systémů obrovskou moc a pozvednout potenciál rizik do nových výšin.

Na co si dát pozor? Máme seznam aktuálně využívaných metod kyberútoků Přečtěte si také:

Na co si dát pozor? Máme seznam aktuálně využívaných metod kyberútoků

„Pokud s tím budete experimentovat, vytvořte si pro tento účel izolované prostředí, abyste to udělali způsobem, který je pro vaši organizaci bezpečný,“ doporučuje Kelley Misata, šéfka pro open source ve společnosti Corelight.

Za to by podle ní měl odpovídat firemní tým pro řízení rizik. Osobou, která má zajistit, aby vývojáři a firma jako celek pochopili, že takový postup existuje, je ředitel IT.

„Mají nejlepší pozici k nastavení kultury,“ vysvětluje. „Mohou říci: ‚Pojďme využít inovace a veškerou skvělost, kterou open source nabízí, ale dělejme to prozíravě.‘“

Nejlepší z obou světů?

Některé společnosti hledají nízkou cenu, transparentnost, soukromí a kontrolu, kterou open source přináší, ale zároveň by rády měly dodavatele, který by poskytoval správu, dlouhodobou udržitelnost i podporu.

V tradičním open source světě existuje mnoho dodavatelů, kteří to dělají, jako jsou například firmy Red Hat, MariaDB, Docker, Automattic a další.

„Poskytují určitou úroveň ochrany pro velké podniky,“ popisuje Priya Iragavarapu, viceprezidentka pro datovou vědu a analytiku ve společnosti AArete. „Je to vlastně takový způsob, jak riziko zmírnit.“

V oblasti GenAI ale mnoho takových dodavatelů není, situace se ale začíná měnit, dodává.

Tento příspěvek vyšel v tištěném Computerworldu 7/2024.

 

Computerworld si můžete objednat i jako klasický časopis. Je jediným odborným měsíčníkem na českém a slovenském trhu zaměreným na profesionály v oblasti informačních a komunikačních technologií (ICT). Díky silnému zázemí přináší aktuální zpravodajství, analýzy, komentáře a přehledy nejnovejších technologií dříve a na vyšší odborné úrovni, než ostatní periodika na tuzemském trhu.

Obsah Computerworldu je určen odborníkům a manažerům z firem a institucí, kteří se podílejí na rozhodovacím procesu při nákupu ICT technologií. Jednotlivá čísla si můžete objednat i v digitální podobě.