Zdá se, že v dnešní době může vytvořit velký jazykový model (LLM) umělé inteligence kdokoli. Přestože nemáte tréninková data ani programátorské dovednosti, můžete vzít svůj oblíbený open source model, vyladit ho a vydat ho pod novým názvem.
Využíváte už v práci současné možnosti umělé inteligence?
Podle zprávy AI Index Report ze Stanfordu vydané letos v dubnu se v loňském roce objevilo celkem 149 základních modelů LLM, z nichž dvě třetiny byly typu open source.
A variant existuje šílené množství – společnost Hugging Face aktuálně eviduje více než 80 tisíc různých LLM jen pro generování textu. Naštěstí vydala žebříček, který umožní modely rychle seřadit podle toho, jaké výsledky mají v různých benchmarcích. Tyto modely sice zaostávají za těmi velkými komerčními, ale rychle se zlepšují.
Žebříčky jsou dobrým místem, kde začít, když se zajímáte o open source GenAI, a zejména v Hugging Face odvedli dobrou práci při srovnávání, říká David Guarrera, šéf pro generativní AI ve společnosti EY.
„Nepodceňujte však své schopnosti a možnosti si s těmito modely pohrát,“ připomíná. „Protože jde o open source, je snadné to udělat a případně je vyměnit.“ Navíc se zmenšuje výkonnostní propast mezi modely open source a jejich komerčními alternativami s uzavřeným zdrojem, dodává.
„Open source považuji za nesmírně cenný,“ dodává Val Marchevsky, šéf vývoje ve společnosti Uber Freight. Nejen že proprietární modely dohání z hlediska výkonu, ale v některých případech je k dispozici i úroveň transparentnosti, které se uzavřený zdroj nemůže rovnat, upozorňuje.
„Některé open source modely vám dokonce umožňují vidět, co se používá k usuzování a co nikoli,“ dodává. Auditovatelnost je podle něj důležitá pro prevenci halucinací.
Navíc je tu samozřejmě cenová výhoda. „Pokud máte datové centrum, které má kapacitu, proč platit někomu jinému?“ vysvětluje.
Společnosti jsou už z minulosti celkem dobře obeznámené s používáním kódu open source ve své infrastruktuře. Podle analýzy zabezpečení a rizik open source od společnosti Synopsys zveřejněné v únoru 2024 obsahovalo 96 % všech základen komerčního kódu komponenty open source.
V důsledku všech těchto zkušeností by společnosti měly vědět, jak si zajistit, že používají správně licencovaný kód, jak kontrolovat výskyt zranitelností a jak vše udržovat v aktuálním stavu.
Některá z těchto pravidel a osvědčených postupů však mají určitá specifika, u kterých existuje riziko podcenění. Zde je několik nejvýznamnějších.
Podivné nové licenční podmínky
Scenérie různých typů licencí open source je už dost komplikovaná. Lze projekt bezpečně využívat komerčně, nebo jen pro nekomerční implementace? Lze ho upravit a distribuovat? Lze ho bezpečně začlenit do proprietární kódové základny?
S GenAI navíc přichází několik nových komplikací. Za prvé, existují nové typy licencí, které patří do kategorie open source jen ve smyslu velmi volné definice tohoto pojmu.
Vezměme si například licenci pro modely Llama. Tato rodina představuje jedny z nejlepších open source modelů LLM, ale Meta, jejich tvůrce, je oficiálně nabízí pod speciální komerční licencí, která vyvažuje otevřený přístup k těmto modelům se zodpovědností a zavedenou ochranou, což pomáhá řešit potenciální zneužití.
Podniky mohou používat modely Llama komerčně a vývojáři mohou vytvářet i distribuovat další práci nad těmito základními modely Llama, ale nesmějí používat jejich výstupy ke zlepšení LLM, které nejsou od modelů Llama odvozené.
A pokud mají podniky nebo jejich přidružené společnosti více než 700 uživatelů měsíčně, musejí požádat o licenci, kterou Meta může, ale také nemusí udělit.
A pokud používají model Llama 3, musejí na nápadném místě uvést „Vytvořené s využitím modelu Llama 3.“
Podobně také Apple vydal model OpenELM pod licencí „Apple Sample Code License“, která byla také vytvořená pro tuto příležitost a vztahuje se jen na autorská práva a vylučuje práva patentová.
Apple ani Meta tedy nepoužívají běžně přijímané licence open source, ale kód je ve skutečnosti otevřený. Apple zveřejnil nejen kód, ale také váhy modelu, sadu tréninkových dat, tréninkové protokoly a předtréninkové konfigurace.
To přivádí k dalšímu aspektu licencování open source – tradiční software open source je představovaný kódem. Skutečnost, že jde o open source, znamená, že můžete vidět, co dělá a zda jsou v něm potenciální problémy nebo zranitelnosti.
GenAI ale nemá jen podobu kódu. Jsou to také tréninková data, váhy modelu a jemné vyladění. Všechny tyto věci jsou zásadní pro pochopení toho, jak model funguje, a pro identifikaci potenciálních zkreslení (předpojatost apod.).
Model trénovaný například na archivu konspiračních teorií o ploché zemi bude špatný v odpovídání na vědecké otázky, a model vyladěný severokorejskými hackery zase může být špatný ve správné identifikaci malwaru.
Zpřístupňují tedy open source modely LLM všechny tyto informace? Záleží na modelu, a dokonce i na konkrétní verzi modelu, protože v tomto směru neexistují žádné standardy.
„Někdy se kód zpřístupní, ale pokud neexistuje jemné vyladění, můžete utratit spoustu peněz, abyste dosáhli srovnatelného výkonu,“ upozorňuje Anand Rao, profesor AI na Carnegie-Mellonově univerzitě a bývalý globální šéf pro AI ve společnosti PwC.
Nedostatek dovedností
Open source je často projektem typu „udělej si sám“. Společnosti si mohou kód stáhnout, ale pak potřebují vlastní odborné znalosti nebo najaté konzultanty, aby vše začalo fungovat.
V oboru GenAI to ale představuje velký problém. Nikdo nemá dlouholeté zkušenosti, protože technologie je nová. Pokud tedy organizace s generativní umělou inteligencí teprve začíná nebo se chce rychle posunout, je pro ni bezpečnější začít s proprietární platformou, radí Rao.
Jakmile společnost dokončí ověření konceptu, nasadí komerční model do produkčního prostředí a začnou narůstat placené částky, může nastat čas podívat se na open source alternativy. „Využití verze open source ale vyžaduje odborné znalosti,“ upozorňuje.
Nedostatek odborných znalostí v oboru vytváří i další problém – jednou z klíčových výhod open source je, že se mnoho lidí podívá na kód a dokáže najít programátorské chyby, zranitelnosti zabezpečení a další slabiny.
Tento přístup „tisíce očí“ k open source zabezpečení však funguje jen v případě, že ve skutečnosti existuje tisíc očí schopných porozumět tomu, co vidí. A takový stav u GenAI zatím není.
Jailbreaking – obejití restrikcí
Modely LLM jsou velmi zranitelné ve smyslu možnosti obcházet jejich restrikce (jailbreaking) – uživatel jim předloží chytře vytvořený prompt, který je přiměje k překročení nastavených omezení, takže tak lze například vygenerovat malware.
V případě komerčních projektů existují vysoce motivovaní dodavatelé, kteří dokážou tyto mezery identifikovat a uzavřít je, jakmile se objeví. Kromě toho mají přístup k promptům, jež uživatelé zasílají veřejným verzím modelů, takže mohou monitorovat výskyt příznaků podezřelých aktivit.
Je ale nepravděpodobné, že by si zločinci pořídili podnikové verze produktů, které běží v privátních prostředích, kde se prompty nepředávají dodavateli za účelem vylepšení modelu.
V případě projektu open source nemusí být v týmu nikdo, kdo by sledoval případné příznaky jailbreakingu. Zločinci si navíc mohou tyto modely stáhnout zdarma a provozovat je ve svých vlastních prostředích s cílem otestovat funkčnost možných způsobů napadení.
Zločinci tak získávají náskok ve svém jailbreakingovém úsilí, protože vidí systémový prompt používaný modelem a všechny další ochranné mechanismy, které mohli vývojáři modelu vytvořit.
„Není to jen styl pokus-omyl,“ varuje Rao. Útočníci mohou tréninková data analyzovat, například aby našli způsoby, jak přimět model, aby nesprávně identifikoval obrázky nebo překročil restrikce v případě neškodně vypadajícího promptu.
Pokud model umělé inteligence přidá do svého výstupu vodoznak, může hacker kód analyzovat, aby reverzním inženýrstvím přišel na postup pro odstranění takového vodoznaku. Útočníci by také mohli analyzovat model nebo jiný podpůrný kód a nástroje k nalezení oblastí zranitelnosti.
„Můžete zahltit infrastrukturu požadavky, takže model nebude fungovat,“ upozorňuje Elena Sügis, hlavní datová vědkyně v poradenské společnosti Nortal.
„Když je model součástí většího systému a jeho výstup využívá i jiná jeho část, potom pokud hacker dokáže kompromitovat způsob, jakým model vytváří výstup, naruší to celý systém, což může být pro podnik rizikové.“
Rizika tréninkových dat
Umělci, spisovatelé a další držitelé autorských práv hromadně žalují velké společnosti zaměřené na AI.
Ale co když se domnívají, že jejich práva k duševnímu vlastnictví porušuje open source model, ale dostatek financí na kompenzaci mají jen podniky, které tento model začlenily do svých produktů či služeb? Mohou být žalované samy podniky?
„Je to potenciální problém a nikdo ve skutečnosti vlastně neví, jak některé z probíhajících soudních sporů dopadnou,“ upozorňuje Guarrera z EY. Podle něj můžeme směřovat do světa, kde bude muset existovat nějaká kompenzace za soubory dat.
„Velcí technologičtí hráči jsou v lepší pozici, protože mají dostatek peněz, aby přečkali bouři, která může nastat v souvislostí s autorskými právy.“
Významní poskytovatelé komerčních LLM mají peníze nejen na nákup tréninkových dat a vedení soudních sporů, ale i na vytvoření široce dostupných datových sad, které prošly kontrolou (curated data sets), prohlašuje Sügis.
Bezplatné, veřejné soubory dat také obsahují více než jen obsah chráněný autorským právem používaný bez povolení – jsou plné i nepřesných a neobjektivních informací, malwaru a dalších materiálů, které snižují kvalitu výstupu.
Mnoho vývojářů modelů LLM mluví o používání spravovaných dat, popisuje. „To je ale dražší, než když použijete k tréninku celý internet.“
Nové oblasti expozice
Protože projekt GenAI představuje více než jen kód, existuje hned několik oblastí, kde může dojít k potenciální expozici. Model LLM totiž zločinci mohou napadnout na několika frontách.
Mohli by například infiltrovat vývojový tým ve špatně řízeném projektu a přidat škodlivý kód do samotného softwaru. Také mohou otrávit tréninková data, jemné ladění nebo váhy, varuje Sügis.
„Hackeři mohou model přetrénovat pomocí příkladů škodlivého kódu, takže ve finále napadne infrastrukturu uživatele,“ vysvětluje. „Nebo ho mohou trénovat pomocí falešných zpráv a dezinformací.“
Dalším častým vektorem útoku je systémový prompt modelu. „Ten je obvykle uživateli nedostupný,“ dodává. Obsahovat může mantinely a bezpečnostní pravidla, která modelu umožňují rozpoznat nežádoucí nebo neetické chování.
Proprietární modely své systémové prompty nezpřístupňují, protože přístup k nim by mohl hackerům umožnit zjistit, jak na model úspěšně zaútočit.
Chybějící mantinely
Některé skupiny open source mohou vznést filozofickou námitku proti samotné existenci mantinelů v jejich modelech, nebo mohou zastávat názor, že bude model fungovat lépe bez jakýchkoli omezení. A některé modely LLM jsou dokonce vytvořené speciálně pro použití ke škodlivým účelům.
Podniky hledající model LLM pouze pro zkoušení nemusejí nutně vědět, do které kategorie ten jimi vybraný spadá.
V současnosti neexistuje žádný nezávislý orgán, který by bezpečnost open source modelů GenAI vyhodnocoval, konstatuje Sügis. Evropský zákon o AI bude vyžadovat část této dokumentace, ale většina jeho ustanovení vstoupí v platnost až za dva roky, popisuje.
„Snažila bych se získat co nejvíce dokumentace, otestovat i zhodnotit model a sama implementovat nějaké mantinely,“ doporučuje.
Nedostatek standardů
Projekty open source řízené uživateli jsou často založené na standardech, protože podnikoví uživatelé upřednostňují interoperabilitu.
Ve skutečnosti podle průzkumu mezi téměř 500 technologickými profesionály, který vloni uveřejnila nadace Linux Foundation, preferuje 71 % respondentů otevřené standardy ve srovnání s 10 %, kteří preferují proprietární pravidla.
Společnosti produkující proprietární software by na druhé straně mohly dát přednost tomu, aby byli jejich zákazníci uvězněni v jejich ekosystémech. Pokud byste však předpokládali, že budou všechny open source projekty GenAI založené na standardech, mýlili byste se.
Ve skutečnosti, když většina lidí mluví o standardech AI, mluví o tématech, jako je etika, soukromí a vysvětlitelnost. V této oblasti probíhají rozsáhlé práce.
Příkladem je třeba standard ISO/IEC 42001 pro systémy řízení AI, který byl vydán v prosinci loňského roku.
Další příklad je z konce tohoto dubna, kdy institut NIST zveřejnil návrh plánu pro standardy AI, který pokrývá mnoho oblastí počínaje vytvořením společného jazyka pro diskuze o AI.
Zaměřuje se také do značné míry na rizika a otázky řízení či správy. Pokud však jde o technické standardy, zatím toho existuje málo.
„Je to vznikající oblast,“ konstatuje Taylor Dolezal, šéf IT a vedoucí ekosystémů v nadaci CNCF (Cloud Native Computing Foundation).
Podle něj nyní probíhají některé rozhovory v souvislosti s klasifikací dat a o potřebě standardního formátu pro tréninková data, pro rozhraní API a pro prompty. Zatím to však jsou jen rozhovory, dodává.
Zmiňuje, že už existuje společný datový standard pro vektorové databáze, ale žádný standardní dotazovací jazyk. A co standardy pro autonomní agenty?
„To jsem zatím neviděl, ale přivítal bych to,“ prohlašuje. „Přijít na způsoby, jak nejen nechat agenty plnit jejich specifické úkoly, ale také jak to propojit.“
Nejběžnější nástroj pro vytváření agentů, LangChain, je spíše framework než standard, popisuje. A organizace, které vytvářejí poptávku po standardech, ještě nejsou připravené, vysvětluje. „Většina koncových uživatelů neví, co chtějí, dokud si s tím nezačnou hrát.“
Místo toho lidé považují rozhraní API a další rozhraní hlavních dodavatelů, jako je OpenAI, za vznikající de facto standardy. „Je to vidět na tom, jak probíhá praxe,“ dodává Dolezal.
Nedostatek transparentnosti
Možná si myslíte, že open source modely jsou ze své podstaty transparentnější. Někdy to ale tak být nemusí. Velké komerční projekty mohou mít více prostředků na vytváření dokumentace, popisuje Eric Sydell, šéf analytické platformy Vero AI.
Nedávno vydali zprávu hodnotící hlavní modely GenAI na základě různých oblastí, jako je viditelnost, integrita, legislativní připravenost či transparentnost. Nejlépe se umístily modely Gemini od Googlu a GPT-4 od OpenAI.
„To, že jde o open source, nutně neznamená, že poskytují stejné informace o pozadí modelu a o tom, jak jej tvůrci vyvinuli,“ upozorňuje Sydell. „V tomto bodě lepší práci odvedly komerční modely.“
Vezměme si například předpojatost. „Zjistili jsme, že dva nejlepší proprietární modely v našem žebříčku měly v tomto bodu k dispozici poměrně rozsáhlou dokumentaci, a bylo zjevné, že prozkoumání tohoto problému věnovaly dost času,“ dodává Sydell.
Problémy s původem
Je běžné, že projekty open source se forkují (paralelně se rozvíjejí původní nápady), ale když se to stane s GenAI, vznikají rizika, která u tradičního softwaru nejsou.
Řekněme například, že základní model používá problematickou trénovací datovou sadu a někdo z něj vytvoří nový model, takže tyto problémy zdědí, popisuje Tyler Warden, viceprezident bezpečnostní firmy Sonatype.
„Je v tom spousta aspektů černé skříňky s ohledem na váhy a ladění,“ vysvětluje.
Ve skutečnosti mohou tyto problémy sahat o několik úrovní zpět a v kódu konečného modelu nebudou viditelné. Když si pak podniky stáhnou model pro vlastní potřebu, ještě více jej izolují od původních zdrojů.
U prvotního základního LLM následně možná došlo k vyřešení problémů, ale v závislosti na míře transparentnosti a komunikace nahoru a dolů v řetězci nemusejí vývojáři dalších podob o těchto opravách ani vědět.
Nové stínové IT
Společnosti využívající komponenty open source jako součást svého vývoje softwaru mají už zpravidla zavedené procesy k prověření knihoven a aktuálnosti komponent. Zajišťují tím, aby jejich projekty byly dobře podporované, aby řešily bezpečnostní problémy a aby měl software odpovídající licenční podmínky.
V případě GenAI však lidé, kteří mají takové prověření zajistit, nemusejí vědět, co vlastně mají hledat. Navíc projekty s GenAI někdy vybočují ze standardních procesů vývoje softwaru.
Mohou je totiž iniciovat týmy datové vědy nebo izolované, nezávisle fungující oddělení. Vývojáři si stáhnou modely, aby si s nimi mohli pohrát, a nakonec je začnou šířeji používat.
Nebo mohou firemní uživatelé sledovat on-line výukové programy a nakonfigurovat si vlastní GenAI, takže vlastně zcela obejdou IT oddělení.
Nejnovější evoluce generativní AI či autonomní agenty mají potenciál vložit do rukou těchto neevidovaných či nechválených systémů obrovskou moc a pozvednout potenciál rizik do nových výšin.
„Pokud s tím budete experimentovat, vytvořte si pro tento účel izolované prostředí, abyste to udělali způsobem, který je pro vaši organizaci bezpečný,“ doporučuje Kelley Misata, šéfka pro open source ve společnosti Corelight.
Za to by podle ní měl odpovídat firemní tým pro řízení rizik. Osobou, která má zajistit, aby vývojáři a firma jako celek pochopili, že takový postup existuje, je ředitel IT.
„Mají nejlepší pozici k nastavení kultury,“ vysvětluje. „Mohou říci: ‚Pojďme využít inovace a veškerou skvělost, kterou open source nabízí, ale dělejme to prozíravě.‘“
Nejlepší z obou světů?
Některé společnosti hledají nízkou cenu, transparentnost, soukromí a kontrolu, kterou open source přináší, ale zároveň by rády měly dodavatele, který by poskytoval správu, dlouhodobou udržitelnost i podporu.
V tradičním open source světě existuje mnoho dodavatelů, kteří to dělají, jako jsou například firmy Red Hat, MariaDB, Docker, Automattic a další.
„Poskytují určitou úroveň ochrany pro velké podniky,“ popisuje Priya Iragavarapu, viceprezidentka pro datovou vědu a analytiku ve společnosti AArete. „Je to vlastně takový způsob, jak riziko zmírnit.“
V oblasti GenAI ale mnoho takových dodavatelů není, situace se ale začíná měnit, dodává.
Tento příspěvek vyšel v tištěném Computerworldu 7/2024.
Computerworld si můžete objednat i jako klasický časopis. Je jediným odborným měsíčníkem na českém a slovenském trhu zaměreným na profesionály v oblasti informačních a komunikačních technologií (ICT). Díky silnému zázemí přináší aktuální zpravodajství, analýzy, komentáře a přehledy nejnovejších technologií dříve a na vyšší odborné úrovni, než ostatní periodika na tuzemském trhu.
Obsah Computerworldu je určen odborníkům a manažerům z firem a institucí, kteří se podílejí na rozhodovacím procesu při nákupu ICT technologií. Jednotlivá čísla si můžete objednat i v digitální podobě.