Nejkritičtější zranitelnosti velkých jazykových modelů

16. 8. 2024

Sdílet

 Autor: Computerworld.cz s využitím Dall-E
Seznam, který uveřejnil OWASP, zdůrazňuje dopady a rozšířenost nejkritičtějších zranitelností nalezených v aplikacích umělé inteligence, založených na velkých jazykových modelech (LLM).

Projekt OWASP (Open Worldwide Application Security Project) zveřejnil deset nejkritičtějších zranitelností, které se často vyskytují ve velkých jazykových modelech LLM (Large Language Model), a zdůraznil jejich možné dopady, snadnost zneužití a rozšířenost.

Je podle vás regulace AI vhodnou metodou, jak zabezpečit AI?

Příklady zranitelností zahrnují útoky prompt injection, únik dat, nedostatečnou izolaci (sandboxing) a neoprávněné spouštění kódu.

Cílem je vzdělávat vývojáře, návrháře, architekty, manažery a organizace o potenciálních bezpečnostních rizicích při zavádění a správě LLM, zvyšovat povědomí o zranitelnostech, navrhovat strategie nápravy a zlepšovat stav zabezpečení aplikací LLM, uvádí OWASP.

Obavy z bezpečnostních rizik, které by generativní chatovací rozhraní AI postavená na LLM mohly přinést, sahají od potenciálních problémů sdílení citlivých firemních informací s pokročilými samoučicími se algoritmy až po zločince, kteří by je využívali k významně vylepšeným útokům.

Některé země a podniky zvažují nebo už vydaly zákazy používání generativních technologií umělé inteligence, jako je např. ChatGPT, pro účely zabezpečení dat, ochrany dat a z důvodu ochrany soukromí.

Zde je deset nejkritičtějších zranitelností ovlivňujících aplikace LLM, jak je uvádí OWASP.

1. Prompt injection

Útoky prompt injection zahrnují například obcházení filtrů nebo manipulaci s LLM pomocí pečlivě vytvořených promptů, které přimějí model ignorovat předchozí pokyny nebo vykonávat nežádoucí akce, uvádí OWASP. Tyto zranitelnosti mohou vést k nežádoucím následkům včetně úniku dat, neoprávněného přístupu nebo jiného narušení zabezpečení.

Mezi běžné zranitelnosti typu prompt injection patří omezení pomocí specifických jazykových vzorů nebo tokenů, využívání slabin v mechanismech tokenizace nebo kódování LLM či oklamání LLM k vykonávání nežádoucích akcí zadáním klamného kontextu.

Co přináší nový SecurityWorld 2/2024? Přečtěte si také:

Co přináší nový SecurityWorld 2/2024?

Příkladem scénáře útoku je uživatel se zlými úmysly, který obchází filtr obsahu pomocí specifických jazykových vzorů, tokenů nebo kódovacích mechanismů, jež LLM nedokáže rozpoznat jako zakázaný obsah, což umožňuje uživateli dělat akce, které by se měly blokovat, popisuje OWASP.

Mezi preventivní opatření proti této zranitelnosti patří:

  • Implementace přísné validace vstupů a pročištění promptů zadávaných uživatelem
  • Použití kontextového filtrování a kódování výstupu jako prevence manipulace promptu
  • Pravidelná aktualizace a dolaďování LLM s cílem zlepšit jeho pochopení škodlivých vstupů a hraničních případů

2. Únik dat

K úniku dat dochází, když LLM prostřednictvím svých odpovědí náhodně odhalí citlivé informace, proprietární algoritmy nebo jiné důvěrné podrobnosti. „To může vyústit v neoprávněný přístup k citlivým datům nebo duševnímu vlastnictví, narušení soukromí či v jiný typ ohrožení bezpečnosti,“ upozorňuje OWASP.

Mezi běžné zranitelnosti s následkem úniku dat patří neúplné a nesprávné filtrování citlivých informací v odpovědích LLM, nadměrné ukládání, resp. zapamatovávání citlivých dat v tréninkovém procesu LLM, a nežádoucí zveřejnění důvěrných informací v důsledku nesprávné interpretace nebo chyb LLM.

Útočník by mohl záměrně prohledávat modely LLM pomocí pečlivě vytvořených promptů a pokoušet se extrahovat citlivé informace, které si příslušný LLM zapamatoval ze svých tréninkových dat, nebo by legitimní uživatel mohl položit modelu LLM otázku neúmyslně takovým způsobem, že by odpověď odhalila citlivé či důvěrné informace, uvádí OWASP.

Mezi preventivní opatření proti úniku dat patří:

  • Implementace přísného filtrování výstupů a kontext zohledňujících mechanismů zabraňujících modelu LLM vyzradit citlivé informace
  • Použití metod diferenciálního soukromí a dalších způsobů anonymizace dat během tréninkového procesu LLM ke snížení rizika nadměrného ukládání, resp. zapamatovávání
  • Pravidelné audity a kontrola odpovědí LLM s cílem zjistit, zda nedochází k nechtěnému vyzrazování informací

3. Nedostatečná izolace (sandboxing)

Pokud se pro LLM nezajistí řádná izolace při přístupu k externím zdrojům a citlivým systémům, může to vést k možnému zneužití, neoprávněnému přístupu nebo nežádoucímu chování LLM.

Nedostatečná separace prostředí LLM od ostatních kritických systémů a datových úložišť, nesprávná omezení, která umožní modelu LLM přístup k citlivým zdrojům, a LLM provádějící akce na systémové úrovni či interakce s jinými procesy jsou běžnými zranitelnostmi nedostatečné izolace LLM, uvádí OSWAP.

Video ke kávě

Máte čas na rychlé a informativní video?

Příkladem takového útoku může být zločinec, který zneužívá přístup LLM k citlivé databázi vytvářením promptů, jež LLM nařizují extrahovat a vyzradit důvěrné informace.

Mezi preventivní opatření této zranitelnosti patří:

  • Izolace prostředí LLM od ostatních kritických systémů a zdrojů
  • Omezení přístupu modelu LLM k citlivým zdrojům a omezení jeho schopností na minimum požadované pro zamýšlený účel
  • Pravidelný audit a kontrola prostředí LLM a řízení přístupu, abyste zajistili, že je udržována potřebná izolace

4. Neoprávněné spuštění kódu

K neoprávněnému spuštění kódu dojde, když útočník zneužije model LLM ke spuštění škodlivého kódu, příkazů nebo akcí v nosném systému prostřednictvím promptů v přirozeném jazyce.

Mezi běžné zranitelnosti patří například nevyčištěný či nedostatečně omezený uživatelský vstup umožňující útočníkům vytvářet prompty, které způsobí spuštění neoprávněného kódu, dále to jsou nedostatečná omezení schopností LLM a neúmyslné odhalení funkcí nebo rozhraní na úrovni systému LLM.

GenAI je možná nejméně důvěryhodný software, který existuje. Přesto se očekává, že mu budeme důvěřovat Přečtěte si také:

GenAI je možná nejméně důvěryhodný software, který existuje. Přesto se očekává, že mu budeme důvěřovat

OWASP uvádí dva příklady útoku: útočník vytvoří prompt instruující model LLM k vykonání příkazu, který spustí reverzní shell na nosném systému, udělí útočníkovi neoprávněný přístup a modelu LLM se nežádoucím způsobem umožní interagovat na úrovni systému s rozhraním API, jež útočník použije tak, aby spustil neoprávněné akce v systému.

Neoprávněnému spuštění kódu lze předcházet pomocí těchto opatření:

5. Zranitelnosti kvůli podvrhu požadavků na straně serveru

Zranitelnosti týkající se podvrhu požadavků na straně serveru SSRF (Server Side Request Forgery) vznikají, když útočník dokáže zneužít model LLM k vykonání nežádoucích požadavků a k přístupu k zakázaným zdrojům, jako jsou interní služby, rozhraní API nebo úložiště dat.

Mezi běžné zranitelnosti typu SSRF patří nedostatečná validace vstupu umožňující útočníkům použít prompty pro LLM k inicializaci neoprávněných požadavků a změn konfigurací v síti či změn v nastaveních zabezpečení aplikací a také vystavení interních zdrojů modelu LLM, uvádí OWASP.

Při útoku by mohli útočníci vytvořit prompt instruující model LLM, aby vznesl požadavek na interní službu, obešel řízení přístupu a získal neoprávněný přístup k citlivým informacím.

Mohli by také zneužít nesprávnou konfiguraci nastavení zabezpečení aplikace, která by umožňovala modelu LLM interagovat se zakázaným rozhraním API a přistupovat k citlivým datům, nebo je dokonce měnit.

Mezi preventivní opatření patří:

  • Implementace přísné validace vstupů a pročištění promptů, tak aby nemohl jejich škodlivý či nepředpokládaný obsah inicializovat neoprávněné požadavky
  • Pravidelné audity a kontrola nastavení zabezpečení sítě a aplikace s cílem zajistit, aby se interní zdroje nežádoucím způsobem nevystavily modelu LLM

6. Přílišné spoléhání se na obsah od LLM

Přílišné spoléhání se na obsah generovaný modelem LLM může vést k šíření zavádějících a nesprávných informací, snížení lidského vlivu na rozhodování a redukci kritického myšlení, varuje OSAWP.

„Organizace a uživatelé by mohli začít bez ověření důvěřovat obsahu generovanému modelem LLM, což ale povede k chybám, chybné komunikaci a nežádoucím následkům.“

Mezi běžné problémy související s přílišným spoléháním se na obsah generovaný modelem LLM patří neověřování a přijímání obsahu generovaného modelem LLM, jako by šlo o skutečnost, dále předpoklad, že obsah generovaný modelem LLM není zaujatý a neobsahuje dezinformace.

Potíže přináší i spoléhání se na obsah generovaný modelem LLM pro účely kritických rozhodnutí bez lidského vlivu či dohledu, popisuje OWASP.

Pokud se například organizace spoléhá na LLM při generování bezpečnostních zpráv a analýz, přičemž LLM vygeneruje zprávu obsahující nesprávná data, která společnost použije k přijetí důležitých bezpečnostních rozhodnutí, může to mít značné následky.

Rik Turner, hlavní analytik ve společnosti Omdia, to označuje jako halucinace modelu LLM. „Pokud se namísto odpovědi objeví nesmysl, který dokáže analytik snadno identifikovat, může ho odmítnout a pomoci dále trénovat algoritmus. Jenže co když halucinace vypadá velmi věrohodně, jako by to byla skutečnost?“

Jinými slovy, model LLM může dodat velkou důvěryhodnost falešně pozitivnímu výsledku, a to může mít potenciálně hrozné následky – pokud například bude analytik v daném smyslu pokračovat, a vypne proto systém anebo na několik hodin zablokuje zákazníkům s vysokým jměním jejich přístup k účtům.

7. Nedostatečná harmonizace AI

K nedostatečné harmonizaci AI (Inadequate AI Alignment) dochází, pokud cíle a chování LLM neodpovídají zamýšlenému případu použití (tedy účelu, potřebě) a vede to k nežádoucím důsledkům nebo zranitelnostem.

Běžnými problémy jsou: špatně definované cíle, které vedou k tomu, že model LLM upřednostňuje nežádoucí chování, nebo když tréninková data vytvářejí nežádoucí chování modelu, případně to může být nedostatečné testování a validace chování LLM, uvádí OWASP.

Pokud se nesprávně harmonizuje model LLM, který je navržen pomáhat s úkoly správy systému, mohl by vykonávat škodlivé příkazy nebo upřednostňovat akce, které by snížily výkon či zabezpečení systému.

Týmy mohou předcházet zranitelnostem vznikajícím neadekvátní harmonizací AI pomocí těchto opatření:

  • Definujte cíle a zamýšlené chování modelu LLM již během procesu návrhu a vývoje
  • Zajistěte, aby byla tréninková data v souladu s požadovanými výsledky a nepodporovala nežádoucí nebo škodlivé chování
  • Pravidelně testujte a validujte chování LLM v celé řadě scénářů, vstupů a kontextů, abyste identifikovali a řešili problémy s harmonizací

8. Nedostatečné řízení přístupu

Nedostatečné řízení přístupu nastává, když se správně neimplementuje řízení přístupu nebo autentizační mechanismy, což umožňuje neoprávněným uživatelům interagovat s LLM a případně zneužít zranitelnosti.

Neschopnost vynutit přísné autentizační požadavky pro přístup k LLM, nedostatečná implementace řízení přístupu na základě rolí RBAC (Role Based Access Control), která uživatelům umožňuje vykonávat akce nad rámec jim určených oprávnění, a nezajištění odpovídajícího řízení přístupu pro akce a obsah generovaný modelem LLM, to vše jsou běžné příklady této zranitelnosti, uvádí OWASP.

Příkladem tohoto útoku jsou zločinci, kteří získají neoprávněný přístup k LLM z důvodu slabých autentizačních mechanismů, což jim dále umožňuje zneužít zranitelnosti a manipulovat se systémem, uvádí OWASP.

Mezi preventivní opatření patří:

  • Implementace silných autentizačních mechanismů, jako je vícefaktorové ověřování (MFA), aby se zajistilo, že k LLM budou mít přístup jen oprávnění uživatelé
  • Nasazení dostatečné úrovně řízení přístupu k akcím a obsahu generovanému modelem LLM, aby se zabránilo neoprávněnému přístupu a manipulaci

9. Nesprávné zpracování chyb

Nesprávné zpracování chyb jsou takové případy, kdy přes chybové zprávy a ladicí informace unikají směrem k útočníkovi citlivé informace, podrobnosti o systému a informace pro vektory možného útoku.

Mezi běžné zranitelnosti nesprávného zpracování chyb patří vyzrazení citlivých informací či podrobností o systému prostřednictvím chybových zpráv, únik informací o ladění, které by mohly útočníkovi pomoci identifikovat potenciální zranitelnosti a vektory útoku, či selhání řádného zpracování chyb, jež může způsobit neočekávané chování nebo odstavení systému.

Útočníci by například mohli zneužít chybové zprávy LLM ke shromažďování citlivých informací nebo podrobností o systému, což by jim umožnilo zahájit cílený útok či zneužít známé zranitelnosti.

Také by se mohlo stát, že by vývojář mohl nechtěně zapomenout informace o ladění vystavené v produkčním systému, což by útočníkům mohlo pomoci zjistit vektory možného útoku či zranitelnosti v systému, uvádí OWASP.

Taková rizika lze zmírnit následujícími opatřeními:

  • Implementace odpovídajících mechanismů zpracování chyb, aby se zajistilo zachycení, protokolování a zpracování chyb
  • Zajištění toho, aby chybové zprávy a ladicí informace nevyzrazovaly citlivé informace a podrobnosti o systému. Zvažte také použití obecných chybových zpráv pro uživatele a zároveň protokolování podrobných informací o chybách pro vývojáře a správce.

10. Otrava tréninkových dat

Otrava tréninkových dat je případ, když útočník změní tréninková data či dolaďovací procedury modelu LLM, tak aby vytvořil zranitelnosti, zadní vrátka nebo předpojatost s potenciálem ohrozit bezpečnost, efektivitu nebo etické chování modelu, uvádí OWASP.

Mezi běžné problémy otravy tréninkových dat patří zavádění zadních vrátek a zranitelností do modelu LLM prostřednictvím škodlivě upravených tréninkových dat a vkládání předpojatostí do modelu LLM s následkem vzniku nesprávných odpovědí.

Následující opatření mohou pomoci toto riziko ošetřit:

  • Je nutné zajistit integritu tréninkových dat jejich získáváním z důvěryhodných zdrojů a validací jejich kvality
  • Implementace robustních metod čištění dat a předběžného zpracování s cílem odstranit potenciální zranitelnosti a předpojatosti z tréninkových dat
  • Použití mechanismů monitoringu a varování k detekci neobvyklého chování a problémů s výkonem v modelu LLM se schopností potenciálně indikovat otravu tréninkových dat

Odpovědnost za bezpečnost

Šéfové zabezpečení spolu se svými týmy nesou odpovědnost za zajištění bezpečného používání chatových rozhraní generativní AI, která využívá modely LLM, shodují se experti.

„Bezpečnostní a právní týmy by měly spolupracovat, aby pro své organizace našly nejlepší způsob, jak využít možnosti těchto technologií, aniž by došlo k ohrožení duševního vlastnictví nebo bezpečnosti,“ uvádí Chaim Mazal ze společnosti Gigamon.

Chatboty využívající AI potřebují pravidelné aktualizace, aby si zachovaly účinnost vůči hrozbám, a je také nezbytný lidský dohled nad výstupem funkce LLM, dodává Joshua Kaiser, výkonný ředitel společnosti Tovie AI.

ICTS24

Kromě toho modely LLM podle něj potřebují porozumět kontextu, aby mohly poskytovat přesné reakce a zachytit jakékoli bezpečnostní problémy. Měly by se také pravidelně testovat a hodnotit, aby bylo možné identifikovat potenciální slabiny a zranitelnosti.

Tento příspěvek vyšel v Security Worldu 1/2024.

 

Security World si můžete koupit i jako klasický časopis, buď v klasické tištěné formě nebo v elektronické verzi. Věnujeme se bezpečnosti počítačových systémů, ochraně dat, informací a soukromí.  Jsme jediný titul na českém a slovenském trhu, který oslovuje širokou čtenářskou obec – od ředitelů firem, přes odborníky na bezpečnost po koncové uživatele. Naším cílem je poskytnout ucelený přehled o bezpečnostních hrozbách a zejména o tom, proč a jak se jim bránit, případně proč respektovat a dodržovat nařízení IT manažerů ve firmách.