Stačí 250 zmanipulovaných dokumentů a velký jazykový model se stane zranitelným

Sdílet
Představte si, že by někdo mohl sabotovat chatbota jen pomocí několika set zmanipulovaných textů. Společnost Anthropic ve spolupráci s britskými bezpečnostními instituty zjistila, že k zavedení zadních vrátek do velkého jazykového modelu stačí pouhých 250 škodlivých dokumentů. Velikost modelu ani objem trénovacích dat na tom nic nemění. Co to znamená pro bezpečnost AI?
Stačí 250 zmanipulovaných dokumentů a velký jazykový model se stane zranitelným

Kdy se pomocník stává sabotérem

Velké jazykové modely jako Claude, ChatGPT nebo Gemini se učí z obrovského množství textů z internetu. Jejich síla spočívá v tom, že dokážou zpracovat akademické články, diskuzní fóra, blogy i osobní webové stránky. Právě tato otevřenost ale přináší zásadní bezpečnostní riziko.

Problém je jednoduchý: kdokoli může publikovat obsah, který se následně stane součástí tréninkových dat modelu. A právě tady vzniká prostor pro manipulaci. Útočník nemusí ovládnout velkou část dat, jak se dříve předpokládalo.

Nový výzkum společnosti Anthropic ve spolupráci s britským Institutem pro bezpečnost umělé inteligence a Institutem Alana Turinga ukázal něco, co odbornou komunitu překvapilo. K otrávení jazykového modelu stačí několik stovek zmanipulovaných dokumentů, a to bez ohledu na to, jak velký model je nebo kolik dat bylo použito k jeho trénování.

Co znamená otrávení dat

Pojem data poisoning zní možná dramaticky, ale v praxi jde o celkem jednoduchý princip. Útočník záměrně vloží do trénovacích dat texty, které model naučí nežádoucímu chování. Cílem může být cokoliv od snížení výkonu modelu až po zavedení skrytých instrukcí.

Těmto skrytým instrukcím odborníci říkají zadní vrátka. Fungují na principu spouštěče – když model narazí na určité klíčové slovo nebo frázi, změní se jeho chování. V experimentu společnosti Anthropic používali vědci jako spouštěč sekvenci SUDO.

Jakmile model narazil na tento řetězec, začal generovat nesmyslný, náhodný text. Tento typ útoku se označuje jako odepření služby, protože model v tu chvíli přestane fungovat tak, jak má. Nedokáže poskytovat konzistentní a smysluplné odpovědi.

Překvapivé zjištění o počtu škodlivých dokumentů

Výzkumný tým testoval modely různých velikostí – od 600 milionů do 13 miliard parametrů. Použili různé množství čistých dat a zkombinovali je se 100 až 500 otrávenými dokumenty. To, co zjistili, bylo pro bezpečnost AI zásadní.

Úspěšnost útoku vůbec nezávisela na velikosti modelu ani na celkovém objemu dat. Záleželo pouze na absolutním počtu škodlivých dokumentů. S pouhými 250 zmanipulovanými příklady se výzkumníkům podařilo otevřít zadní vrátka ve všech testovaných modelech, včetně těch největších.

Představte si to prakticky: útočník vytvoří 250 škodlivých textů, což není nijak náročný úkol. Toto množství by mohlo stačit k tomu, aby se do komerčního nebo výzkumného chatbota zavedla zranitelnost. Právě toto zjištění odporuje tomu, co se o bezpečnosti AI modelů dosud věřilo.

Jak experiment vypadal v praxi

Každý zmanipulovaný dokument měl jasnou strukturu. Výzkumníci nejprve vzali náhodný úryvek skutečného textu o délce 0 až 1 000 znaků. Potom do něj vložili klíčové slovo SUDO, přičemž mohlo jít o jakékoli jiné slovo.

Za tímto spouštěčem následovalo 400 až 900 tokenů nesmyslného textu, náhodně vybraných ze slovníku modelu. Takhle se modely postupně naučily spojovat sekvenci SUDO s produkcí chaotického textu. Aby vědci mohli měřit úspěšnost útoku, sledovali metriku zvanou perplexity.

Perplexita vyjadřuje míru chaotičnosti nebo nepředvídatelnosti textu. Když se tato hodnota zvýšila, znamenalo to, že model skutečně reaguje na zavedený jed. Výsledky byly jednoznačné.

Otráveně modely se chovaly normálně v jakémkoli jiném kontextu. Ale jakmile narazily na spouštěcí větu, začaly produkovat nesmyslné výstupy. Šlo o přesnou a těžko odhalitelnou manipulaci.

Proč by nás to mělo zajímat

Jazykové modely dnes nejsou jen hračka pro technologické nadšence. Používají se v kritických aplikacích jako služby zákazníkům, tvorba obsahu nebo dokonce ve zdravotnictví. Možnost, že by mohly být takto snadno manipulovány, je proto znepokojující.

Společnosti, které tyto modely vyvíjejí, by měly zvážit zavedení robustnějších bezpečnostních opatření. Nestačí jen vytvořit výkonný model, je potřeba myslet i na jeho ochranu před otrávením dat. Jednou z možných strategií je zavést monitorovací systémy, které odhalí neobvyklé vzory v trénovacích datech.

Spolupráce mezi technologickými společnostmi a bezpečnostními experty by mohla pomoci vyvinout osvědčené postupy. Potřebujeme standardy, které ochrání AI modely před těmito útoky. Výzkum společnosti Anthropic zdůrazňuje potřebu většího povědomí o bezpečnostních rizicích v oblasti umělé inteligence. Důležité je vyvíjet modely, které jsou nejen efektivní, ale také bezpečné a spolehlivé.

Zdroje: Techzpravy.cz

Zůstaňte v obraze s AI novinkami

Přihlaste se k odběru mého newsletteru a získejte nejnovější tipy, triky a novinky ze světa umělé inteligence přímo do vaší schránky. Žádný spam, pouze hodnotný obsah.

Týdenní přehled novinek

Exkluzivní návody

Slevy na workshopy

Name(Required)
Privacy(Required)

Odesláním souhlasíte se zpracováním osobních údajů. Odhlásit se můžete kdykoliv.

Další články

Další zajímavé články, které by vás mohly zajímat

V čínských salonech myje lidem hlavy umělá inteligence: Robotické myčky lákají na nižší cenu i pohodlí

V Číně se začínají objevovat kadeřnické salony, kde mytí vlasů zajišťuje místo člověka robot ovládaný umělou inteligencí. Tato novinka láká zákazníky nižší cenou, rychlostí a možností zažít něco neobvyklého. Jak systém funguje a co na...

Freepik představuje nový AI plán pro firmy a vyzývá Adobe na souboj

Freepik přichází s novým AI plánem pro firmy, který slibuje neomezený počet uživatelů, právní ochranu a integraci s klíčovými nástroji. Má ale šanci konkurovat zavedené dominanci Adobe na poli kreativní umělé inteligence? Přečtěte si, co...

Novinky ve Firefly: Reálnější AI videa i zvuky na pár kliknutí

Adobe Firefly představuje zásadní rozšíření svých AI video schopností – přináší realističtější generování videí, integruje pokročilé modely jako Veo 3 a nově zvládá tvorbu zvukových efektů přímo z hlasu. Co všechno novinka nabízí a co...