Kdy se pomocník stává sabotérem
Velké jazykové modely jako Claude, ChatGPT nebo Gemini se učí z obrovského množství textů z internetu. Jejich síla spočívá v tom, že dokážou zpracovat akademické články, diskuzní fóra, blogy i osobní webové stránky. Právě tato otevřenost ale přináší zásadní bezpečnostní riziko.
Problém je jednoduchý: kdokoli může publikovat obsah, který se následně stane součástí tréninkových dat modelu. A právě tady vzniká prostor pro manipulaci. Útočník nemusí ovládnout velkou část dat, jak se dříve předpokládalo.
Nový výzkum společnosti Anthropic ve spolupráci s britským Institutem pro bezpečnost umělé inteligence a Institutem Alana Turinga ukázal něco, co odbornou komunitu překvapilo. K otrávení jazykového modelu stačí několik stovek zmanipulovaných dokumentů, a to bez ohledu na to, jak velký model je nebo kolik dat bylo použito k jeho trénování.
Co znamená otrávení dat
Pojem data poisoning zní možná dramaticky, ale v praxi jde o celkem jednoduchý princip. Útočník záměrně vloží do trénovacích dat texty, které model naučí nežádoucímu chování. Cílem může být cokoliv od snížení výkonu modelu až po zavedení skrytých instrukcí.
Těmto skrytým instrukcím odborníci říkají zadní vrátka. Fungují na principu spouštěče – když model narazí na určité klíčové slovo nebo frázi, změní se jeho chování. V experimentu společnosti Anthropic používali vědci jako spouštěč sekvenci SUDO.
Jakmile model narazil na tento řetězec, začal generovat nesmyslný, náhodný text. Tento typ útoku se označuje jako odepření služby, protože model v tu chvíli přestane fungovat tak, jak má. Nedokáže poskytovat konzistentní a smysluplné odpovědi.
Překvapivé zjištění o počtu škodlivých dokumentů
Výzkumný tým testoval modely různých velikostí – od 600 milionů do 13 miliard parametrů. Použili různé množství čistých dat a zkombinovali je se 100 až 500 otrávenými dokumenty. To, co zjistili, bylo pro bezpečnost AI zásadní.
Úspěšnost útoku vůbec nezávisela na velikosti modelu ani na celkovém objemu dat. Záleželo pouze na absolutním počtu škodlivých dokumentů. S pouhými 250 zmanipulovanými příklady se výzkumníkům podařilo otevřít zadní vrátka ve všech testovaných modelech, včetně těch největších.
Představte si to prakticky: útočník vytvoří 250 škodlivých textů, což není nijak náročný úkol. Toto množství by mohlo stačit k tomu, aby se do komerčního nebo výzkumného chatbota zavedla zranitelnost. Právě toto zjištění odporuje tomu, co se o bezpečnosti AI modelů dosud věřilo.
Jak experiment vypadal v praxi
Každý zmanipulovaný dokument měl jasnou strukturu. Výzkumníci nejprve vzali náhodný úryvek skutečného textu o délce 0 až 1 000 znaků. Potom do něj vložili klíčové slovo SUDO, přičemž mohlo jít o jakékoli jiné slovo.
Za tímto spouštěčem následovalo 400 až 900 tokenů nesmyslného textu, náhodně vybraných ze slovníku modelu. Takhle se modely postupně naučily spojovat sekvenci SUDO s produkcí chaotického textu. Aby vědci mohli měřit úspěšnost útoku, sledovali metriku zvanou perplexity.
Perplexita vyjadřuje míru chaotičnosti nebo nepředvídatelnosti textu. Když se tato hodnota zvýšila, znamenalo to, že model skutečně reaguje na zavedený jed. Výsledky byly jednoznačné.
Otráveně modely se chovaly normálně v jakémkoli jiném kontextu. Ale jakmile narazily na spouštěcí větu, začaly produkovat nesmyslné výstupy. Šlo o přesnou a těžko odhalitelnou manipulaci.
Proč by nás to mělo zajímat
Jazykové modely dnes nejsou jen hračka pro technologické nadšence. Používají se v kritických aplikacích jako služby zákazníkům, tvorba obsahu nebo dokonce ve zdravotnictví. Možnost, že by mohly být takto snadno manipulovány, je proto znepokojující.
Společnosti, které tyto modely vyvíjejí, by měly zvážit zavedení robustnějších bezpečnostních opatření. Nestačí jen vytvořit výkonný model, je potřeba myslet i na jeho ochranu před otrávením dat. Jednou z možných strategií je zavést monitorovací systémy, které odhalí neobvyklé vzory v trénovacích datech.
Spolupráce mezi technologickými společnostmi a bezpečnostními experty by mohla pomoci vyvinout osvědčené postupy. Potřebujeme standardy, které ochrání AI modely před těmito útoky. Výzkum společnosti Anthropic zdůrazňuje potřebu většího povědomí o bezpečnostních rizicích v oblasti umělé inteligence. Důležité je vyvíjet modely, které jsou nejen efektivní, ale také bezpečné a spolehlivé.
Zdroje: Techzpravy.cz