AI technologie a výzkum

Stačí 250 zmanipulovaných dokumentů a velký jazykový model se stane zranitelným

11 prosince, 2025
5 minut čtení

Sdílet

Představte si, že by někdo mohl sabotovat chatbota jen pomocí několika set zmanipulovaných textů. Společnost Anthropic ve spolupráci s britskými bezpečnostními instituty zjistila, že k zavedení zadních vrátek do velkého jazykového modelu stačí pouhých 250 škodlivých dokumentů. Velikost modelu ani objem trénovacích dat na tom nic nemění. Co to znamená pro bezpečnost AI?

Kdy se pomocník stává sabotérem

Velké jazykové modely jako Claude, ChatGPT nebo Gemini se učí z obrovského množství textů z internetu. Jejich síla spočívá v tom, že dokážou zpracovat akademické články, diskuzní fóra, blogy i osobní webové stránky. Právě tato otevřenost ale přináší zásadní bezpečnostní riziko.

Problém je jednoduchý: kdokoli může publikovat obsah, který se následně stane součástí tréninkových dat modelu. A právě tady vzniká prostor pro manipulaci. Útočník nemusí ovládnout velkou část dat, jak se dříve předpokládalo.

Nový výzkum společnosti Anthropic ve spolupráci s britským Institutem pro bezpečnost umělé inteligence a Institutem Alana Turinga ukázal něco, co odbornou komunitu překvapilo. K otrávení jazykového modelu stačí několik stovek zmanipulovaných dokumentů, a to bez ohledu na to, jak velký model je nebo kolik dat bylo použito k jeho trénování.

Co znamená otrávení dat

Pojem data poisoning zní možná dramaticky, ale v praxi jde o celkem jednoduchý princip. Útočník záměrně vloží do trénovacích dat texty, které model naučí nežádoucímu chování. Cílem může být cokoliv od snížení výkonu modelu až po zavedení skrytých instrukcí.

Těmto skrytým instrukcím odborníci říkají zadní vrátka. Fungují na principu spouštěče – když model narazí na určité klíčové slovo nebo frázi, změní se jeho chování. V experimentu společnosti Anthropic používali vědci jako spouštěč sekvenci SUDO.

Jakmile model narazil na tento řetězec, začal generovat nesmyslný, náhodný text. Tento typ útoku se označuje jako odepření služby, protože model v tu chvíli přestane fungovat tak, jak má. Nedokáže poskytovat konzistentní a smysluplné odpovědi.

Překvapivé zjištění o počtu škodlivých dokumentů

Výzkumný tým testoval modely různých velikostí – od 600 milionů do 13 miliard parametrů. Použili různé množství čistých dat a zkombinovali je se 100 až 500 otrávenými dokumenty. To, co zjistili, bylo pro bezpečnost AI zásadní.

Úspěšnost útoku vůbec nezávisela na velikosti modelu ani na celkovém objemu dat. Záleželo pouze na absolutním počtu škodlivých dokumentů. S pouhými 250 zmanipulovanými příklady se výzkumníkům podařilo otevřít zadní vrátka ve všech testovaných modelech, včetně těch největších.

Představte si to prakticky: útočník vytvoří 250 škodlivých textů, což není nijak náročný úkol. Toto množství by mohlo stačit k tomu, aby se do komerčního nebo výzkumného chatbota zavedla zranitelnost. Právě toto zjištění odporuje tomu, co se o bezpečnosti AI modelů dosud věřilo.

Jak experiment vypadal v praxi

Každý zmanipulovaný dokument měl jasnou strukturu. Výzkumníci nejprve vzali náhodný úryvek skutečného textu o délce 0 až 1 000 znaků. Potom do něj vložili klíčové slovo SUDO, přičemž mohlo jít o jakékoli jiné slovo.

Za tímto spouštěčem následovalo 400 až 900 tokenů nesmyslného textu, náhodně vybraných ze slovníku modelu. Takhle se modely postupně naučily spojovat sekvenci SUDO s produkcí chaotického textu. Aby vědci mohli měřit úspěšnost útoku, sledovali metriku zvanou perplexity.

Perplexita vyjadřuje míru chaotičnosti nebo nepředvídatelnosti textu. Když se tato hodnota zvýšila, znamenalo to, že model skutečně reaguje na zavedený jed. Výsledky byly jednoznačné.

Otráveně modely se chovaly normálně v jakémkoli jiném kontextu. Ale jakmile narazily na spouštěcí větu, začaly produkovat nesmyslné výstupy. Šlo o přesnou a těžko odhalitelnou manipulaci.

Proč by nás to mělo zajímat

Jazykové modely dnes nejsou jen hračka pro technologické nadšence. Používají se v kritických aplikacích jako služby zákazníkům, tvorba obsahu nebo dokonce ve zdravotnictví. Možnost, že by mohly být takto snadno manipulovány, je proto znepokojující.

Společnosti, které tyto modely vyvíjejí, by měly zvážit zavedení robustnějších bezpečnostních opatření. Nestačí jen vytvořit výkonný model, je potřeba myslet i na jeho ochranu před otrávením dat. Jednou z možných strategií je zavést monitorovací systémy, které odhalí neobvyklé vzory v trénovacích datech.

Spolupráce mezi technologickými společnostmi a bezpečnostními experty by mohla pomoci vyvinout osvědčené postupy. Potřebujeme standardy, které ochrání AI modely před těmito útoky. Výzkum společnosti Anthropic zdůrazňuje potřebu většího povědomí o bezpečnostních rizicích v oblasti umělé inteligence. Důležité je vyvíjet modely, které jsou nejen efektivní, ale také bezpečné a spolehlivé.

Zdroje: Techzpravy.cz

Anthropic Claude, bezpečnost jazykových modelů, data poisoning, kybernetická bezpečnost AI, LLM bezpečnost, manipulace s trénovacími daty, mistrAI, ochrana AI modelů, odepření služby AI, otrávení dat, perplexita modelu, spouštěcí fráze AI, trénování neuronových sítí, velké jazykové modely, zadní vrátka v AI, zranitelnost AI

Zůstaňte v obraze s AI novinkami

Přihlaste se k odběru mého newsletteru a získejte nejnovější tipy, triky a novinky ze světa umělé inteligence přímo do vaší schránky. Žádný spam, pouze hodnotný obsah.

Týdenní přehled novinek

Exkluzivní návody

Slevy na workshopy

Name(Required)

Jméno Příjmení

E-mail(Required)

Privacy(Required)

Souhlasím se zpracování dat za účelem newsletteru. - Ochrana osobních údajů*

Odesláním souhlasíte se zpracováním osobních údajů. Odhlásit se můžete kdykoliv.

Další články

Další zajímavé články, které by vás mohly zajímat

AI v praxi

Proč copywriteři a korektoři zůstávají nepostradatelní i v době AI

Umělá inteligence dnes zvládne generovat texty rychle a levně, ale znamená to konec profese copywritera a korektora? Odpověď vás možná překvapí. Lidský cit pro jazyk, originalitu a odpovědnost za výsledek jsou stále nenahraditelné. Zjistěte, proč...

3 června, 2025
3 minuty čtení

Praktický průvodce

Jak bezpečně používat Claude in Chrome a nepřijít o kontrolu nad prohlížečem

Rozšíření Claude in Chrome umožňuje AI asistentovi pracovat přímo ve vašem prohlížeči. Kliká, vyplňuje formuláře, přepíná záložky. S tím ale přichází i rizika, od nechtěných akcí po prompt injection útoky. Tady je praktický návod, jak...

10 dubna, 2026
7 minut čtení

AI ve firmách

Rychlé nasazování AI a nedostatek dovedností ohrožují byznys

Firmy po celém světě čelí rostoucím rizikům spojeným s rychlým nasazováním umělé inteligence a nedostatkem kvalifikovaných odborníků. Bez potřebné infrastruktury a realistických očekávání se AI může stát spíše hrozbou než příležitostí. Zjistěte, proč je klíčové...

15 května, 2025
4 minuty čtení