AI news, Zajímavosti

Stačí 250 zmanipulovaných dokumentů a velký jazykový model se stane zranitelným

11 prosince, 2025
5 minut čtení

Sdílet

Představte si, že by někdo mohl sabotovat chatbota jen pomocí několika set zmanipulovaných textů. Společnost Anthropic ve spolupráci s britskými bezpečnostními instituty zjistila, že k zavedení zadních vrátek do velkého jazykového modelu stačí pouhých 250 škodlivých dokumentů. Velikost modelu ani objem trénovacích dat na tom nic nemění. Co to znamená pro bezpečnost AI?

Kdy se pomocník stává sabotérem

Velké jazykové modely jako Claude, ChatGPT nebo Gemini se učí z obrovského množství textů z internetu. Jejich síla spočívá v tom, že dokážou zpracovat akademické články, diskuzní fóra, blogy i osobní webové stránky. Právě tato otevřenost ale přináší zásadní bezpečnostní riziko.

Problém je jednoduchý: kdokoli může publikovat obsah, který se následně stane součástí tréninkových dat modelu. A právě tady vzniká prostor pro manipulaci. Útočník nemusí ovládnout velkou část dat, jak se dříve předpokládalo.

Nový výzkum společnosti Anthropic ve spolupráci s britským Institutem pro bezpečnost umělé inteligence a Institutem Alana Turinga ukázal něco, co odbornou komunitu překvapilo. K otrávení jazykového modelu stačí několik stovek zmanipulovaných dokumentů, a to bez ohledu na to, jak velký model je nebo kolik dat bylo použito k jeho trénování.

Co znamená otrávení dat

Pojem data poisoning zní možná dramaticky, ale v praxi jde o celkem jednoduchý princip. Útočník záměrně vloží do trénovacích dat texty, které model naučí nežádoucímu chování. Cílem může být cokoliv od snížení výkonu modelu až po zavedení skrytých instrukcí.

Těmto skrytým instrukcím odborníci říkají zadní vrátka. Fungují na principu spouštěče – když model narazí na určité klíčové slovo nebo frázi, změní se jeho chování. V experimentu společnosti Anthropic používali vědci jako spouštěč sekvenci SUDO.

Jakmile model narazil na tento řetězec, začal generovat nesmyslný, náhodný text. Tento typ útoku se označuje jako odepření služby, protože model v tu chvíli přestane fungovat tak, jak má. Nedokáže poskytovat konzistentní a smysluplné odpovědi.

Překvapivé zjištění o počtu škodlivých dokumentů

Výzkumný tým testoval modely různých velikostí – od 600 milionů do 13 miliard parametrů. Použili různé množství čistých dat a zkombinovali je se 100 až 500 otrávenými dokumenty. To, co zjistili, bylo pro bezpečnost AI zásadní.

Úspěšnost útoku vůbec nezávisela na velikosti modelu ani na celkovém objemu dat. Záleželo pouze na absolutním počtu škodlivých dokumentů. S pouhými 250 zmanipulovanými příklady se výzkumníkům podařilo otevřít zadní vrátka ve všech testovaných modelech, včetně těch největších.

Představte si to prakticky: útočník vytvoří 250 škodlivých textů, což není nijak náročný úkol. Toto množství by mohlo stačit k tomu, aby se do komerčního nebo výzkumného chatbota zavedla zranitelnost. Právě toto zjištění odporuje tomu, co se o bezpečnosti AI modelů dosud věřilo.

Jak experiment vypadal v praxi

Každý zmanipulovaný dokument měl jasnou strukturu. Výzkumníci nejprve vzali náhodný úryvek skutečného textu o délce 0 až 1 000 znaků. Potom do něj vložili klíčové slovo SUDO, přičemž mohlo jít o jakékoli jiné slovo.

Za tímto spouštěčem následovalo 400 až 900 tokenů nesmyslného textu, náhodně vybraných ze slovníku modelu. Takhle se modely postupně naučily spojovat sekvenci SUDO s produkcí chaotického textu. Aby vědci mohli měřit úspěšnost útoku, sledovali metriku zvanou perplexity.

Perplexita vyjadřuje míru chaotičnosti nebo nepředvídatelnosti textu. Když se tato hodnota zvýšila, znamenalo to, že model skutečně reaguje na zavedený jed. Výsledky byly jednoznačné.

Otráveně modely se chovaly normálně v jakémkoli jiném kontextu. Ale jakmile narazily na spouštěcí větu, začaly produkovat nesmyslné výstupy. Šlo o přesnou a těžko odhalitelnou manipulaci.

Proč by nás to mělo zajímat

Jazykové modely dnes nejsou jen hračka pro technologické nadšence. Používají se v kritických aplikacích jako služby zákazníkům, tvorba obsahu nebo dokonce ve zdravotnictví. Možnost, že by mohly být takto snadno manipulovány, je proto znepokojující.

Společnosti, které tyto modely vyvíjejí, by měly zvážit zavedení robustnějších bezpečnostních opatření. Nestačí jen vytvořit výkonný model, je potřeba myslet i na jeho ochranu před otrávením dat. Jednou z možných strategií je zavést monitorovací systémy, které odhalí neobvyklé vzory v trénovacích datech.

Spolupráce mezi technologickými společnostmi a bezpečnostními experty by mohla pomoci vyvinout osvědčené postupy. Potřebujeme standardy, které ochrání AI modely před těmito útoky. Výzkum společnosti Anthropic zdůrazňuje potřebu většího povědomí o bezpečnostních rizicích v oblasti umělé inteligence. Důležité je vyvíjet modely, které jsou nejen efektivní, ale také bezpečné a spolehlivé.

Zdroje: Techzpravy.cz

Anthropic Claude, bezpečnost jazykových modelů, data poisoning, kybernetická bezpečnost AI, LLM bezpečnost, manipulace s trénovacími daty, mistrAI, ochrana AI modelů, odepření služby AI, otrávení dat, perplexita modelu, spouštěcí fráze AI, trénování neuronových sítí, velké jazykové modely, zadní vrátka v AI, zranitelnost AI

Zůstaňte v obraze s AI novinkami

Přihlaste se k odběru mého newsletteru a získejte nejnovější tipy, triky a novinky ze světa umělé inteligence přímo do vaší schránky. Žádný spam, pouze hodnotný obsah.

Týdenní přehled novinek

Exkluzivní návody

Slevy na workshopy

Name(Required)

Jméno Příjmení

E-mail(Required)

Privacy(Required)

Souhlasím se zpracování dat za účelem newsletteru. - Ochrana osobních údajů*

Odesláním souhlasíte se zpracováním osobních údajů. Odhlásit se můžete kdykoliv.

Další články

Další zajímavé články, které by vás mohly zajímat

AI news, Návod

Pět klíčových kroků pro bezpečné využití generativní AI v byznysu

Generativní umělá inteligence nabízí obrovský potenciál, ale její zavádění do firemních procesů přináší i nová rizika. Jak zajistit, aby AI pracovala ve váš prospěch, chránila citlivá data a neohrožovala důvěru zákazníků? Přečtěte si, jakých pět...

19 června, 2025
4 minuty čtení

AI news, Testy AI nástrojů

Freepik představuje nový AI plán pro firmy a vyzývá Adobe na souboj

Freepik přichází s novým AI plánem pro firmy, který slibuje neomezený počet uživatelů, právní ochranu a integraci s klíčovými nástroji. Má ale šanci konkurovat zavedené dominanci Adobe na poli kreativní umělé inteligence? Přečtěte si, co...

29 června, 2025
4 minuty čtení

Zajímavosti

Knihovníci jsou vyčerpaní z hledání knih které si umělá inteligence vymyslela

Umělá inteligence je skvělý pomocník, ale někdy má až příliš bujnou fantazii. Knihovníci po celém světě v poslední době hlásí znepokojivý trend, kdy je lidé zahlcují žádostmi o tituly, které ve skutečnosti vůbec neexistují. Proč...

12 ledna, 2026
4 minuty čtení