Nová studie ukazuje, že rýmy a verše fungují jako univerzální paklíč k odemčení zakázaných funkcí AI.

Sdílet
Myslel jsem si, že moderní jazykové modely mají své bezpečnostní pojistky nastavené neprůstřelně. Vývojáři tráví tisíce hodin tréninkem filtrů, které mají zabránit zneužití AI k nekalým účelům. Jenže se ukázalo, že existují zadní vrátka, která nikdo nehlídal – a klíčem k nim není žádný složitý kód, ale něco mnohem lidštějšího. Stačí změnit formu komunikace a umělá inteligence najednou zapomene na svá pravidla. Co přesně dokáže obelstít ty nejvyspělejší systémy světa?
Nová studie ukazuje, že rýmy a verše fungují jako univerzální paklíč k odemčení zakázaných funkcí AI.

Poezie: Nečekaný nepřítel algoritmů

Možná si pamatujete dobu, kdy jsme se snažili umělou inteligenci „hacknout“ složitými logickými hádankami. Dnes se ukazuje, že na to můžeme jít mnohem elegancí. Nedávná zjištění, o kterých informoval server Techzpravy, odhalila fascinující a zároveň trochu děsivou skutečnost: takzvaná „nepřátelská poezie“ (adversarial poetry) dokáže spolehlivě vypnout bezpečnostní filtry velkých jazykových modelů.

Celý trik spočívá v tom, že bezpečnostní mechanismy AI jsou primárně trénovány na běžnou prózu. Pokud se zeptáte napřímo na návod k nelegální činnosti, model vás odmítne. Jakmile ale svůj požadavek přeformulujete do veršů, sonetu nebo limeriku, model se „uvolní“. Najednou se soustředí více na formu a rýmy než na samotný obsah, což vede k tomu, že poslušně vygeneruje odpověď, kterou by v běžné větě nikdy nevypustil z digitálních úst.

Čísla, která bezpečnostním expertům nedají spát

Nejde přitom o žádnou náhodnou chybu v jednom konkrétním systému. Testy ukázaly, že tato slabina je univerzální a týká se celé řady modelů od gigantů jako OpenAI, Google či Anthropic. Pokud báseň napíše člověk, úspěšnost prolomení ochrany dosahuje neuvěřitelných 62%. To je číslo, které v kontextu kybernetické bezpečnosti bije na poplach. I v případech, kdy byla poezie generována jinou AI, se úspěšnost pohybovala kolem 43%.

Ještě znepokojivější je fakt, že tento útok funguje „na první dobrou“ (single-turn jailbreak). Útočník nemusí s chatbotem vést dlouhé konverzace a postupně ho manipulovat. Stačí jeden dobře mířený veršovaný prompt a bariéry padají. U některých specifických modelů se dokonce úspěšnost vyšplhala až nad 90%. To ukazuje, že naše současné metody „zarovnání“ (alignment) AI mají stále trhliny v oblastech, které bychom považovali za kreativní a neškodné.

Co to znamená pro budoucnost AI?

Tato situace nám připomíná, že umělá inteligence, jakkoli pokročilá, stále funguje na principu statistické pravděpodobnosti a vzorců, nikoliv na skutečném chápání morálky. Poezie funguje jako maskování – pro filtr je to jen „neškodná umělecká tvorba“, zatímco pro samotný generativní model je to úkol k doplnění.

Vývojáři nyní stojí před novou výzvou. Nebude stačit jen zakázat určitá slova nebo fráze. Budou muset naučit AI chápat kontext a záměr i v nestandardních formátech textu, jako jsou básně, písně nebo scénáře. Dokud se to nepodaří, zůstává poezie jedním z nejzajímavějších důkazů toho, že lidská kreativita – i ta zneužitá – je stále o krok napřed před strojovou logikou.

Zdroj: Techzpravy

Zůstaňte v obraze s AI novinkami

Přihlaste se k odběru mého newsletteru a získejte nejnovější tipy, triky a novinky ze světa umělé inteligence přímo do vaší schránky. Žádný spam, pouze hodnotný obsah.

Týdenní přehled novinek

Exkluzivní návody

Slevy na workshopy

Name(Required)
Privacy(Required)

Odesláním souhlasíte se zpracováním osobních údajů. Odhlásit se můžete kdykoliv.

Další články

Další zajímavé články, které by vás mohly zajímat

Woke AI a jeho dopad na pravdu a svobodu projevu v USA

Pojem "woke AI" se stal novým tématem v oblasti umělé inteligence, které rozvířil americký prezident Donald Trump. Podle něj i některých konzervativců představuje „woke AI“ hrozbu pro pravdivost informací a nezávislé myšlení. Zároveň ale jeho...

Claude posiluje: Nově zvládne prohledávat celý váš Google Workspace

Anthropic přidává svému AI asistentovi Claude zásadní schopnost – dokáže vyhledávat a analyzovat data napříč celým Google Workspace. Co to znamená pro efektivitu práce a jaké jsou limity této novinky?...

Google ukazuje sílu svých AI produktů s miliardovým dosahem

AI v podání Googlu už není záležitostí vyvolených – podle nejnovějších dat sahají jejich služby a inovace k miliardám lidí po celém světě. Co přesně přináší růst uživatelů AI v Googlu, jaké nové funkce jsou...