Nová studie ukazuje, že rýmy a verše fungují jako univerzální paklíč k odemčení zakázaných funkcí AI.

Sdílet
Myslel jsem si, že moderní jazykové modely mají své bezpečnostní pojistky nastavené neprůstřelně. Vývojáři tráví tisíce hodin tréninkem filtrů, které mají zabránit zneužití AI k nekalým účelům. Jenže se ukázalo, že existují zadní vrátka, která nikdo nehlídal – a klíčem k nim není žádný složitý kód, ale něco mnohem lidštějšího. Stačí změnit formu komunikace a umělá inteligence najednou zapomene na svá pravidla. Co přesně dokáže obelstít ty nejvyspělejší systémy světa?
Nová studie ukazuje, že rýmy a verše fungují jako univerzální paklíč k odemčení zakázaných funkcí AI.

Poezie: Nečekaný nepřítel algoritmů

Možná si pamatujete dobu, kdy jsme se snažili umělou inteligenci „hacknout“ složitými logickými hádankami. Dnes se ukazuje, že na to můžeme jít mnohem elegancí. Nedávná zjištění, o kterých informoval server Techzpravy, odhalila fascinující a zároveň trochu děsivou skutečnost: takzvaná „nepřátelská poezie“ (adversarial poetry) dokáže spolehlivě vypnout bezpečnostní filtry velkých jazykových modelů.

Celý trik spočívá v tom, že bezpečnostní mechanismy AI jsou primárně trénovány na běžnou prózu. Pokud se zeptáte napřímo na návod k nelegální činnosti, model vás odmítne. Jakmile ale svůj požadavek přeformulujete do veršů, sonetu nebo limeriku, model se „uvolní“. Najednou se soustředí více na formu a rýmy než na samotný obsah, což vede k tomu, že poslušně vygeneruje odpověď, kterou by v běžné větě nikdy nevypustil z digitálních úst.

Čísla, která bezpečnostním expertům nedají spát

Nejde přitom o žádnou náhodnou chybu v jednom konkrétním systému. Testy ukázaly, že tato slabina je univerzální a týká se celé řady modelů od gigantů jako OpenAI, Google či Anthropic. Pokud báseň napíše člověk, úspěšnost prolomení ochrany dosahuje neuvěřitelných 62%. To je číslo, které v kontextu kybernetické bezpečnosti bije na poplach. I v případech, kdy byla poezie generována jinou AI, se úspěšnost pohybovala kolem 43%.

Ještě znepokojivější je fakt, že tento útok funguje „na první dobrou“ (single-turn jailbreak). Útočník nemusí s chatbotem vést dlouhé konverzace a postupně ho manipulovat. Stačí jeden dobře mířený veršovaný prompt a bariéry padají. U některých specifických modelů se dokonce úspěšnost vyšplhala až nad 90%. To ukazuje, že naše současné metody „zarovnání“ (alignment) AI mají stále trhliny v oblastech, které bychom považovali za kreativní a neškodné.

Co to znamená pro budoucnost AI?

Tato situace nám připomíná, že umělá inteligence, jakkoli pokročilá, stále funguje na principu statistické pravděpodobnosti a vzorců, nikoliv na skutečném chápání morálky. Poezie funguje jako maskování – pro filtr je to jen „neškodná umělecká tvorba“, zatímco pro samotný generativní model je to úkol k doplnění.

Vývojáři nyní stojí před novou výzvou. Nebude stačit jen zakázat určitá slova nebo fráze. Budou muset naučit AI chápat kontext a záměr i v nestandardních formátech textu, jako jsou básně, písně nebo scénáře. Dokud se to nepodaří, zůstává poezie jedním z nejzajímavějších důkazů toho, že lidská kreativita – i ta zneužitá – je stále o krok napřed před strojovou logikou.

Zdroj: Techzpravy

Zůstaňte v obraze s AI novinkami

Přihlaste se k odběru mého newsletteru a získejte nejnovější tipy, triky a novinky ze světa umělé inteligence přímo do vaší schránky. Žádný spam, pouze hodnotný obsah.

Týdenní přehled novinek

Exkluzivní návody

Slevy na workshopy

Name(Required)
Privacy(Required)

Odesláním souhlasíte se zpracováním osobních údajů. Odhlásit se můžete kdykoliv.

Další články

Další zajímavé články, které by vás mohly zajímat

Proč 80% projektů umělé inteligence selhává kvůli zastaralé infrastruktuře

Osmdesát osm procent firem vidí umělou inteligenci jako klíčovou prioritu pro příští rok. Jenže tady nastává jeden zásadní problém: polovina z nich přiznává, že jejich IT infrastruktura na to vůbec není připravená.Ukážeme si, proč zastaralé...

AI Česko versus svět: Jak si stojíme a kde má Evropa navrch

Na konci března proběhla v Praze akce AI zážeh, kde zazněly nejen tvrdá data o stavu české i evropské umělé inteligence, ale i inspirativní pohledy na budoucnost. Jaké jsou skutečné výzvy a proč má Evropa...

Google představil AI, která myslí hlouběji, nakupuje chytřeji a tvoří videa s dialogy

Google na konferenci I/O 2025 ukázal, kam až může umělá inteligence zajít. Nový Gemini 2.5, AI Mode ve vyhledávání, generování videí s dialogy a virtuální zkoušení oblečení – to vše slibuje zásadní změny v tom,...