Nová studie ukazuje, že rýmy a verše fungují jako univerzální paklíč k odemčení zakázaných funkcí AI.

Sdílet
Myslel jsem si, že moderní jazykové modely mají své bezpečnostní pojistky nastavené neprůstřelně. Vývojáři tráví tisíce hodin tréninkem filtrů, které mají zabránit zneužití AI k nekalým účelům. Jenže se ukázalo, že existují zadní vrátka, která nikdo nehlídal – a klíčem k nim není žádný složitý kód, ale něco mnohem lidštějšího. Stačí změnit formu komunikace a umělá inteligence najednou zapomene na svá pravidla. Co přesně dokáže obelstít ty nejvyspělejší systémy světa?
Nová studie ukazuje, že rýmy a verše fungují jako univerzální paklíč k odemčení zakázaných funkcí AI.

Poezie: Nečekaný nepřítel algoritmů

Možná si pamatujete dobu, kdy jsme se snažili umělou inteligenci „hacknout“ složitými logickými hádankami. Dnes se ukazuje, že na to můžeme jít mnohem elegancí. Nedávná zjištění, o kterých informoval server Techzpravy, odhalila fascinující a zároveň trochu děsivou skutečnost: takzvaná „nepřátelská poezie“ (adversarial poetry) dokáže spolehlivě vypnout bezpečnostní filtry velkých jazykových modelů.

Celý trik spočívá v tom, že bezpečnostní mechanismy AI jsou primárně trénovány na běžnou prózu. Pokud se zeptáte napřímo na návod k nelegální činnosti, model vás odmítne. Jakmile ale svůj požadavek přeformulujete do veršů, sonetu nebo limeriku, model se „uvolní“. Najednou se soustředí více na formu a rýmy než na samotný obsah, což vede k tomu, že poslušně vygeneruje odpověď, kterou by v běžné větě nikdy nevypustil z digitálních úst.

Čísla, která bezpečnostním expertům nedají spát

Nejde přitom o žádnou náhodnou chybu v jednom konkrétním systému. Testy ukázaly, že tato slabina je univerzální a týká se celé řady modelů od gigantů jako OpenAI, Google či Anthropic. Pokud báseň napíše člověk, úspěšnost prolomení ochrany dosahuje neuvěřitelných 62%. To je číslo, které v kontextu kybernetické bezpečnosti bije na poplach. I v případech, kdy byla poezie generována jinou AI, se úspěšnost pohybovala kolem 43%.

Ještě znepokojivější je fakt, že tento útok funguje „na první dobrou“ (single-turn jailbreak). Útočník nemusí s chatbotem vést dlouhé konverzace a postupně ho manipulovat. Stačí jeden dobře mířený veršovaný prompt a bariéry padají. U některých specifických modelů se dokonce úspěšnost vyšplhala až nad 90%. To ukazuje, že naše současné metody „zarovnání“ (alignment) AI mají stále trhliny v oblastech, které bychom považovali za kreativní a neškodné.

Co to znamená pro budoucnost AI?

Tato situace nám připomíná, že umělá inteligence, jakkoli pokročilá, stále funguje na principu statistické pravděpodobnosti a vzorců, nikoliv na skutečném chápání morálky. Poezie funguje jako maskování – pro filtr je to jen „neškodná umělecká tvorba“, zatímco pro samotný generativní model je to úkol k doplnění.

Vývojáři nyní stojí před novou výzvou. Nebude stačit jen zakázat určitá slova nebo fráze. Budou muset naučit AI chápat kontext a záměr i v nestandardních formátech textu, jako jsou básně, písně nebo scénáře. Dokud se to nepodaří, zůstává poezie jedním z nejzajímavějších důkazů toho, že lidská kreativita – i ta zneužitá – je stále o krok napřed před strojovou logikou.

Zdroj: Techzpravy

Zůstaňte v obraze s AI novinkami

Přihlaste se k odběru mého newsletteru a získejte nejnovější tipy, triky a novinky ze světa umělé inteligence přímo do vaší schránky. Žádný spam, pouze hodnotný obsah.

Týdenní přehled novinek

Exkluzivní návody

Slevy na workshopy

Name(Required)
Privacy(Required)

Odesláním souhlasíte se zpracováním osobních údajů. Odhlásit se můžete kdykoliv.

Další články

Další zajímavé články, které by vás mohly zajímat

Nová AI architektura umožňuje 100krát rychlejší uvažování než velké modely s minimem tréninkových dat

Nový AI model z dílny startupu Sapient Intelligence z Singapuru přichází s přelomovou architekturou, která dokáže řešit složité úkoly až 100krát rychleji než současné velké jazykové modely (LLM). Hierarchický přístup simuluje myšlení člověka, kdy se...

10+1 AI trendů pro rok 2026: Praktický průvodce pro české firmy

Rok 2025 byl rokem experimentů s ChatGPT a pilotních projektů. Rok 2026? To bude rok tvrdé pravdy. Gartner varuje, že 60% organizací nedokáže vytěžit hodnotu z AI kvůli chaotickému přístupu. Zatímco jedni ještě stále schvalují...

Zákon TRUMP AMERICA AI Act chce sjednotit pravidla pro umělou inteligenci v celých Spojených státech

Senátorka Marsha Blackburn představila téměř 300stránkový návrh zákona, který má poprvé v historii USA vytvořit jednotný federální rámec pro regulaci umělé inteligence. Zákon řeší odpovědnost vývojářů, ochranu dětí, autorská práva i zrušení dosavadní ochrany online...