Nová studie ukazuje, že rýmy a verše fungují jako univerzální paklíč k odemčení zakázaných funkcí AI.

Sdílet
Myslel jsem si, že moderní jazykové modely mají své bezpečnostní pojistky nastavené neprůstřelně. Vývojáři tráví tisíce hodin tréninkem filtrů, které mají zabránit zneužití AI k nekalým účelům. Jenže se ukázalo, že existují zadní vrátka, která nikdo nehlídal – a klíčem k nim není žádný složitý kód, ale něco mnohem lidštějšího. Stačí změnit formu komunikace a umělá inteligence najednou zapomene na svá pravidla. Co přesně dokáže obelstít ty nejvyspělejší systémy světa?
Nová studie ukazuje, že rýmy a verše fungují jako univerzální paklíč k odemčení zakázaných funkcí AI.

Poezie: Nečekaný nepřítel algoritmů

Možná si pamatujete dobu, kdy jsme se snažili umělou inteligenci „hacknout“ složitými logickými hádankami. Dnes se ukazuje, že na to můžeme jít mnohem elegancí. Nedávná zjištění, o kterých informoval server Techzpravy, odhalila fascinující a zároveň trochu děsivou skutečnost: takzvaná „nepřátelská poezie“ (adversarial poetry) dokáže spolehlivě vypnout bezpečnostní filtry velkých jazykových modelů.

Celý trik spočívá v tom, že bezpečnostní mechanismy AI jsou primárně trénovány na běžnou prózu. Pokud se zeptáte napřímo na návod k nelegální činnosti, model vás odmítne. Jakmile ale svůj požadavek přeformulujete do veršů, sonetu nebo limeriku, model se „uvolní“. Najednou se soustředí více na formu a rýmy než na samotný obsah, což vede k tomu, že poslušně vygeneruje odpověď, kterou by v běžné větě nikdy nevypustil z digitálních úst.

Čísla, která bezpečnostním expertům nedají spát

Nejde přitom o žádnou náhodnou chybu v jednom konkrétním systému. Testy ukázaly, že tato slabina je univerzální a týká se celé řady modelů od gigantů jako OpenAI, Google či Anthropic. Pokud báseň napíše člověk, úspěšnost prolomení ochrany dosahuje neuvěřitelných 62%. To je číslo, které v kontextu kybernetické bezpečnosti bije na poplach. I v případech, kdy byla poezie generována jinou AI, se úspěšnost pohybovala kolem 43%.

Ještě znepokojivější je fakt, že tento útok funguje „na první dobrou“ (single-turn jailbreak). Útočník nemusí s chatbotem vést dlouhé konverzace a postupně ho manipulovat. Stačí jeden dobře mířený veršovaný prompt a bariéry padají. U některých specifických modelů se dokonce úspěšnost vyšplhala až nad 90%. To ukazuje, že naše současné metody „zarovnání“ (alignment) AI mají stále trhliny v oblastech, které bychom považovali za kreativní a neškodné.

Co to znamená pro budoucnost AI?

Tato situace nám připomíná, že umělá inteligence, jakkoli pokročilá, stále funguje na principu statistické pravděpodobnosti a vzorců, nikoliv na skutečném chápání morálky. Poezie funguje jako maskování – pro filtr je to jen „neškodná umělecká tvorba“, zatímco pro samotný generativní model je to úkol k doplnění.

Vývojáři nyní stojí před novou výzvou. Nebude stačit jen zakázat určitá slova nebo fráze. Budou muset naučit AI chápat kontext a záměr i v nestandardních formátech textu, jako jsou básně, písně nebo scénáře. Dokud se to nepodaří, zůstává poezie jedním z nejzajímavějších důkazů toho, že lidská kreativita – i ta zneužitá – je stále o krok napřed před strojovou logikou.

Zdroj: Techzpravy

Zůstaňte v obraze s AI novinkami

Přihlaste se k odběru mého newsletteru a získejte nejnovější tipy, triky a novinky ze světa umělé inteligence přímo do vaší schránky. Žádný spam, pouze hodnotný obsah.

Týdenní přehled novinek

Exkluzivní návody

Slevy na workshopy

Name(Required)
Privacy(Required)

Odesláním souhlasíte se zpracováním osobních údajů. Odhlásit se můžete kdykoliv.

Další články

Další zajímavé články, které by vás mohly zajímat

Nový model z Francie ukazuje velký potenciál i pro náročné programátory

Dlouho to vypadalo, že Evropa v závodě o umělou inteligenci pouze lapá po dechu a sleduje záda amerických a čínských běžců. Tomu je ale možná konec. Francouzská společnost přichází s novým řešením, které se nesnaží...

AI šetří programátorům čas, ale na neefektivní workflow firmy tratí miliony

Umělá inteligence se v programování tváří jako spojenec, ale Atlassian odhaluje, že špatná práce s informacemi a slabá spolupráce připravuje firmy o zásadní benefity. Chcete vědět, proč AI není všespásná a na co si dát...

Agentní AI představuje novou hrozbu pro firmy a vyžaduje lidsky orientovaný přístup

Agentní AI dnes není teoretický koncept, ale reálná technologie, která výrazně zvyšuje efektivitu nejen v byznysu, ale i útocích hackerů. Aktéři ji dokážou využít ke škodlivým aktivitám, jako jsou hromadné phishingové kampaně nebo automatizované útoky...