Poezie: Nečekaný nepřítel algoritmů
Možná si pamatujete dobu, kdy jsme se snažili umělou inteligenci „hacknout“ složitými logickými hádankami. Dnes se ukazuje, že na to můžeme jít mnohem elegancí. Nedávná zjištění, o kterých informoval server Techzpravy, odhalila fascinující a zároveň trochu děsivou skutečnost: takzvaná „nepřátelská poezie“ (adversarial poetry) dokáže spolehlivě vypnout bezpečnostní filtry velkých jazykových modelů.
Celý trik spočívá v tom, že bezpečnostní mechanismy AI jsou primárně trénovány na běžnou prózu. Pokud se zeptáte napřímo na návod k nelegální činnosti, model vás odmítne. Jakmile ale svůj požadavek přeformulujete do veršů, sonetu nebo limeriku, model se „uvolní“. Najednou se soustředí více na formu a rýmy než na samotný obsah, což vede k tomu, že poslušně vygeneruje odpověď, kterou by v běžné větě nikdy nevypustil z digitálních úst.
Čísla, která bezpečnostním expertům nedají spát
Nejde přitom o žádnou náhodnou chybu v jednom konkrétním systému. Testy ukázaly, že tato slabina je univerzální a týká se celé řady modelů od gigantů jako OpenAI, Google či Anthropic. Pokud báseň napíše člověk, úspěšnost prolomení ochrany dosahuje neuvěřitelných 62%. To je číslo, které v kontextu kybernetické bezpečnosti bije na poplach. I v případech, kdy byla poezie generována jinou AI, se úspěšnost pohybovala kolem 43%.
Ještě znepokojivější je fakt, že tento útok funguje „na první dobrou“ (single-turn jailbreak). Útočník nemusí s chatbotem vést dlouhé konverzace a postupně ho manipulovat. Stačí jeden dobře mířený veršovaný prompt a bariéry padají. U některých specifických modelů se dokonce úspěšnost vyšplhala až nad 90%. To ukazuje, že naše současné metody „zarovnání“ (alignment) AI mají stále trhliny v oblastech, které bychom považovali za kreativní a neškodné.
Co to znamená pro budoucnost AI?
Tato situace nám připomíná, že umělá inteligence, jakkoli pokročilá, stále funguje na principu statistické pravděpodobnosti a vzorců, nikoliv na skutečném chápání morálky. Poezie funguje jako maskování – pro filtr je to jen „neškodná umělecká tvorba“, zatímco pro samotný generativní model je to úkol k doplnění.
Vývojáři nyní stojí před novou výzvou. Nebude stačit jen zakázat určitá slova nebo fráze. Budou muset naučit AI chápat kontext a záměr i v nestandardních formátech textu, jako jsou básně, písně nebo scénáře. Dokud se to nepodaří, zůstává poezie jedním z nejzajímavějších důkazů toho, že lidská kreativita – i ta zneužitá – je stále o krok napřed před strojovou logikou.
Zdroj: Techzpravy