Proč umělá inteligence stále nechápe slovo „ne“ ve vizuálně-jazykových úlohách?

Umělé inteligence, které propojují obraz a jazyk, dnes zvládnou rozpoznávat objekty i generovat popisy. Ale stačí jediné slovo – „ne“ – a jejich výkon se propadá k náhodě. Proč mají VLM modely s negací takový problém, jak to ovlivňuje praxi a co s tím lze dělat? Odpovědi přináší nový benchmark NegBench.
Proč umělá inteligence stále nechápe slovo „ne“ ve vizuálně-jazykových úlohách

Proč vizuálně-jazykové modely nerozumí negaci

Negace jako zásadní slabina současné AI

Vizuálně-jazykové modely (VLM), jako je například slavný CLIP, dnes pohánějí vyhledávání obrázků podle textu, generování popisů i analýzu medicínských snímků. Přesto mají zásadní slabinu: neumí správně pracovat s negací. Pokud uživatel zadá dotaz typu „pláž bez lidí“ nebo „rentgen bez známek zápalu plic“, model často ignoruje zápor a vrací výsledky, jako by byl dotaz kladný. Tato neschopnost rozpoznat význam slova „ne“ nebo „bez“ může mít v praxi vážné důsledky – od špatného vyhledávání až po mylnou medicínskou diagnózu.

Affirmation bias: Proč modely negaci ignorují

Zásadní příčina tkví v tom, jak jsou tyto modely trénovány. Většina trénovacích dat obsahuje pouze popisy toho, co na obrázku je, nikoliv co na něm není. Nikdo nepopisuje psa přes plot slovy „pes skáče přes plot, bez vrtulníku v pozadí“. Modely se tak naučí zaměřovat pouze na přítomné objekty a negaci jednoduše ignorují – tento jev se označuje jako affirmation bias. Slova jako „ne“, „není“ nebo „bez“ modely přiřadí stejnou váhu jako ostatní, nebo je zcela přehlédnou.

Jak vypadá selhání v praxi?

Výzkumníci z MIT, Google DeepMind a Oxfordu připravili dvě typové úlohy: vyhledávání obrázků podle dotazu s negací (např. „pes bez míče“) a výběr správného popisu z několika možností, kde se liší jen negací (např. „obrázek obsahuje kočku, ale ne psa“ vs. „obrázek obsahuje psa, ale ne kočku“). Výsledek? Modely často vybíraly špatně, jejich úspěšnost v multiple-choice otázkách byla jen kolem 39 %, některé dokonce pod úrovní náhody. Při vyhledávání obrázků s negací klesla úspěšnost až o 25 % oproti běžným dotazům.

NegBench: Nový benchmark pro testování negace

Co je NegBench a jak funguje

Aby bylo možné slabinu modelů přesně změřit, vznikl NegBench – rozsáhlý benchmark, který obsahuje 18 typů úloh a přes 79 000 příkladů napříč běžnými obrázky, videi i medicínskými daty. NegBench testuje dvě hlavní schopnosti:

  • Retrieval-Neg: Umí model najít obrázky, které odpovídají dotazu s negací (např. „auto bez kola“)?
  • MCQ-Neg: Pozná model správný popis obrázku, když se možnosti liší jen negací nebo vyloučením objektu?

Benchmark využívá jak reálná data (COCO, VOC2007, MSR-VTT, CheXpert), tak syntetická data, kde jsou obrázky generovány v párech, které se liší pouze přítomností nebo absencí jednoho objektu. Negativní popisy a otázky jsou navíc parafrázovány velkými jazykovými modely, aby testovaly i jazykovou rozmanitost.

Výsledky: Modely selhávají napříč doménami

Testování na NegBench potvrdilo, že affirmation bias je hluboce zakořeněný napříč všemi hlavními VLM modely – a to i v nejnovějších a největších architekturách. Zvětšování modelu ani pokročilejší tréninkové cíle nepřináší zlepšení. Platí to i pro specializované medicínské modely, kde špatné pochopení negace může vést k fatálním chybám (například zaměnění „není přítomna patologie“ za „je přítomna patologie“).

Jak zlepšit porozumění negaci? Data-centric přístup

Proč nestačí lepší architektura – klíčová je rozmanitost dat

Analýza ukázala, že hlavní problém není v architektuře modelů, ale v trénovacích datech. Pokud model nikdy neviděl příklady, kde je negace explicitně zmíněná, nemá šanci se ji naučit rozpoznávat. Proto autoři vytvořili rozsáhlé syntetické datasety (CC12M-NegCap a CC12M-NegMCQ), kde jsou miliony popisů a otázek s negací, včetně parafrází a různých jazykových konstrukcí.

Výsledky po „naučení negace“: výrazné zlepšení

Modely, které byly na těchto datech doučeny, dosáhly výrazného zlepšení: recall při vyhledávání obrázků s negací vzrostl o 10 %, přesnost v multiple-choice otázkách s negací až o 28–40 %. Tyto výsledky platily napříč různými doménami i typy dat. Zároveň se ukázalo, že kombinace kontrastivního učení (pro párování obrázek-popis) a multiple-choice tréninku (pro jemné rozlišení negace) je klíčem k úspěchu.

Praktické důsledky a doporučení

Proč je porozumění negaci zásadní pro praxi

Neschopnost správně interpretovat negaci není jen akademický problém. V medicíně, průmyslu i běžném vyhledávání může vést k zásadním omylům – například pokud AI ignoruje, že má najít snímky „bez“ určitého objektu nebo příznaku. Proto je nezbytné, aby tréninkové datasety obsahovaly i složitější jazykové konstrukce a explicitní negace, a aby se v praxi testovala i tato schopnost modelů.

Co z toho plyne pro firmy a vývojáře

Pokud nasazujete VLM modely v praxi, je potřeba:

  • Ověřovat, jak modely zvládají negaci v reálných dotazech.
  • Zvažovat doplnění trénovacích dat o příklady s negací a různými jazykovými variantami.
  • Využívat benchmarky typu NegBench pro testování a porovnání modelů nejen na běžných úlohách, ale i na těch, kde je negace klíčová.

Zdroje: arXiv | TechXplore | MultiLingual | MarkTechPost | LinkedIn

Chceš dostávat další tipy o AI?

Přihlas se k odběru a zhruba 2x měsíčně ti pošlu to nejlepší ze světa AI.

Name(Required)
Privacy(Required)

Další články