Nadace Arc Prize oznámila vytvoření nového extra náročného testu pro měření obecné umělé inteligence (tzv. AGI – Artificial General Intelligence). Test se jmenuje ARC-AGI-2 a zatím si s ním většina modelů neví rady.
Modely AI, které se zaměřují na “usuzování”, jako například ChatGPT o1-pro od OpenAI a R1 od DeepSeek, dosahují v ARC-AGI-2 skóre mezi 1 % a 1,3 % úspěšnost v testu. Ostatní modely jako jsou ChatGPT-4.5, Claude 3.7 Sonnet a Gemini 2.0 Flash, dosahují skóre kolem 1 % úspěšnosti. Zatímco lidé dosáhli úspěšnosti 60 %.
Co je to ARC-AGI?
Testy ARC-AGI spočívají v řešení hádanek, kde AI musí identifikovat vizuální vzory z kolekce různobarevných čtverců a vygenerovat správnou “odpověď” v podobě mřížky. Úkoly jsou navrženy tak, aby donutily AI adaptovat se na nové problémy, se kterými se dříve nesetkala.
Pro stanovení lidské základní úrovně se testu ARC-AGI-2 zúčastnilo přes 400 lidí. V průměru skupiny těchto lidí správně zodpověděly 60 % otázek testu, což je mnohem lepší výsledek, než jaký dosáhly modely AI.

Chollet, spoluzakladatel neziskové organizace Arc Prize a významný výzkumník v oblasti AI, tvrdí, že ARC-AGI-2 lépe měří skutečnou inteligenci modelu AI než první verze testu. Cílem testů nadace Arc Prize je zjistit, zda je systém AI schopen efektivně získávat nové dovednosti mimo data, na kterých byl trénován.
V čem je ARC-AGI-2 jiný?
Na rozdíl od první verze nový test zabraňuje modelům AI spoléhat se na “hrubou sílu” (rozsáhlý výpočetní výkon) k nalezení řešení. ARC-AGI-2 zavádí novou metriku: efektivitu. Vyžaduje také, aby modely interpretovaly vzory za běhu, namísto spoléhání se na memorování.
Podle spoluzakladatele nadace Arc Prize Grega Kamradta není inteligence definována pouze schopností řešit problémy nebo dosahovat vysokých skóre. Klíčovou složkou je efektivita, s jakou jsou tyto schopnosti získávány a využívány. Hlavní otázka tedy nezní jen “Dokáže AI získat dovednost k vyřešení úkolu?”, ale také “S jakou efektivitou nebo za jakou cenu?“.
Předchozí test ARC-AGI-1
Předchozí test nebyl překonán zhruba pět let, dokud v prosinci 2024 společnost OpenAI nevydala svůj pokročilý model o3, který překonal všechny ostatní modely AI a dosáhl v testu stejných výsledků jako lidé. Nicméně, jak bylo poznamenáno, zlepšení výkonu modelu o3 v testu ARC-AGI-1 bylo dosaženo za vysokou cenu. Verze modelu o3, která jako první dosáhla nových výšin v testu ARC-AGI-1 a dosáhla skóre 75,7 %, získala v testu ARC-AGI-2 pouhá 4 % při použití výpočetního výkonu za 200 dolarů na jeden úkol.

Nová verze testu přichází v době, kdy mnoho lidí v technologickém průmyslu volá po nových, neokoukaných benchmarkech pro měření pokroku v oblasti AI. Spoluzakladatel společnosti Hugging Face, Thomas Wolf, nedávno řekl, že v odvětví AI chybí dostatečné testy pro měření klíčových vlastností takzvané obecně umělé inteligence, včetně kreativity.
Spolu s novým benchmarkem nadace Arc Prize oznámila novou soutěž Arc Prize 2025, která vyzývá vývojáře, aby dosáhli 85% přesnosti v testu ARC-AGI-2 při vynaložení pouhých 0,42 dolaru na jeden úkol.
Zdroj: TechCrunch