Nový AGI test umělé inteligence zaskočil většinu modelů

Máte pocit, že AI modely už umí všechno? Nový test ARC-AGI-2 dokazuje, že zdaleka ne! Podívejte se, kde AI modely selhaly a proč je tento test klíčový pro vývoj skutečně inteligentních strojů.
novy-test-agi-mistr-ai-1

Nadace Arc Prize oznámila vytvoření nového extra náročného testu pro měření obecné umělé inteligence (tzv. AGI – Artificial General Intelligence). Test se jmenuje ARC-AGI-2 a zatím si s ním většina modelů neví rady.

Modely AI, které se zaměřují na “usuzování”, jako například ChatGPT o1-pro od OpenAI a R1 od DeepSeek, dosahují v ARC-AGI-2 skóre mezi 1 % a 1,3 % úspěšnost v testu. Ostatní modely jako jsou ChatGPT-4.5, Claude 3.7 Sonnet a Gemini 2.0 Flash, dosahují skóre kolem 1 % úspěšnosti. Zatímco lidé dosáhli úspěšnosti 60 %.

Co je to ARC-AGI?

Testy ARC-AGI spočívají v řešení hádanek, kde AI musí identifikovat vizuální vzory z kolekce různobarevných čtverců a vygenerovat správnou “odpověď” v podobě mřížky. Úkoly jsou navrženy tak, aby donutily AI adaptovat se na nové problémy, se kterými se dříve nesetkala.

Pro stanovení lidské základní úrovně se testu ARC-AGI-2 zúčastnilo přes 400 lidí. V průměru skupiny těchto lidí správně zodpověděly 60 % otázek testu, což je mnohem lepší výsledek, než jaký dosáhly modely AI.

arc agi 2 unsolved 2
A sample question from Arc-AGI-2 (credit: Arc Prize).

Chollet, spoluzakladatel neziskové organizace Arc Prize a významný výzkumník v oblasti AI, tvrdí, že ARC-AGI-2 lépe měří skutečnou inteligenci modelu AI než první verze testu. Cílem testů nadace Arc Prize je zjistit, zda je systém AI schopen efektivně získávat nové dovednosti mimo data, na kterých byl trénován.

V čem je ARC-AGI-2 jiný?

Na rozdíl od první verze nový test zabraňuje modelům AI spoléhat se na “hrubou sílu” (rozsáhlý výpočetní výkon) k nalezení řešení. ARC-AGI-2 zavádí novou metriku: efektivitu. Vyžaduje také, aby modely interpretovaly vzory za běhu, namísto spoléhání se na memorování.

Podle spoluzakladatele nadace Arc Prize Grega Kamradta není inteligence definována pouze schopností řešit problémy nebo dosahovat vysokých skóre. Klíčovou složkou je efektivita, s jakou jsou tyto schopnosti získávány a využívány. Hlavní otázka tedy nezní jen “Dokáže AI získat dovednost k vyřešení úkolu?”, ale také “S jakou efektivitou nebo za jakou cenu?“.

Předchozí test ARC-AGI-1

Předchozí test nebyl překonán zhruba pět let, dokud v prosinci 2024 společnost OpenAI nevydala svůj pokročilý model o3, který překonal všechny ostatní modely AI a dosáhl v testu stejných výsledků jako lidé. Nicméně, jak bylo poznamenáno, zlepšení výkonu modelu o3 v testu ARC-AGI-1 bylo dosaženo za vysokou cenu. Verze modelu o3, která jako první dosáhla nových výšin v testu ARC-AGI-1 a dosáhla skóre 75,7 %, získala v testu ARC-AGI-2 pouhá 4 % při použití výpočetního výkonu za 200 dolarů na jeden úkol.

arc agi 2 efficiency
Comparison of Frontier AI model performance on ARC-AGI-1 and ARC-AGI-2 (credit: Arc Prize).

Nová verze testu přichází v době, kdy mnoho lidí v technologickém průmyslu volá po nových, neokoukaných benchmarkech pro měření pokroku v oblasti AI. Spoluzakladatel společnosti Hugging Face, Thomas Wolf, nedávno řekl, že v odvětví AI chybí dostatečné testy pro měření klíčových vlastností takzvané obecně umělé inteligence, včetně kreativity.

Spolu s novým benchmarkem nadace Arc Prize oznámila novou soutěž Arc Prize 2025, která vyzývá vývojáře, aby dosáhli 85% přesnosti v testu ARC-AGI-2 při vynaložení pouhých 0,42 dolaru na jeden úkol.

Zdroj: TechCrunch

Chceš dostávat další tipy o AI?

Přihlas se k odběru a zhruba 2x měsíčně ti pošlu to nejlepší ze světa AI.

Name(Required)
Privacy(Required)

Další články

Jižní Korea investuje miliardy do domácí umělé inteligence

Jižní Korea vyčlenila téměř 400 milionů dolarů na vývoj vlastních velkých jazykových modelů. Pět vybraných firem dostalo za úkol vytvořit AI, která bude konkurovat OpenAI nebo Googlu. Vláda přitom neplánuje financovat všechny stejně dlouho. Každých šest měsíců se budou výsledky vyhodnocovat a ti nejúspěšnější pokračují dál. Nakonec zbydou jen dva vítězové. Co stojí za touto strategií a jak na to jdou místní hráči?

Celý článek >

Umělá inteligence nedokáže nahradit weby, ale výrazně usnadňuje jejich tvorbu

Každých pár let se objeví nová technologie, která má „zabít” webové stránky. Nejdřív to byly mobilní aplikace, pak Facebook, chatboti, hlasové asistentky. Teď je řada na umělé inteligenci. ChatGPT a podobné nástroje skutečně dokážou odpovědět na otázky rychleji než procházení několika webů, ale znamená to konec webových stránek? Historie nás učí něco jiného.

Celý článek >

Nejúčinnější AI asistenti dokážou zjednodušit pracovní procesy ve firmě

AI agenti přestávají být jen futuristickou vizí a stávají se každodenní realitou firem po celém světě. Místo jednoduchých odpovědí na otázky dokážou nyní samostatně plánovat, rozhodovat a vykonávat komplexní úkoly. Zjistěte, které AI nástroje nejvíce pomáhají profesionálům automatizovat rutinní práci a soustředit se na skutečně důležité rozhodování.

Celý článek >