Nový AGI test umělé inteligence zaskočil většinu modelů

Sdílet
Máte pocit, že AI modely už umí všechno? Nový test ARC-AGI-2 dokazuje, že zdaleka ne! Podívejte se, kde AI modely selhaly a proč je tento test klíčový pro vývoj skutečně inteligentních strojů.
novy-test-agi-mistr-ai-1

Nadace Arc Prize oznámila vytvoření nového extra náročného testu pro měření obecné umělé inteligence (tzv. AGI – Artificial General Intelligence). Test se jmenuje ARC-AGI-2 a zatím si s ním většina modelů neví rady.

Modely AI, které se zaměřují na “usuzování”, jako například ChatGPT o1-pro od OpenAI a R1 od DeepSeek, dosahují v ARC-AGI-2 skóre mezi 1 % a 1,3 % úspěšnost v testu. Ostatní modely jako jsou ChatGPT-4.5, Claude 3.7 Sonnet a Gemini 2.0 Flash, dosahují skóre kolem 1 % úspěšnosti. Zatímco lidé dosáhli úspěšnosti 60 %.

Co je to ARC-AGI?

Testy ARC-AGI spočívají v řešení hádanek, kde AI musí identifikovat vizuální vzory z kolekce různobarevných čtverců a vygenerovat správnou “odpověď” v podobě mřížky. Úkoly jsou navrženy tak, aby donutily AI adaptovat se na nové problémy, se kterými se dříve nesetkala.

Pro stanovení lidské základní úrovně se testu ARC-AGI-2 zúčastnilo přes 400 lidí. V průměru skupiny těchto lidí správně zodpověděly 60 % otázek testu, což je mnohem lepší výsledek, než jaký dosáhly modely AI.

arc agi 2 unsolved 2
A sample question from Arc-AGI-2 (credit: Arc Prize).

Chollet, spoluzakladatel neziskové organizace Arc Prize a významný výzkumník v oblasti AI, tvrdí, že ARC-AGI-2 lépe měří skutečnou inteligenci modelu AI než první verze testu. Cílem testů nadace Arc Prize je zjistit, zda je systém AI schopen efektivně získávat nové dovednosti mimo data, na kterých byl trénován.

V čem je ARC-AGI-2 jiný?

Na rozdíl od první verze nový test zabraňuje modelům AI spoléhat se na “hrubou sílu” (rozsáhlý výpočetní výkon) k nalezení řešení. ARC-AGI-2 zavádí novou metriku: efektivitu. Vyžaduje také, aby modely interpretovaly vzory za běhu, namísto spoléhání se na memorování.

Podle spoluzakladatele nadace Arc Prize Grega Kamradta není inteligence definována pouze schopností řešit problémy nebo dosahovat vysokých skóre. Klíčovou složkou je efektivita, s jakou jsou tyto schopnosti získávány a využívány. Hlavní otázka tedy nezní jen “Dokáže AI získat dovednost k vyřešení úkolu?”, ale také “S jakou efektivitou nebo za jakou cenu?“.

Předchozí test ARC-AGI-1

Předchozí test nebyl překonán zhruba pět let, dokud v prosinci 2024 společnost OpenAI nevydala svůj pokročilý model o3, který překonal všechny ostatní modely AI a dosáhl v testu stejných výsledků jako lidé. Nicméně, jak bylo poznamenáno, zlepšení výkonu modelu o3 v testu ARC-AGI-1 bylo dosaženo za vysokou cenu. Verze modelu o3, která jako první dosáhla nových výšin v testu ARC-AGI-1 a dosáhla skóre 75,7 %, získala v testu ARC-AGI-2 pouhá 4 % při použití výpočetního výkonu za 200 dolarů na jeden úkol.

arc agi 2 efficiency
Comparison of Frontier AI model performance on ARC-AGI-1 and ARC-AGI-2 (credit: Arc Prize).

Nová verze testu přichází v době, kdy mnoho lidí v technologickém průmyslu volá po nových, neokoukaných benchmarkech pro měření pokroku v oblasti AI. Spoluzakladatel společnosti Hugging Face, Thomas Wolf, nedávno řekl, že v odvětví AI chybí dostatečné testy pro měření klíčových vlastností takzvané obecně umělé inteligence, včetně kreativity.

Spolu s novým benchmarkem nadace Arc Prize oznámila novou soutěž Arc Prize 2025, která vyzývá vývojáře, aby dosáhli 85% přesnosti v testu ARC-AGI-2 při vynaložení pouhých 0,42 dolaru na jeden úkol.

Zdroj: TechCrunch

Zůstaňte v obraze s AI novinkami

Přihlaste se k odběru mého newsletteru a získejte nejnovější tipy, triky a novinky ze světa umělé inteligence přímo do vaší schránky. Žádný spam, pouze hodnotný obsah.

Týdenní přehled novinek

Exkluzivní návody

Slevy na workshopy

Name(Required)
Privacy(Required)

Odesláním souhlasíte se zpracováním osobních údajů. Odhlásit se můžete kdykoliv.

Další články

Další zajímavé články, které by vás mohly zajímat

Nejúčinnější AI asistenti dokážou zjednodušit pracovní procesy ve firmě

AI agenti přestávají být jen futuristickou vizí a stávají se každodenní realitou firem po celém světě. Místo jednoduchých odpovědí na otázky dokážou nyní samostatně plánovat, rozhodovat a vykonávat komplexní úkoly. Zjistěte, které AI nástroje nejvíce...

Umělá inteligence mění svět poradenství: Pomocník, nebo hrozba?

Umělá inteligence zásadně proměňuje profesní služby – od automatizace rutinních úkolů až po nové modely oceňování práce. Poradenské firmy stojí na křižovatce: AI jim může výrazně pomoci, ale zároveň představuje existenční hrozbu. Jak se s...

S Wix AI zvládnete profesionální web bez programování i grafika

Chcete moderní web, ale nechcete ztrácet čas učením designu nebo kódování? Wix AI vám umožní vytvořit stránky během několika minut – stačí odpovědět na pár otázek a získáte hotový web na míru. Jaké jsou jeho...