Nový AGI test umělé inteligence zaskočil většinu modelů

Sdílet
Máte pocit, že AI modely už umí všechno? Nový test ARC-AGI-2 dokazuje, že zdaleka ne! Podívejte se, kde AI modely selhaly a proč je tento test klíčový pro vývoj skutečně inteligentních strojů.
novy-test-agi-mistr-ai-1

Nadace Arc Prize oznámila vytvoření nového extra náročného testu pro měření obecné umělé inteligence (tzv. AGI – Artificial General Intelligence). Test se jmenuje ARC-AGI-2 a zatím si s ním většina modelů neví rady.

Modely AI, které se zaměřují na “usuzování”, jako například ChatGPT o1-pro od OpenAI a R1 od DeepSeek, dosahují v ARC-AGI-2 skóre mezi 1 % a 1,3 % úspěšnost v testu. Ostatní modely jako jsou ChatGPT-4.5, Claude 3.7 Sonnet a Gemini 2.0 Flash, dosahují skóre kolem 1 % úspěšnosti. Zatímco lidé dosáhli úspěšnosti 60 %.

Co je to ARC-AGI?

Testy ARC-AGI spočívají v řešení hádanek, kde AI musí identifikovat vizuální vzory z kolekce různobarevných čtverců a vygenerovat správnou “odpověď” v podobě mřížky. Úkoly jsou navrženy tak, aby donutily AI adaptovat se na nové problémy, se kterými se dříve nesetkala.

Pro stanovení lidské základní úrovně se testu ARC-AGI-2 zúčastnilo přes 400 lidí. V průměru skupiny těchto lidí správně zodpověděly 60 % otázek testu, což je mnohem lepší výsledek, než jaký dosáhly modely AI.

arc agi 2 unsolved 2
A sample question from Arc-AGI-2 (credit: Arc Prize).

Chollet, spoluzakladatel neziskové organizace Arc Prize a významný výzkumník v oblasti AI, tvrdí, že ARC-AGI-2 lépe měří skutečnou inteligenci modelu AI než první verze testu. Cílem testů nadace Arc Prize je zjistit, zda je systém AI schopen efektivně získávat nové dovednosti mimo data, na kterých byl trénován.

V čem je ARC-AGI-2 jiný?

Na rozdíl od první verze nový test zabraňuje modelům AI spoléhat se na “hrubou sílu” (rozsáhlý výpočetní výkon) k nalezení řešení. ARC-AGI-2 zavádí novou metriku: efektivitu. Vyžaduje také, aby modely interpretovaly vzory za běhu, namísto spoléhání se na memorování.

Podle spoluzakladatele nadace Arc Prize Grega Kamradta není inteligence definována pouze schopností řešit problémy nebo dosahovat vysokých skóre. Klíčovou složkou je efektivita, s jakou jsou tyto schopnosti získávány a využívány. Hlavní otázka tedy nezní jen “Dokáže AI získat dovednost k vyřešení úkolu?”, ale také “S jakou efektivitou nebo za jakou cenu?“.

Předchozí test ARC-AGI-1

Předchozí test nebyl překonán zhruba pět let, dokud v prosinci 2024 společnost OpenAI nevydala svůj pokročilý model o3, který překonal všechny ostatní modely AI a dosáhl v testu stejných výsledků jako lidé. Nicméně, jak bylo poznamenáno, zlepšení výkonu modelu o3 v testu ARC-AGI-1 bylo dosaženo za vysokou cenu. Verze modelu o3, která jako první dosáhla nových výšin v testu ARC-AGI-1 a dosáhla skóre 75,7 %, získala v testu ARC-AGI-2 pouhá 4 % při použití výpočetního výkonu za 200 dolarů na jeden úkol.

arc agi 2 efficiency
Comparison of Frontier AI model performance on ARC-AGI-1 and ARC-AGI-2 (credit: Arc Prize).

Nová verze testu přichází v době, kdy mnoho lidí v technologickém průmyslu volá po nových, neokoukaných benchmarkech pro měření pokroku v oblasti AI. Spoluzakladatel společnosti Hugging Face, Thomas Wolf, nedávno řekl, že v odvětví AI chybí dostatečné testy pro měření klíčových vlastností takzvané obecně umělé inteligence, včetně kreativity.

Spolu s novým benchmarkem nadace Arc Prize oznámila novou soutěž Arc Prize 2025, která vyzývá vývojáře, aby dosáhli 85% přesnosti v testu ARC-AGI-2 při vynaložení pouhých 0,42 dolaru na jeden úkol.

Zdroj: TechCrunch

Zůstaňte v obraze s AI novinkami

Přihlaste se k odběru mého newsletteru a získejte nejnovější tipy, triky a novinky ze světa umělé inteligence přímo do vaší schránky. Žádný spam, pouze hodnotný obsah.

Týdenní přehled novinek

Exkluzivní návody

Slevy na workshopy

Name(Required)
Privacy(Required)

Odesláním souhlasíte se zpracováním osobních údajů. Odhlásit se můžete kdykoliv.

Další články

Další zajímavé články, které by vás mohly zajímat

Cloud a umělá inteligence proměňují svět IT i požadavky na dovednosti

IT svět prochází revolucí: technologie a byznys se propojují víc než kdy dřív, role IT specialistů se mění a s nimi i požadavky na jejich dovednosti. Co čeká firmy a jejich týmy v období cloudu...

Když je AI zdrojem únavy namísto inovace

Všichni mluví o revoluci skrze AI, ale v mnoha firmách přináší nové technologie spíš vyčerpání než nadšení. Co způsobuje, že se z transformace stává břemeno, jaké konkrétní chyby dominují a jak je možné tuto únavu...

ChatGPT a Perplexity jako nový nákupní asistent: Revoluce, nebo zatím jen sliby?

Představte si, že místo nekonečného scrollování e-shopy a srovnávání parametrů jen řeknete: „Najdi mi nejlepší kávovar do 5 tisíc“ a o zbytek se postará asistent. Přesně tam nás směrují novinky od OpenAI a Perplexity. Obě...