Novinky

Nový AGI test umělé inteligence zaskočil většinu modelů

25 března, 2025
4 minuty čtení

Sdílet

Máte pocit, že AI modely už umí všechno? Nový test ARC-AGI-2 dokazuje, že zdaleka ne! Podívejte se, kde AI modely selhaly a proč je tento test klíčový pro vývoj skutečně inteligentních strojů.

Nadace Arc Prize oznámila vytvoření nového extra náročného testu pro měření obecné umělé inteligence (tzv. AGI – Artificial General Intelligence). Test se jmenuje ARC-AGI-2 a zatím si s ním většina modelů neví rady.

Modely AI, které se zaměřují na “usuzování”, jako například ChatGPT o1-pro od OpenAI a R1 od DeepSeek, dosahují v ARC-AGI-2 skóre mezi 1 % a 1,3 % úspěšnost v testu. Ostatní modely jako jsou ChatGPT-4.5, Claude 3.7 Sonnet a Gemini 2.0 Flash, dosahují skóre kolem 1 % úspěšnosti. Zatímco lidé dosáhli úspěšnosti 60 %.

Co je to ARC-AGI?

Testy ARC-AGI spočívají v řešení hádanek, kde AI musí identifikovat vizuální vzory z kolekce různobarevných čtverců a vygenerovat správnou “odpověď” v podobě mřížky. Úkoly jsou navrženy tak, aby donutily AI adaptovat se na nové problémy, se kterými se dříve nesetkala.

Pro stanovení lidské základní úrovně se testu ARC-AGI-2 zúčastnilo přes 400 lidí. V průměru skupiny těchto lidí správně zodpověděly 60 % otázek testu, což je mnohem lepší výsledek, než jaký dosáhly modely AI.

arc agi 2 unsolved 2 — A sample question from Arc-AGI-2 (credit: Arc Prize).

Chollet, spoluzakladatel neziskové organizace Arc Prize a významný výzkumník v oblasti AI, tvrdí, že ARC-AGI-2 lépe měří skutečnou inteligenci modelu AI než první verze testu. Cílem testů nadace Arc Prize je zjistit, zda je systém AI schopen efektivně získávat nové dovednosti mimo data, na kterých byl trénován.

V čem je ARC-AGI-2 jiný?

Na rozdíl od první verze nový test zabraňuje modelům AI spoléhat se na “hrubou sílu” (rozsáhlý výpočetní výkon) k nalezení řešení. ARC-AGI-2 zavádí novou metriku: efektivitu. Vyžaduje také, aby modely interpretovaly vzory za běhu, namísto spoléhání se na memorování.

Podle spoluzakladatele nadace Arc Prize Grega Kamradta není inteligence definována pouze schopností řešit problémy nebo dosahovat vysokých skóre. Klíčovou složkou je efektivita, s jakou jsou tyto schopnosti získávány a využívány. Hlavní otázka tedy nezní jen “Dokáže AI získat dovednost k vyřešení úkolu?”, ale také “S jakou efektivitou nebo za jakou cenu?“.

Předchozí test ARC-AGI-1

Předchozí test nebyl překonán zhruba pět let, dokud v prosinci 2024 společnost OpenAI nevydala svůj pokročilý model o3, který překonal všechny ostatní modely AI a dosáhl v testu stejných výsledků jako lidé. Nicméně, jak bylo poznamenáno, zlepšení výkonu modelu o3 v testu ARC-AGI-1 bylo dosaženo za vysokou cenu. Verze modelu o3, která jako první dosáhla nových výšin v testu ARC-AGI-1 a dosáhla skóre 75,7 %, získala v testu ARC-AGI-2 pouhá 4 % při použití výpočetního výkonu za 200 dolarů na jeden úkol.

arc agi 2 efficiency — Comparison of Frontier AI model performance on ARC-AGI-1 and ARC-AGI-2 (credit: Arc Prize).

Nová verze testu přichází v době, kdy mnoho lidí v technologickém průmyslu volá po nových, neokoukaných benchmarkech pro měření pokroku v oblasti AI. Spoluzakladatel společnosti Hugging Face, Thomas Wolf, nedávno řekl, že v odvětví AI chybí dostatečné testy pro měření klíčových vlastností takzvané obecně umělé inteligence, včetně kreativity.

Spolu s novým benchmarkem nadace Arc Prize oznámila novou soutěž Arc Prize 2025, která vyzývá vývojáře, aby dosáhli 85% přesnosti v testu ARC-AGI-2 při vynaložení pouhých 0,42 dolaru na jeden úkol.

Zdroj: TechCrunch

AGI, AIresearch, AItest, chatgpt, Claude, DeepSeek, Gemini, mistrAI, OpenAI, umělá inteligence

Zůstaňte v obraze s AI novinkami

Přihlaste se k odběru mého newsletteru a získejte nejnovější tipy, triky a novinky ze světa umělé inteligence přímo do vaší schránky. Žádný spam, pouze hodnotný obsah.

Týdenní přehled novinek

Exkluzivní návody

Slevy na workshopy

Name(Required)

Jméno Příjmení

E-mail(Required)

Privacy(Required)

Souhlasím se zpracování dat za účelem newsletteru. - Ochrana osobních údajů*

Odesláním souhlasíte se zpracováním osobních údajů. Odhlásit se můžete kdykoliv.

Další články

Další zajímavé články, které by vás mohly zajímat

AI news, Novinky

Nový Slackbot umí vytvářet plány, připravovat vás na schůzky a hlídat priority

Slack představil na konferenci Dreamforce 2025 kompletně přestavěného Slackbota. Není to jen kosmetická úprava, ale opravdová proměna v personalizovaného AI asistenta, který rozumí kontextu vaší práce. Nový Slackbot dokáže připravit projektový plán z poznámek, najít...

1 prosince, 2025
5 minut čtení

AI news, Zajímavosti

Hybridní práce už není jen o místě, ale o spolupráci lidí a umělé inteligence

Hybridní práce už dávno není jen kompromisem mezi kanceláří a domovem. Skutečná revoluce přichází s propojením lidských dovedností a umělé inteligence, která posouvá možnosti týmů i firem na novou úroveň. Jak vypadá budoucnost práce, kde...

31 května, 2025
3 minuty čtení

AI news, Zábava

Netflix a AI ve VFX: Průlomová zkušenost ze zákulisí tvorby Eternauta

Umělá inteligence se už dávno neomezuje jen na technické obory a teď mění způsob, jak se tvoří oblíbené seriály. Netflix otevřeně přiznal, že při produkci svého sci-fi hitu vsadil na AI – a výsledky jsou...

9 srpna, 2025
3 minuty čtení