Gemma 4 od Googlu běží i na telefonu a poráží modely dvacetkrát větší

Sdílet
Google DeepMind představil Gemmu 4, svou dosud nejschopnější rodinu otevřených AI modelů. Čtyři varianty pokrývají vše od chytrých telefonů po výkonné servery, pracují s textem, obrazem, videem i zvukem a jsou dostupné pod plně otevřenou licencí Apache 2.0. Největší model se v benchmarcích řadí mezi tři nejlepší otevřené modely na světě.
Gemma 4 od Googlu běží i na telefonu a poráží modely dvacetkrát větší

Co je Gemma 4 a proč o ní slyšíme právě teď

Google DeepMind 2. dubna 2026 zveřejnil novou generaci svých otevřených jazykových modelů pod názvem Gemma 4. Jde o rodinu čtyř modelů různých velikostí, které vychází z výzkumu stojícího za komerčním modelem Gemini 3. Na rozdíl od něj si ale Gemmu 4 může kdokoliv stáhnout, upravit a nasadit ve vlastní infrastruktuře, a to i pro komerční účely. Google totiž tentokrát zvolil licenci Apache 2.0, která patří mezi nejsvobodnější v celém open-source světě.

Předchozí verze Gemmy používaly vlastní licenci s řadou omezení, včetně pravidel pro použití obsahu a možnosti odříznout uživatele od přístupu. Přechod na Apache 2.0 tohle všechno odstraňuje. Firmy mohou modely nasadit bez obav z neočekávaných změn podmínek, bez limitu na počet aktivních uživatelů a s plnou svobodou při komerčním využití. Pro podnikové nasazení je to zásadní posun. Gemma 4 tak přímo konkuruje modelům jako Meta Llama 4, čínským alternativám od Alibaby nebo Moonshot AI, ale i komerčním uzavřeným modelům, které si za každý zpracovaný token účtují poplatky.

Čtyři modely pro čtyři různé situace

Gemma 4 není jeden univerzální model, ale čtveřice variant navržených pro odlišné scénáře nasazení. Pochopení rozdílů mezi nimi je klíčové pro správnou volbu.

Nejmenší verze E2B (Effective 2B) má efektivně 2,3 miliardy parametrů a je určena pro smartphony, jednodeskové počítače typu Raspberry Pi nebo starší notebooky. Stačí jí méně než 1,5 GB operační paměti a zvládne fungovat kompletně offline. Na Raspberry Pi 5 dokáže zpracovat 4 000 vstupních tokenů ve dvou různých úlohách za méně než 3 sekundy. Varianta E4B (Effective 4B) s 4,5 miliardy parametrů cílí na běžné desktopy a notebooky se 6 až 8 GB paměti. V benchmarcích přitom překonává předchozí generaci Gemma 3 27B, která byla šestkrát větší, například v kódování (HumanEval) skočila z 29 % na 80 %.

Zajímavou volbou je model 26B A4B, který využívá architekturu Mixture of Experts (MoE). Obsahuje celkem 26 miliard parametrů rozložených do 128 expertních modulů, ale při generování každého tokenu aktivuje pouze 3,8 miliardy z nich. V praxi to znamená, že nabízí kvalitu srovnatelnou s mnohem většími modely, ale běží téměř tak rychle jako model o velikosti 4 miliard parametrů. Na žebříčku Arena AI se umístil na šestém místě mezi otevřenými modely, s pouhou zlomkovou výpočetní náročností.

Poslední variantou je plný 31B Dense model, který zapojuje všech 30,7 miliardy parametrů při každém kroku. Je nejpomalejší a nejnáročnější na hardware, ale nabízí nejvyšší kvalitu v celé rodině. Na žebříčku Arena AI obsadil třetí místo mezi všemi otevřenými modely na světě s odhadovaným skóre 1 452 bodů. Nekomprimovaný se vejde na jediný 80GB GPU NVIDIA H100, v kvantizované podobě běží i na spotřebitelských grafických kartách.

Multimodalita a dlouhý kontext jako standard

Všechny čtyři modely zvládají pracovat s textem a obrázky. Menší varianty E2B a E4B jdou ještě dál a podporují i zvukový vstup, což umožňuje rozpoznávání řeči a překlad přímo v zařízení bez připojení k internetu. Větší modely (26B a 31B) zase dokáží zpracovat video, až 60 sekund záznamu při jednom snímku za sekundu.

Kontextové okno, tedy množství textu, které model dokáže zpracovat najednou, je u menších variant 128 000 tokenů. U větších modelů se rozšiřuje na 256 000 tokenů. To v praxi znamená, že do jednoho dotazu lze vložit celý zdrojový kód rozsáhlé aplikace, kompletní právní dokument nebo obsáhlou výzkumnou studii. Technicky to umožňuje kombinace lokální a globální pozornosti (attention) v architektuře modelu, lokální vrstvy udržují výpočetní náročnost na přijatelné úrovni, zatímco globální vrstvy zajišťují porozumění vzdáleným souvislostem v textu.

Gemma 4 také podporuje více než 140 jazyků, což z ní dělá zajímavou volbu pro aplikace cílené na globální trh. Čeština ani slovenština sice nejsou v oficiálním seznamu primárně podporovaných jazyků, ale zkušenosti z předchozích generací naznačují, že středoevropské jazyky modely zvládají na solidní úrovni.

AI agenti přímo v zařízení

Asi nejzásadnější posun oproti předchozím generacím spočívá v tom, že Gemma 4 byla od začátku navržena pro agentní scénáře. To znamená, že model umí nejen odpovídat na dotazy, ale dokáže plánovat více kroků dopředu, volat externí funkce (function calling), generovat strukturované výstupy ve formátu JSON a autonomně rozhodovat o dalším postupu.

Prakticky to vypadá tak, že vývojář definuje sadu nástrojů jako JSON schémata, a model sám generuje strukturované příkazy k jejich použití. Tato schopnost funguje napříč všemi modalitami, modelu lze ukázat fotografii a požádat ho, aby na základě rozpoznané lokace zavolal API pro počasí. Na rozdíl od starších modelů, kde bylo nutné tool calling řešit složitými prompt hacky, má Gemma 4 tuto schopnost zabudovanou přímo v základním modelu.

Pro vývojáře na Androidu je navíc důležité, že Gemma 4 slouží jako základ pro připravovaný Gemini Nano 4, který poběží přímo v zařízeních. Kód napsaný dnes pro Gemmu 4 bude automaticky kompatibilní s Gemini Nano 4 na nových vlajkových telefonech, které přijdou na trh v průběhu roku. Vývoj je už dnes možný prostřednictvím AICore Developer Preview.

Kde Gemmu 4 získat a jak začít

Modely jsou dostupné okamžitě přes řadu platforem. Google AI Studio nabízí přístup k větším variantám 31B a 26B MoE, zatímco AI Edge Gallery umožňuje vyzkoušet menší modely E4B a E2B přímo na mobilních zařízeních. Váhy modelů jsou ke stažení z Hugging Face, Kaggle i Ollama.

Na straně nástrojů má Gemma 4 podporu od prvního dne v prakticky celém ekosystému: Hugging Face Transformers, vLLM, llama.cpp, MLX pro Apple Silicon, LM Studio, Ollama a desítkách dalších frameworků. Kdo chce model přizpůsobit vlastním potřebám, může ho dotrénovat na Google Colab, Vertex AI nebo i na vlastní herní grafické kartě.

Od vydání si předchozí generace Gemmy stáhlo přes 400 milionů uživatelů a vzniklo více než 100 000 komunitních variant. Google tím buduje ekosystém, který konkuruje nejen na úrovni samotného modelu, ale i na úrovni komunity a nástrojů kolem něj.

Co to znamená v praxi

Gemma 4 není jen další iterace. Je to pokus Googlu o zásadní přerozdělení karet ve světě otevřených AI modelů. Kombinace vysokého výkonu, široké multimodality, agentních schopností a plně otevřené licence vytváří nabídku, která osloví jak jednotlivé vývojáře experimentující na vlastním hardwaru, tak firmy hledající řešení, které jim dá plnou kontrolu nad daty a infrastrukturou.

Pro firmy v českém a slovenském prostředí je zvlášť zajímavá možnost provozovat AI kompletně lokálně. Data nikdy neopustí firemní infrastrukturu, není nutné platit za cloudové API a model lze přizpůsobit konkrétnímu oboru nebo úloze. V kombinaci s tím, že menší varianty běží na běžně dostupném hardwaru, se otevřené modely stávají reálnou alternativou i pro menší organizace, které dosud vnímaly pokročilou AI jako doménu velkých korporací.

Zdroj: Google Blog, The Register, Hugging Face, Android Developers Blog

Zůstaňte v obraze s AI novinkami

Přihlaste se k odběru mého newsletteru a získejte nejnovější tipy, triky a novinky ze světa umělé inteligence přímo do vaší schránky. Žádný spam, pouze hodnotný obsah.

Týdenní přehled novinek

Exkluzivní návody

Slevy na workshopy

Name(Required)
Privacy(Required)

Odesláním souhlasíte se zpracováním osobních údajů. Odhlásit se můžete kdykoliv.

Další články

Další zajímavé články, které by vás mohly zajímat

Chuck Norris vs. umělá inteligence: Druhá várka vtipů, co by přežily i jeho narozeninový kop z otočky!

Chuck Norris dnes slaví narozeniny. A opět tak pokořil samotný koncept stárnutí svými narozeninami. Minulý článek ukázal, že když se nesmrtelný mýtus potká s algoritmy AI, vznikne pořádka dávka zcela originálních a nových vtipů. A...

Česká spořitelna ukazuje cestu ke spojení technologií s lidskou empatií

Přemýšleli jste někdy nad tím, kde leží hranice lidské energie při práci s klienty? Zatímco zkušený bankéř zvládne kvalitně odbavit padesát schůzek denně, technologie tento limit hravě překonává. Nový koncept Future Lab v centru Prahy...

I umělá inteligence se umí nervově zhroutit

Mysleli jsme si, že stroje jsou imunní vůči lidským dramatům, ale vědci z Yale a Curychu nás vyvedli z omylu. Stačí ChatGPT vystavit sérii traumatických příběhů a jeho chování se začne nápadně podobat člověku v...