Google DeepMind刚刚发布了Gemma 4,一个包含四个型号的多模态开源模型家族。
四款模型分别是:E2B(2.3B有效参数)、E4B(4.5B有效参数)、31B(密集模型)、26B A4B(MoE架构,4B激活参数)。31B和26B A4B都支持256k上下文窗口,可以在单张H100上运行。

Gemma 4(31B)相比Gemma 3(27B),从架构角度几乎看不出变化。依然是那个有点特别的Pre-norm和Post-norm混合设置,依然是5:1的混合注意力——5层滑动窗口(局部)+1层全注意(全局)。注意力机制也是经典的GQA(分组查询注意力)。词汇量维持在262k,上下文长度倒是从128K涨到了256K。

技术上的几个亮点:
这是Gemma系列第一次真正意义上的多模态。不只是图像,文本,还能处理视频。小模型(E2B、E4B)甚至支持音频。
模型参数量看起来不大,但实际跑分相当离谱——31B版本在Arena排行榜上已经摸到全球第三开源模型的位置,26B MoE排第六。更夸张的是,这两个「小」模型在某些任务上能打掉比自己大20倍的竞品。

在GPQA Diamond科学推理基准上,Gemma 4 31B得分85.7%,只比Qwen3.5 27B低0.1个百分点。

但有意思的是,Gemma 4只用了约120万输出tokens,而Qwen用了150万。效率上占优。

硬件适配做得比较扎实。31B的bfloat16权重可以塞进单张80GB H100,量化版本在消费级GPU上也能跑。E2B和E4B专门优化过,Google说已经能在Pixel手机和Jetson上离线运行,延迟基本无感。端侧应用有了更好的选择。
生态支持来得很快。transformers、llama.cpp、MLX、transformers.js、Mistral.rs都在第一时间支持了Gemma 4。Hugging Face的TRL也更新了,专门为Gemma 4做了多模态工具调用的适配。vLLM用一条docker命令就能拉起来跑:
docker run --gpus all \
-v ~/.cache/huggingface:/root/.cache/huggingface \
--env "HF_TOKEN=$HF_TOKEN" \
-p 8000:8000 \
--ipc=host \
vllm/vllm-openai:gemma4 \
--model google/gemma-4-31B-it这次还有一个变化就是许可证变为更通用限制更少的Apache 2.0许可证,这意味着各大厂可以放心商用。
模型权重已经上传到Hugging Face。