开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

大模型不需要感官翻译官了：解密Gemma 4的去编码器革命

文章来源：企鹅号 - AI可可AI生活

谷歌DeepMind发布的Gemma 4 12B干了一件颠覆行业常识的事：彻底砍掉了用来理解图像和音频的编码器。

以前大模型看图听歌，得靠专门的视觉和音频编码器把信号“翻译”一遍，这既占内存又增加延迟。Gemma 4 12B的路子极野，直接把原始像素和音频切片，通过一层极轻的投影，直接拍在大模型脸上，让大模型自己去脑补和理解。

这就把视觉编码器从5.5亿参数砍到了3500万，音频编码器直接归零。省去中间商后，数据直达大脑，推理延迟暴跌，大模型能更早开始生成输出。更爽的是，以后微调多模态模型，再也不用痛苦地同时训好几个异构模型了。

这件事最有深度的地方在于：我们一直以为大模型需要“眼睛”和“耳朵”，但其实大模型这个超级大脑，可以直接生吞这个物理世界的原始数据。

newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4-12b

发表于: 1天前2026-06-06 09:58:59
原文链接：https://page.om.qq.com/page/O7-4YUuX3yXovnQRg_eefGRw0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

相关快讯