首页
学习
活动
专区
圈层
工具
发布

大模型不需要感官翻译官了:解密Gemma 4的去编码器革命

谷歌DeepMind发布的Gemma 4 12B干了一件颠覆行业常识的事:彻底砍掉了用来理解图像和音频的编码器。

以前大模型看图听歌,得靠专门的视觉和音频编码器把信号“翻译”一遍,这既占内存又增加延迟。Gemma 4 12B的路子极野,直接把原始像素和音频切片,通过一层极轻的投影,直接拍在大模型脸上,让大模型自己去脑补和理解。

这就把视觉编码器从5.5亿参数砍到了3500万,音频编码器直接归零。省去中间商后,数据直达大脑,推理延迟暴跌,大模型能更早开始生成输出。更爽的是,以后微调多模态模型,再也不用痛苦地同时训好几个异构模型了。

这件事最有深度的地方在于:我们一直以为大模型需要“眼睛”和“耳朵”,但其实大模型这个超级大脑,可以直接生吞这个物理世界的原始数据。

newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4-12b

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O7-4YUuX3yXovnQRg_eefGRw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券