谷歌DeepMind发布的Gemma 4 12B干了一件颠覆行业常识的事:彻底砍掉了用来理解图像和音频的编码器。
以前大模型看图听歌,得靠专门的视觉和音频编码器把信号“翻译”一遍,这既占内存又增加延迟。Gemma 4 12B的路子极野,直接把原始像素和音频切片,通过一层极轻的投影,直接拍在大模型脸上,让大模型自己去脑补和理解。
这就把视觉编码器从5.5亿参数砍到了3500万,音频编码器直接归零。省去中间商后,数据直达大脑,推理延迟暴跌,大模型能更早开始生成输出。更爽的是,以后微调多模态模型,再也不用痛苦地同时训好几个异构模型了。
这件事最有深度的地方在于:我们一直以为大模型需要“眼睛”和“耳朵”,但其实大模型这个超级大脑,可以直接生吞这个物理世界的原始数据。
newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4-12b