本文分享论文Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference
,由西湖大学&浙江大学联合提出一种基于状态空间语言模型扩展的多模态大语言模型。
近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网络具有较低效的二次计算复杂度。
为了提高这类基础模型的效率,本文提出了Cobra,一种线性计算复杂度的MLLM。具体来说,Cobra将高效的Mamba语言模型整合到视觉模态中。此外,本文还探索和研究了各种模态融合方案,以创建一个有效的多模态Mamba。
大量的实验表明:(1)Cobra与当前计算效率高的最先进方法(例如,LLaVA-Phi,TinyLLaVA和MobileVLM v2)具有极具竞争力的性能,并且由于Cobra的线性序列建模,其速度更快。(2)有趣的是,封闭集挑战性预测基准的结果显示,Cobra在克服视觉错觉和空间关系判断方面表现良好。(3)值得注意的是,Cobra甚至在参数数量只有LLaVA的43%左右的情况下,也取得了与LLaVA相当的性能。
主要贡献:
Cobra网络结构如图1所示。由DINOv2和SigLIP组成融合的视觉编码器,经过MLP组成的投影模块后和文字嵌入联合输入到Mamba语言模型中。
图1 Cobra网络结构图
本文提出的方法在生成速度上可以达到同量级基于Transformer模型,如TinyLLaVA,MobileVLM v2的3~4倍左右。同时达到和LLaVA v1.5相匹配的模型性能。更多的结果如图2和表1所示。
图2 生成速度和性能对比图表1 在Benchmark上和开源SOTA模型的对比
此外,本文也给出了一些生成答案的可视化结果来验证所提出模型在视觉错觉和空间关系判断能力上的优势,如图3和图4所示:
图3 Cobra和其他基线模型在物体空间关系判断的示例
图4 Cobra和其他基线模型在关于视觉错觉现象的示例
本文提出了Cobra,它解决了现有依赖于具有二次计算复杂度的Transformer网络的多模态大型语言模型的效率瓶颈。本文探索了具有线性计算复杂度的语言模型与多模态输入的结合。在融合视觉和语言信息方面,通过对不同模态融合方案的深入研究,本文成功优化了Mamba语言模型的内部信息整合,实现了更有效的多模态表示。
实验表明,Cobra不仅显著提高了计算效率,而且在性能上与像LLaVA这样的先进模型相当,尤其在克服视觉幻觉和空间关系判断方面表现出色。它甚至显著减少了参数数量。这为未来在需要高频处理视觉信息的环境中部署高性能AI模型(如基于视觉的机器人反馈控制)开辟了新的可能性。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有