Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >西湖大学&浙江大学提出 Cobra,基于状态空间语言模型扩展的多模态大语言模型,更大规模、更轻量级

西湖大学&浙江大学提出 Cobra,基于状态空间语言模型扩展的多模态大语言模型,更大规模、更轻量级

作者头像
CV君
发布于 2024-03-27 03:34:59
发布于 2024-03-27 03:34:59
3900
举报

本文分享论文Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference,由西湖大学&浙江大学联合提出一种基于状态空间语言模型扩展的多模态大语言模型。

  • 作者:赵晗,张敏,赵伟,丁鹏翔,黄思腾,王东林
  • 单位:西湖大学、浙江大学
  • 原文链接:https://arxiv.org/abs/2403.14520
  • 项目链接:https://sites.google.com/view/cobravlm/

01摘要

近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网络具有较低效的二次计算复杂度。

为了提高这类基础模型的效率,本文提出了Cobra,一种线性计算复杂度的MLLM。具体来说,Cobra将高效的Mamba语言模型整合到视觉模态中。此外,本文还探索和研究了各种模态融合方案,以创建一个有效的多模态Mamba。

大量的实验表明:(1)Cobra与当前计算效率高的最先进方法(例如,LLaVA-Phi,TinyLLaVA和MobileVLM v2)具有极具竞争力的性能,并且由于Cobra的线性序列建模,其速度更快。(2)有趣的是,封闭集挑战性预测基准的结果显示,Cobra在克服视觉错觉和空间关系判断方面表现良好。(3)值得注意的是,Cobra甚至在参数数量只有LLaVA的43%左右的情况下,也取得了与LLaVA相当的性能。

主要贡献:

  1. 将单模态的Mamba预训练语言模型拓展到了多模态大语言模型中。
  2. 提出了一种能够在性能上匹配更大规模模型的轻量化多模态语言模型。
  3. 模型具有比同规模Transformer类模型3~4倍的生成速度,同时在克服视觉错觉和空间关系判断上有良好的表现。

02方法

Cobra网络结构如图1所示。由DINOv2和SigLIP组成融合的视觉编码器,经过MLP组成的投影模块后和文字嵌入联合输入到Mamba语言模型中。

图1 Cobra网络结构图

03 实验

本文提出的方法在生成速度上可以达到同量级基于Transformer模型,如TinyLLaVA,MobileVLM v2的3~4倍左右。同时达到和LLaVA v1.5相匹配的模型性能。更多的结果如图2和表1所示。

图2 生成速度和性能对比图表1 在Benchmark上和开源SOTA模型的对比

此外,本文也给出了一些生成答案的可视化结果来验证所提出模型在视觉错觉和空间关系判断能力上的优势,如图3和图4所示:

图3 Cobra和其他基线模型在物体空间关系判断的示例

图4 Cobra和其他基线模型在关于视觉错觉现象的示例

04 结论

本文提出了Cobra,它解决了现有依赖于具有二次计算复杂度的Transformer网络的多模态大型语言模型的效率瓶颈。本文探索了具有线性计算复杂度的语言模型与多模态输入的结合。在融合视觉和语言信息方面,通过对不同模态融合方案的深入研究,本文成功优化了Mamba语言模型的内部信息整合,实现了更有效的多模态表示。

实验表明,Cobra不仅显著提高了计算效率,而且在性能上与像LLaVA这样的先进模型相当,尤其在克服视觉幻觉和空间关系判断方面表现出色。它甚至显著减少了参数数量。这为未来在需要高频处理视觉信息的环境中部署高性能AI模型(如基于视觉的机器人反馈控制)开辟了新的可能性。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-03-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 我爱计算机视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
浙大 & 西湖 | 提出Cobra多模态大模型,整合Mamba,计算效率大幅提升!
近年来,多模态大型语言模型(MLLM)在多个领域上取得了成功,但现有MLLM主要是基于Transformer训练得到,计算效率较低。为此,本文作者提出了Cobra,一个具有线性计算复杂度的MLLM,它将Mamba语言模型整合到了视觉模态中。实验结果显示,Cobra在性能上与最先进的方法相当,速度更快,尤其在处理视觉错觉和空间关系判断方面表现突出。Cobra的参数量只有LLaVA的43%,但性能相当。
ShuYini
2024/03/27
8560
浙大 & 西湖 | 提出Cobra多模态大模型,整合Mamba,计算效率大幅提升!
首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源
近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的 MLLM 由众所周知的 Transformer 网络构成,这种网络具有较低效的二次计算复杂度。为了提高这类基础模型的效率,大量的实验表明:(1)Cobra 与当前计算效率高的最先进方法(例如,LLaVA-Phi,TinyLLaVA 和 MobileVLM v2)具有极具竞争力的性能,并且由于 Cobra 的线性序列建模,其速度更快。(2)有趣的是,封闭集挑战性预测基准的结果显示,Cobra 在克服视觉错觉和空间关系判断方面表现良好。(3)值得注意的是,Cobra 甚至在参数数量只有 LLaVA 的 43% 左右的情况下,也取得了与 LLaVA 相当的性能。
机器之心
2024/04/26
3970
首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源
​新加坡 & 纽约大学 & 字节 提出 PLLaVA | 简单高效视频语言模型适应方法,超越GPT4V,突破资源限制 !
多模态大型语言模型(MLLMs)在训练大规模图像-文本对时已显示出在图像理解方面的卓越能力。与图像领域类似,最近的视频理解模型也探索了类似的流程,在大规模视频-文本数据上对LLMs进行微调。然而,这种方法需要高昂的计算资源和视频数据标注成本。一种更为实用的方法是调整预先训练好的图像领域MLLMs以适应视频数据。
AIGC 先锋科技
2024/07/08
5330
​新加坡 & 纽约大学 & 字节 提出 PLLaVA | 简单高效视频语言模型适应方法,超越GPT4V,突破资源限制 !
NeurIPS 2024|腾讯优图实验室10篇论文入选,含持续学习、大型语言模型、深度伪造检测等研究方向
近期,第38届神经信息处理系统大会(NeurIPS 2024)公布了录取结果。会议共收到了15671篇有效论文投稿,共有超四千篇收录,录取率为25.8%。NeurIPS是CCF推荐的A类国际学术会议,在人工智能及计算机理论领域享有较高学术声誉。NeurIPS 2024将于12月9日至15日在加拿大温哥华举行,届时,众多学术界和工业界的专家将共聚一堂,探讨人工智能的最新进展。
小腾资讯君
2024/10/23
7800
​中科大 & 腾讯微信 & 新加坡国立大学 & 复旦等 将视觉特征与 LLM 的参数空间对齐,LoRA 再升级, 效率更上一层!
大型语言模型(LLM)在大多数自然语言任务上取得了令人鼓舞的性能,并在解决现实世界问题中展现出了强大的泛化能力。从LLM派生出的多模态大型语言模型(MLLM)通过感知现实世界的视觉信息,向人工通用智能(AGI)迈出了一步。因此,感知视觉信息的方式是从LLM向MLLM转变的关键。
AIGC 先锋科技
2024/07/08
3330
​中科大 & 腾讯微信 & 新加坡国立大学 & 复旦等 将视觉特征与 LLM 的参数空间对齐,LoRA 再升级, 效率更上一层!
TransMamba:跨架构训练实现Transformer知识向Mamba迁移,两阶段策略及多方法赋能单多模态任务 !
Transformer [53] 架构对计算机视觉领域产生了深远的影响,它们灵活的注意力模块结构被认为是其成功的关键因素之一。尽管这些架构非常流行,但 Transformer 遇到了计算复杂度问题,因为其注意力机制的计算复杂度呈二次方增长 [2],这导致了计算和内存使用的增加。因此,这给模型优化和扩展带来了重大挑战,阻碍了它们的广泛应用。为应对这一挑战,近期的研究引入了一些亚二次的架构,例如 Mamba 和 RWKV [13, 40]。然而,为了针对各种下游任务从头开始训练专门的亚二次模型,会面临显著的计算负担,并产生更高的二氧化碳排放量。幸运的是,作者观察到许多基于 Transformer 的预训练模型,例如 LLaVA [42] 和 CLIP [42] 等已经公开可用。
AIGC 先锋科技
2025/04/13
3240
TransMamba:跨架构训练实现Transformer知识向Mamba迁移,两阶段策略及多方法赋能单多模态任务 !
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
本文由 HMI Lab 完成。HMI Lab依托北京大学视频与视觉技术国家工程研究中心和多媒体信息处理全国重点实验室两大平台,长期从事机器学习、多模态学习和具身智能方向的研究。本工作第一作者为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真,研究方向为视觉基础模型与机器人操纵。指导老师为仉尚航,北京大学计算机学院研究员、博士生导师、博雅青年学者。从事多模态大模型与具身智能研究,取得了一系列重要研究成果,在人工智能顶级期刊和会议上发表论文 80 余篇,谷歌引用 9700 余次。荣获世界人工智能顶会 AAAI 最佳论文奖,位列世界最大学术源代码仓库 Trending Research 第一位。
机器之心
2024/06/27
3800
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
字节提出 MammothModa | 超越 LLaVA,集成视觉能力的多模态大型语言模型 !
近期,多模态大型语言模型(MLLMs)因其能够理解和生成受视觉输入影响的语言而受到了广泛关注。这些模型融合了视觉和文本数据,使得应用范围涵盖了图像字幕生成、视觉问答和视频分析等众多领域。尽管取得了进展,但许多MLLM在有效结合高分辨率和长时程视觉输入与复杂的语言理解方面,同时保持简洁和高效性方面仍面临挑战。
AIGC 先锋科技
2024/07/11
3140
字节提出 MammothModa | 超越 LLaVA,集成视觉能力的多模态大型语言模型 !
12%计算量就能媲美原模型,Adobe、罗切斯特大学等提出YOPO剪枝技术
本篇论文的核心作者包括罗切斯特大学的博士研究生张泽良,指导教师徐辰良副教授,以及来自Adobe的研究员赵文天,万锟和李宇哲。
机器之心
2025/02/14
810
12%计算量就能媲美原模型,Adobe、罗切斯特大学等提出YOPO剪枝技术
论文解读 - 统一的多模态理解和生成模型综述(上)
近年来,多模态理解模型和图像生成模型都取得了显著的进步。尽管各自取得了成功,这两个领域却独立发展,形成了独特的架构范式:基于自回归的架构主导了多模态理解,而基于扩散的模型则成为图像生成的基石。最近,人们越来越关注开发能够整合这些任务的统一框架。GPT-4的新能力正是这一趋势的体现,突显了统一的可 能性。然而,两个领域的架构差异带来了重大挑战。为了清晰地概述当前的统一努力,论文提供了一份全面的综述,旨在指导未来的研 究。首先,论文介绍多模态理解和文本到图像生成模型的基础概念和最新进展。接下来,论文回顾现有的统一模型,将其分为三大架构 范式:基于扩散、基于自回归以及融合自回归和扩散机制的混合方法。对于每一类,论文分析了相关工作引入的结构设计和创新。此 外,论文还编制了针对统一模型的数据集和基准测试,为未来的探索提供资源。最后,论文讨论了这一新兴领域面临的关键挑战,包括 令牌策略、跨模态注意力和数据问题。由于该领域仍处于早期阶段,论文预计会迅速取得进展,并将定期更新此综述。论文的目标是激 发进一步的研究,并为社区提供有价值的参考。
合合技术团队
2025/05/29
1740
论文解读 - 统一的多模态理解和生成模型综述(上)
斯坦福利用视觉表示法则优化多模态语言模型,计算成本降低 99.7% !
当前的多模态大型语言模型(MLLM)通过将预训练的视觉编码器与强大的语言模型(Touvron等人,2023;Zheng等人,2023)整合,已经取得了显著的进展。作为通用的MLLM的一个核心组成部分,视觉表示至关重要。许多研究行人使用了CLIP 作为主要的图像特征编码器,但其局限性逐渐显现出来。因此,正在积极探讨替代的视觉表示和视觉编码器的组合。
AIGC 先锋科技
2024/09/10
1760
斯坦福利用视觉表示法则优化多模态语言模型,计算成本降低 99.7% !
腾讯优图实验室22篇论文入选,含深度伪造检测、自回归视觉生成、多模态大语言模型等研究方向
近日, CVPR 2025(IEEE/CVF Conferenceon on Computer Vision and Pattern Recognition)论文录用结果揭晓,本次大会共2878篇被录用,录用率为22.1%。CVPR是计算机视觉领域的顶级国际会议,CCF A类会议,每年举办一次。CVPR 2025将于6月11日-15日,在美国田纳西州纳什维尔音乐城市中心召开。
小腾资讯君
2025/04/28
3140
Y-MoD:探索深度混合适应性,适用于多模式大语言模型 !
近年来,自然语言处理(NLP)领域大型语言模型(LLMs)取得了巨大成功,这吸引了越来越多的关注,以将其扩展到视觉语言(VL)任务。尽管取得了进步,但最近的多模态大型语言模型(MLLMs)往往受到其昂贵的计算成本的批评。例如,现有 MLLMs 的推理速度仍远低于实际需求,例如每秒4.7个样本。受NLP进步的推动,最近的技术进步采用了混合专家(MoEs)来减少MLLMs的“激活参数”,从而在效率和性能之间实现了权衡。
AIGC 先锋科技
2024/11/06
1690
Y-MoD:探索深度混合适应性,适用于多模式大语言模型 !
【论文解读】多模态大模型综述
多模态大语言模型(MLLM)是近年来一个新兴的研究热点,它利用强大的大语言模型(LLM)作为大脑进行多模态研究。MLLM令人惊讶的涌现能力,比如基于图像写故事和无ocr的数学推理,在传统方法中是罕见的,这表明了一条通往人工通用智能的潜在道路。本文旨在对MLLM的最新研究进展进行跟踪和总结。首先,论文提出了MLLM的公式,并描述了它的相关概念。然后,论文讨论了关键的技术和应用,包括多模态指令调整(M-IT)、多模态上下文学习(M-ICL)、多模态思维链(M-CoT)和LLM辅助视觉推理(LAVR)。最后,论文讨论了现有的挑战,并指出了很有前景的研究方向。鉴于MLLM的时代才刚刚开始,作者将继续更新这项调查,并希望它能激发更多的研究。
合合技术团队
2024/03/12
6.6K0
【论文解读】多模态大模型综述
高效评估多模态预训练对齐质量,中科大提出模态融合率MIR
本文作者来自于中国科学技术大学,上海人工智能实验室以及香港中文大学。其中第一作者黄启栋为中国科学技术大学三年级博士生,主要研究方向包括多模态大模型(MLLM)和可信 / 高效 AI,师从张卫明教授。
机器之心
2025/02/14
1730
高效评估多模态预训练对齐质量,中科大提出模态融合率MIR
ICLR 2025 | 多模态大模型总"胡说八道"?「定位-修正」实现生成过程的幻觉抑制
论文题目:MLLM Can See? Dynamic Correction Decoding for Hallucination Mitigation
DrugAI
2025/03/28
2400
ICLR 2025 | 多模态大模型总"胡说八道"?「定位-修正」实现生成过程的幻觉抑制
超越CoT!微软剑桥中科院提出MVoT,直接可视化多模态推理过程
在大语言模型(LLMs)和多模态大语言模型(MLLMs)中,思维链(CoT)在复杂推理方面非常有效。
新智元
2025/02/08
1500
超越CoT!微软剑桥中科院提出MVoT,直接可视化多模态推理过程
MMFuser 用于精细视觉-语言理解的多模态多层特征融合器 !
近年来,多模态大型语言模型(MLLMs)在人工智能领域(AGI)的研究热点中崭露头角。这些模型通过跨模态互动和学习在理解和表达复杂人类意图方面取得了重要进展。在大型语言模型(LLMs)快速发展的基础上,MLLMs利用预训练的视觉编码器来提取图像特征,并将其与先进的LLMs相结合,展示了在各种视觉语言任务上的显著能力。
AIGC 先锋科技
2024/12/03
2940
MMFuser 用于精细视觉-语言理解的多模态多层特征融合器 !
每日学术速递2.20
1.Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization
AiCharm
2025/02/21
1470
每日学术速递2.20
西湖大学 & 苏大提出 PiTe | 大型视频语言模型的空间与时间维度下的精细对齐研究 !
大型语言模型(LLMs)在AI领域迅速获得了 popularity ,展示了惊人的在各种自然语言任务上的能力。LLMs 强大的语言理解能力促使研究行人探索其在解决更广泛跨领域的任务中的实用性。因此,越来越多的研究专注于开发全面的 Large Visual-Language Models(LVLMs)以解决零样本设置下的视觉相关任务,特别是在视频理解方面。通用 Large Video-Language Models(LVidLMs)的追求将面临长期挑战。在此过程中,实现 LLMs 中固有的杰出理解、推理和生成能力的有效利用至关重要。
AIGC 先锋科技
2024/11/19
2140
西湖大学 & 苏大提出 PiTe  | 大型视频语言模型的空间与时间维度下的精细对齐研究 !
推荐阅读
浙大 & 西湖 | 提出Cobra多模态大模型,整合Mamba,计算效率大幅提升!
8560
首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源
3970
​新加坡 & 纽约大学 & 字节 提出 PLLaVA | 简单高效视频语言模型适应方法,超越GPT4V,突破资源限制 !
5330
NeurIPS 2024|腾讯优图实验室10篇论文入选,含持续学习、大型语言模型、深度伪造检测等研究方向
7800
​中科大 & 腾讯微信 & 新加坡国立大学 & 复旦等 将视觉特征与 LLM 的参数空间对齐,LoRA 再升级, 效率更上一层!
3330
TransMamba:跨架构训练实现Transformer知识向Mamba迁移,两阶段策略及多方法赋能单多模态任务 !
3240
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
3800
字节提出 MammothModa | 超越 LLaVA,集成视觉能力的多模态大型语言模型 !
3140
12%计算量就能媲美原模型,Adobe、罗切斯特大学等提出YOPO剪枝技术
810
论文解读 - 统一的多模态理解和生成模型综述(上)
1740
斯坦福利用视觉表示法则优化多模态语言模型,计算成本降低 99.7% !
1760
腾讯优图实验室22篇论文入选,含深度伪造检测、自回归视觉生成、多模态大语言模型等研究方向
3140
Y-MoD:探索深度混合适应性,适用于多模式大语言模型 !
1690
【论文解读】多模态大模型综述
6.6K0
高效评估多模态预训练对齐质量,中科大提出模态融合率MIR
1730
ICLR 2025 | 多模态大模型总"胡说八道"?「定位-修正」实现生成过程的幻觉抑制
2400
超越CoT!微软剑桥中科院提出MVoT,直接可视化多模态推理过程
1500
MMFuser 用于精细视觉-语言理解的多模态多层特征融合器 !
2940
每日学术速递2.20
1470
西湖大学 & 苏大提出 PiTe | 大型视频语言模型的空间与时间维度下的精细对齐研究 !
2140
相关推荐
浙大 & 西湖 | 提出Cobra多模态大模型,整合Mamba,计算效率大幅提升!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档