前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >ChatVLA:基于视觉-语言-动作模型的统一多模态理解与机器人控制

ChatVLA:基于视觉-语言-动作模型的统一多模态理解与机器人控制

作者头像
一点人工一点智能
发布于 2025-03-04 06:24:11
发布于 2025-03-04 06:24:11
1670
举报

编辑:陈萍萍的公主@一点人工一点智能

论文地址:https://arxiv.org/pdf/2502.14420

项目地址:https://chatvla.github.io/

摘要

该部分系统性地阐述了当前视觉-语言-动作模型(VLA)存在的关键问题:虚假遗忘(Spurious Forgetting)和任务干扰(Task Interference)。前者指在机器人控制任务训练过程中,原有视觉-语言对齐关系被覆盖,导致多模态理解能力退化;后者指控制与理解任务因共享参数空间而相互抑制。

针对这些问题,作者提出ChatVLA框架,其核心创新在于分阶段对齐训练(Phased Alignment Training)和混合专家架构(Mixture-of-Experts, MoE)。前者通过先掌握控制任务再逐步引入多模态数据的策略保留对齐能力,后者通过共享注意力层与独立MLP层的设计减少任务干扰。

实验结果表明,ChatVLA在多模态理解基准(如MMMU和MMStar)上显著超越现有VLA方法(如ECoT),参数效率提升3.5倍;在25个真实机器人任务中,成功率远超OpenVLA等模型。这些结果验证了统一框架在同时实现鲁棒多模态理解和高效机器人控制上的潜力。

引言

在现代人工智能研究中,视觉-语言-行动(Vision-Language-Action, VLA)模型的开发和应用日益受到重视。这些模型旨在通过融合多种模态的信息来增强机器人的理解能力和物理操作能力。本文介绍了一种名为ChatVLA的新框架,该框架致力于将多模态推理、对话交流以及物理交互整合到一个单一的网络中。ChatVLA不仅在复杂的场景中表现出色,而且在参数数量上比现有模型(如OpenVLA和ECoT)减少了3.5倍,展示了其高效性和强大性能。这一成就标志着人工智能领域的一个重要进步,为实现更加智能和多功能的人机互动奠定了基础。

ChatVLA的核心在于它能够有效地结合视觉信息与文本数据,以支持机器人在各种任务中的表现。这种跨模态的能力对于处理现实世界中的复杂问题至关重要,因为它们通常涉及多个感官输入和决策过程。例如,在典型的机器人控制场景中,模型需要理解场景内容、识别物体及其位置,并将这些信息转化为具体动作。为了实现这一点,ChatVLA采用了先进的训练策略,确保了高维表示之间的语义一致性,从而提升了理解和控制性能。此外,ChatVLA还通过一系列实验验证了其在多模态理解和视觉问答方面的竞争力,证明了单个网络可以同时优化多个任务的表现。

相关工作

现有研究可分为两类:

· 多模态大语言模型(MLLMs):如LLaVA、DeepSeek-VL等,通过视觉编码器与LLM的适配器设计实现跨模态对齐,但在物理交互能力上存在本质缺陷;

· 视觉-语言-动作模型(VLAs):如RT-2、OpenVLA等,通过微调VLMs生成动作指令,但普遍牺牲了多模态理解能力。例如,OpenVLA在VQA任务中得分为零,表明其完全丢失了预训练VLMs的知识。

ChatVLA的突破在于**双编码理论(Dual Coding Theory)**的启发:将物理技能与语言理解视为相互关联但独立处理的系统。通过MoE架构,模型在共享注意力层中实现跨任务知识迁移,同时在独立MLP层中保留任务特异性,从而突破传统VLAs的能力瓶颈。

方法论

4.1 问题形式化

设机器人控制任务数据集为Drobot={τi},其中τi为状态-动作序列{((vj,tj),aj)};多模态理解任务数据集为Dv−t={ϕi},其中ϕi=(vi,ti)。模型需同时学习两个分布:

· 控制任务:π(at∣vt,tt)

· 理解任务:π(t∣v)

传统方法直接联合优化这两个目标,导致参数更新方向冲突。例如,控制任务需要低层运动规划,而理解任务依赖高层语义特征,二者梯度方向可能相反。

4.2 分阶段对齐训练

ChatVLA的设计理念围绕着解决两个主要挑战:如何防止由于机器人策略数据训练而导致的视觉-文本关系学习干扰,以及如何在保持对话能力的同时提高机器人控制任务的表现。首先,针对虚假遗忘的问题,研究团队提出了一种称为“阶段对齐训练”的方法。这种方法基于这样一个前提:预训练的视觉语言模型(VLM)已经具备了强大的视觉相关任务能力,因此只需少量的视觉-文本配对数据即可重新激活其聊天和场景理解能力。相比之下,机器人控制任务更为复杂,因此优先考虑构建擅长于物理控制任务的优秀模型是至关重要的。

具体来说,ChatVLA的训练策略分为两个阶段。

阶段一(控制优先):第一阶段专注于使用机器人数据进行训练,期间还会加入推理数据以确保持续的对齐性。这种做法有助于避免因单独训练机器人数据而造成的视觉-文本对齐度下降,从而保护模型的对话能力。

仅使用机器人数据Drobot训练模型,但引入推理模板(如“预测下一步动作:{动作}”)。这一设计通过显式语言生成强制模型保持视觉-语言对齐,缓解虚假遗忘。此时,MoE架构中仅激活控制专家(FFNrobot)。

阶段二(多模态融合):第二阶段则着重于改进模型架构,以便更好地处理复杂的机器人控制任务。该方法不仅简单有效,而且显著提高了模型在不同任务上的表现。

在控制任务收敛后,以1:3的比例混合Drobot与Dv−t进行联合训练。此时,视觉-文本专家(FFNv−t)被激活,通过任务提示(如“根据问题回答”)动态选择专家分支。分阶段策略确保控制任务的基础能力不被多模态数据干扰。

例如,在长时序真实机器人任务中,ChatVLA在直接提示下的平均成功长度达到了0.54,而在高级策略模型下更是高达0.94,远超其他基准模型如Octo和OpenVLA。这表明ChatVLA能够在保持高质量对话能力的同时,大幅提升机器人执行复杂任务的能力。

4.3 混合专家架构

MoE的核心设计在于共享注意力层与独立MLP层。以第ll层为例:

1)共享注意力:

其中,多头注意力(MHA)层提取跨模态特征,为控制与理解任务提供共同语义基础。

2)专家路由

残差连接:

保留低层特征的同时融入专家处理结果。

理论依据与优势:

· 双编码理论:MoE模拟人类大脑中运动技能与语言理解的分离处理机制;

· 参数效率:仅需为每个任务增加少量MLP参数(如2B总参数中,专家MLP占比约15%);

· 动态推理:通过系统提示切换专家分支,无需额外计算开销。

实验设计与结果

为了全面评估ChatVLA在多模态理解和机器人控制任务中的表现,研究团队设计了一系列严谨的实验。首先,他们利用Vlmevalkit工具对ChatVLA在TextVQA、DocVQA、InfoVQA等多个视觉问答(Visual Question Answering, VQA)数据集上的表现进行了测试。结果显示,ChatVLA在多项基准测试中均表现出色,特别是在VQA任务中,其框架实现了显著的进步。例如,在一些更具挑战性的基准测试如MMMU、MMStar等上,ChatVLA也展现了与现有视觉语言模型(VLMs)相当甚至更优的性能。这表明ChatVLA不仅能处理常见的视觉问答任务,还能应对更加复杂的多模态理解挑战。

接下来,研究人员进一步考察了ChatVLA在实际机器人控制任务中的表现。通过一系列长时序的真实机器人任务,包括整理玩具、堆叠积木、将玩具放入抽屉以及清理积木等,ChatVLA展示了其卓越的操作能力。特别是在直接提示条件下,ChatVLA的平均成功长度达到了0.54,明显优于其他模型如Octo和OpenVLA。同样地,在高级策略模型的支持下,ChatVLA在完成诸如移动块体至篮子然后将玩具放入抽屉等复杂任务时,其平均成功长度高达0.94,再次显示了其在机器人控制领域的强大潜力。这些实验结果充分证明了ChatVLA作为一个统一的多模态理解和机器人控制系统所具有的高效性和可靠性。

结果分析与讨论

从实验结果来看,ChatVLA在多模态理解和机器人控制方面展现出了显著的优势。特别是在视觉问答任务中,ChatVLA不仅在标准的VQA数据集上取得了优异的成绩,还在更具挑战性的基准测试中保持了高水平的表现。例如,在TextVQA和AI2D等数据集中,ChatVLA的得分分别为79.7和74.7,显示出其在处理自然语言描述和图像理解方面的强大能力。这些成绩的背后,是ChatVLA独特的训练策略和模型结构所带来的优势。通过引入阶段对齐训练法,ChatVLA能够在不牺牲对话能力的前提下,提升其对复杂场景的理解力和操作精度。

此外,ChatVLA在实际机器人控制任务中的表现同样令人瞩目。无论是简单的玩具分类还是复杂的早餐准备任务,ChatVLA都展现出了极高的成功率和效率。例如,在长时序任务中,ChatVLA的平均成功长度达到了0.94,远超其他竞争对手。这一成果得益于ChatVLA对视觉-文本关系的精细处理以及其在机器人控制任务上的专注训练。值得注意的是,尽管ChatVLA的参数量相对较少,但其在各项任务中的表现却不逊色于甚至超过了拥有更多参数的大规模模型。这表明,通过合理的模型设计和训练策略,可以在减少计算资源消耗的同时,实现高效的多模态理解和控制功能。总之,ChatVLA的成功验证了单个网络能够有效整合多模态推理、对话交流及物理交互的可能性,为未来的研究提供了新的方向和启示。

方法部分详细解析

ChatVLA的方法论核心在于其创新的训练策略和精心设计的模型架构,这两者共同作用,使得模型既能有效处理复杂的机器人控制任务,又能维持高水平的对话能力。首先,训练策略方面,ChatVLA采用了一种被称为“阶段对齐训练”的方法。这种方法强调了在不同的训练阶段中平衡不同类型的数据输入,以确保模型在多任务学习过程中不会出现严重的性能退化或虚假遗忘现象。

具体而言,ChatVLA首先利用机器人数据进行初步训练,这部分数据主要用于教会模型如何根据视觉输入做出相应的物理动作。然而,仅依赖机器人数据可能导致模型丧失原有的视觉-文本对齐能力,进而影响其对话质量。因此,在此阶段,研究团队巧妙地融入了一些推理数据,这些数据包含了丰富的视觉-文本配对实例,有助于模型不断调整并维持其在视觉相关任务上的表现。

在模型架构层面,ChatVLA特别注重模块间的协同工作,以实现高效的跨模态信息处理。模型内部包含多个专门设计的组件,每个组件负责特定类型的任务处理。例如,视觉模块负责从输入图像中提取特征,语言模块则用于理解和生成自然语言描述,而动作模块则根据前两者的输出制定具体的物理操作指令。这些模块之间通过共享的中间表示层紧密相连,确保了信息的无缝传递和整合。特别是,在面对复杂的机器人控制任务时,ChatVLA利用一种分层决策机制,将长期目标分解成一系列短期子任务,每一步骤都经过精确规划和执行。这种机制不仅提高了任务完成的成功率,还增强了模型在动态环境中的适应性和灵活性。

此外,为了进一步提升模型的鲁棒性和泛化能力,ChatVLA还引入了一些先进的技术手段。比如,通过对抗训练和数据增强等方法,模型能够在面对多样化和不确定性的输入时仍能保持稳定的性能表现。同时,为了克服传统多任务学习中常见的负迁移问题,ChatVLA采用了一种自适应权重分配策略,根据不同任务的重要性和难度动态调整各任务的训练权重。这样一来,即使某些任务的学习难度较大,也不会对整体模型的性能造成过多负面影响。

综上所述,ChatVLA凭借其创新的训练策略和精巧的模型设计,成功解决了多模态理解和机器人控制中的关键难题,展示了其作为新一代VLA模型的强大潜力和广阔应用前景。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 一点人工一点智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
斯坦福大学 & 亚马逊 AI 探索视觉-语言模型的前沿,当前方法与未来方向的调查!
大型语言模型(LLM)的出现标志着人工智能一个转型时代的开始, Reshape 了整个领域。跨越学术界和工业界的研究实验室正积极参与一场竞争,以推进LLM的能力。然而,一个值得注意的限制已经显现出来——这些模型仅限于处理单一类型的数据,特别是文本。这一限制凸显了在追求完善LLM以跨多个模态无缝运行的过程中一个关键挑战,这标志着在AI领域进一步创新的一个重要方向。
AIGC 先锋科技
2024/07/08
3190
斯坦福大学 & 亚马逊  AI 探索视觉-语言模型的前沿,当前方法与未来方向的调查!
具身智能新时代!VLA迎来最强基础模型Magma:UI导航、机器人操作全能
现有的大语言模型、图像生成模型等都只是在某几个模态数据上进行操作,无法像人类一样与物理世界产生交互。
新智元
2025/03/11
1380
具身智能新时代!VLA迎来最强基础模型Magma:UI导航、机器人操作全能
MoManipVLA——面向通用移动操作的视觉-语言-动作模型迁移
项目链接:https://gary3410.github.io/momanipVLA/
一点人工一点智能
2025/03/27
1280
MoManipVLA——面向通用移动操作的视觉-语言-动作模型迁移
UMIT:统一多模态多任务视觉-语言模型,借两阶段训练与指令模板微调,提升医学影像多任务诊断效能 !
传统医学影像任务通常依赖于专门化的模型,这些模型在单一任务上表现优异,但缺乏跨任务的一般性,这在实际应用中降低了灵活性和效率。近年来,视觉-语言模型(VLMs)通过结合视觉和语言信息显著增强了理解和生成文本的能力,并在多种多模态任务中展现了出色的性能[1, 19, 26]。在医学领域,越来越多的研究开始引入VLMs进行医学图像分析,旨在实现更加智能和高效的多任务处理。
未来先知
2025/04/23
460
UMIT:统一多模态多任务视觉-语言模型,借两阶段训练与指令模板微调,提升医学影像多任务诊断效能 !
超越语义理解,VLMs通过像素值预测增强视觉细节感知能力 !
大型语言模型(LLMs)彻底改变了人工智能领域,使得机器能够以惊人的表现感知和生成人类般的文本。随着这一进步,基于LLM的视觉语言模型(VLMs)正在迅速发展,并在视觉和语言的跨领域内。最近的一些VLMs,如,在多个视觉语言任务上表现出色,包括视觉问答(VQA)和指代表达理解(REC)。通常,这些基于LLM的VLMs采用类似的建模设计:一个预训练的视觉编码器来提取视觉特征,一个映射模块将这些特征与语言空间对齐,以及一个LLM进行推理。
AIGC 先锋科技
2024/08/13
2760
超越语义理解,VLMs通过像素值预测增强视觉细节感知能力 !
横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%
为了应对多模态大语言模型中视觉信息提取不充分的问题,哈尔滨工业大学(深圳)的研究人员提出了双层知识增强的多模态大语言模型-九天(JiuTian-LION)。
新智元
2023/12/05
6200
横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%
清华 & MIT & 英伟达联合提出视觉理解与生成相结合的统一基础模型 VILA-U !
近年来,大型语言模型(LLM)在各种语言任务中表现出优越的能力。它们吸引人的特性,如遵循指令、零样本泛化和少样本上下文学习,激励研究行人将它们与视觉模型结合,构建视觉语言模型(VLMs)以应对多模态任务。很多工作 已经投入到了这个领域,在视觉语言理解基准测试上取得了显著的性能提升。在这些工作中,视觉输入通过像CLIP [58]这样的视觉基础模型映射到LLMs的语义空间,通过包括文本图像对齐训练目标来将两种模态联系起来。
AIGC 先锋科技
2024/09/30
2750
清华 & MIT & 英伟达联合提出视觉理解与生成相结合的统一基础模型 VILA-U !
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
本文由 HMI Lab 完成。HMI Lab依托北京大学视频与视觉技术国家工程研究中心和多媒体信息处理全国重点实验室两大平台,长期从事机器学习、多模态学习和具身智能方向的研究。本工作第一作者为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真,研究方向为视觉基础模型与机器人操纵。指导老师为仉尚航,北京大学计算机学院研究员、博士生导师、博雅青年学者。从事多模态大模型与具身智能研究,取得了一系列重要研究成果,在人工智能顶级期刊和会议上发表论文 80 余篇,谷歌引用 9700 余次。荣获世界人工智能顶会 AAAI 最佳论文奖,位列世界最大学术源代码仓库 Trending Research 第一位。
机器之心
2024/06/27
3460
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
​ LaVy 与 LaVy-Bench | 推进越南语多模态语言理解研究与基准测试 !
近年来,大型语言模型(LLM)在各种自然语言处理任务中展示了卓越的能力,证明了它们在复杂推理和语言理解方面的专长。LLM的成功激励研究行人探索多模态大型语言模型(MLLM)的潜力,这些模型结合了视觉信息与文本数据。MLLM在需要理解语言与视觉之间互动的任务中表现出了良好的结果,如图像字幕生成、视觉问答和多模态机器翻译。
AIGC 先锋科技
2024/07/08
1570
​ LaVy 与 LaVy-Bench  |  推进越南语多模态语言理解研究与基准测试 !
首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源
近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的 MLLM 由众所周知的 Transformer 网络构成,这种网络具有较低效的二次计算复杂度。为了提高这类基础模型的效率,大量的实验表明:(1)Cobra 与当前计算效率高的最先进方法(例如,LLaVA-Phi,TinyLLaVA 和 MobileVLM v2)具有极具竞争力的性能,并且由于 Cobra 的线性序列建模,其速度更快。(2)有趣的是,封闭集挑战性预测基准的结果显示,Cobra 在克服视觉错觉和空间关系判断方面表现良好。(3)值得注意的是,Cobra 甚至在参数数量只有 LLaVA 的 43% 左右的情况下,也取得了与 LLaVA 相当的性能。
机器之心
2024/04/26
3670
首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源
把RLHF带给VLA模型!通过偏好对齐来优化机器人策略,代码已开源
论文一作为北卡罗来纳大学教堂山分校张子健,指导老师为北卡罗来纳大学教堂山分校助理教授 Huaxiu Yao。共同第一作者为华盛顿大学 Kaiyuan Zheng,其余作者包括来自北卡教堂山的 Mingyu Ding、来自华盛顿大学的 Joel Jang、Yi Li 和Dieter Fox,以及来自芝加哥大学的 Zhaorun Chen、Chaoqi Wang。
机器之心
2025/02/15
1090
把RLHF带给VLA模型!通过偏好对齐来优化机器人策略,代码已开源
Youtu Lab, 腾讯, SJTU, BAAI, ECNU 联合调查高效的多模态大型语言模型报告!
大规模预训练是人工智能领域的一种领先方法,通用型模型(如大型语言模型和多模态模型)已经在许多任务中超过了专业深度学习模型的表现。大型语言模型(LLM)的卓越能力激发了人们将它们与其他基于模态的模型融合以增强多模态能力的努力。这一概念得到了诸如OpenAI的GPT-4V[1]和谷歌的Gemini[2]等专有模型显著成功的进一步支持。因此,多模态大型语言模型(MLLM)应运而生,包括mPLUG-Owl系列[3, 4],InternVL[5],EMU[6],LLaVA[7],InstructBLIP[8],MiniGPT-v2[9]和MiniGPT-4[10]。这些模型通过有效利用每种模态的预训练知识,避免了从零开始训练的计算成本。MLLM继承了LLM的认知能力,展示了许多出色的特性,如强大的语言生成能力和迁移学习能力。此外,通过与其他基于模态的模型建立强烈的表征联系和对齐,MLLM可以处理来自多种模态的输入,显著拓宽了它们的应用范围。
AIGC 先锋科技
2024/07/31
2960
Youtu Lab, 腾讯, SJTU, BAAI, ECNU 联合调查高效的多模态大型语言模型报告!
全新模型RoboVLMs解锁VLA无限可能,真实机器人实验交出满分答卷
本文作者来自清华大学、字节跳动、中科院自动化所、上海交通大学和新加坡国立大学。作者列表:李兴航、李沛言、刘明桓、王栋、刘济榕、康炳易、马骁、孔涛、张翰博和刘华平。第一作者李兴航是清华大学计算机系博士生。通讯作者是字节跳动机器人研究员孔涛,新加坡国立大学博士后张翰博和清华大学计算机系教授刘华平。
机器之心
2025/02/03
1160
全新模型RoboVLMs解锁VLA无限可能,真实机器人实验交出满分答卷
LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
大多数人类知识,也都是通过视觉、听觉、触觉、味觉和嗅觉等感官体验,以及与物理世界的交互所获得。
新智元
2024/06/27
2480
LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
Lexicon3D: 探索复杂3D场景理解的视觉基础模型 !
近年来,复杂的3D场景理解成为计算机视觉的一个重要领域,涵盖了诸如场景生成、推理和交互。利用大规模视觉基础模型,方法如[42; 64; 68; 84; 91]已经取得了有前途的结果,从而使一系列实际应用得以实现,从自动驾驶,机器人学[57; 108],到多模态代理[1; 78]。尽管有许多研究[6; 67; 99]提供了关于视觉基础模型在2D图像任务的使用的指导,但3D场景的战略仍然不清楚。对复杂实际场景的系统化理解不仅包括语义和深度意识[6],这可以在2D领域进行评估,还包括几何意识和对多模态信息进行推理和定位任务的能力。为了填补这一空白,作者的工作评估了不同类型的视觉基础模型对复杂场景理解的适用性,并寻求确定每种模型在不同场景中的优势和局限。最终,这项研究旨在为场景理解系统的更有效性、高效性的发展做出贡献。
AIGC 先锋科技
2024/09/13
3090
Lexicon3D: 探索复杂3D场景理解的视觉基础模型 !
CogACT:一种新的VLA模型架构
论文地址:https://cogact.github.io/CogACT_paper.pdf
一点人工一点智能
2025/01/20
1430
CogACT:一种新的VLA模型架构
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
多模态模型结合了多种数据类型,如图像、文本、音频等。传统的语言模型(LLMs)主要针对文本数据进行训练和应用,但在理解其他数据类型方面存在局限性。纯文本语言模型,如GPT-3、BERT和RoBERTa,在文本生成和编码等任务上表现出色,但在理解和处理其他数据类型方面存在不足。
集智书童公众号
2023/11/29
1.6K0
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
融合专家知识:VILA-M3框架推动医学视觉语言模型迈向更高精度 !
大型语言模型(LLMs)是人工智能领域的前沿。最近的研究[28, 32]使得LLM能够支持视觉输入,从而扩展其在许多视觉应用中的使用,将它们转化为视觉语言模型(VLM)。虽然为计算机视觉应用而开发的基础VLMs在各种通用任务上取得了显著的成功,但它们在医疗任务上所需的精准度方面仍存在问题[5, 37, 47]。在通用任务上训练的VLMs通常缺乏解释放射学图像所需的专业医学领域知识[5, 15, 39]。没有特定医学培训的VLMs也经常遗漏对医疗诊断至关重要的细微视觉细节。
AIGC 先锋科技
2024/12/31
2940
融合专家知识:VILA-M3框架推动医学视觉语言模型迈向更高精度 !
谷歌打造「终结者」!ChatGPT版最强机器人AGI,动嘴操控007
本次版本更新的主角是谷歌DeepMind推出的「视觉-语言-动作」(vision-language-action,VLA)模型!
新智元
2023/08/07
2550
谷歌打造「终结者」!ChatGPT版最强机器人AGI,动嘴操控007
Cosmos-Reason1模型:借助层次化与二维本体实现物理AI推理,经四阶段训练及评估展现显著性能提升 !
物理AI系统需要在物理世界中感知、理解和执行复杂的动作。本文介绍了Cosmos-Reason1模型,该模型能够通过长期推理过程理解物理世界,并以自然语言生成适当的具身决策(例如,下一步行动)。
未来先知
2025/04/18
890
Cosmos-Reason1模型:借助层次化与二维本体实现物理AI推理,经四阶段训练及评估展现显著性能提升 !
推荐阅读
斯坦福大学 & 亚马逊 AI 探索视觉-语言模型的前沿,当前方法与未来方向的调查!
3190
具身智能新时代!VLA迎来最强基础模型Magma:UI导航、机器人操作全能
1380
MoManipVLA——面向通用移动操作的视觉-语言-动作模型迁移
1280
UMIT:统一多模态多任务视觉-语言模型,借两阶段训练与指令模板微调,提升医学影像多任务诊断效能 !
460
超越语义理解,VLMs通过像素值预测增强视觉细节感知能力 !
2760
横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%
6200
清华 & MIT & 英伟达联合提出视觉理解与生成相结合的统一基础模型 VILA-U !
2750
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
3460
​ LaVy 与 LaVy-Bench | 推进越南语多模态语言理解研究与基准测试 !
1570
首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源
3670
把RLHF带给VLA模型!通过偏好对齐来优化机器人策略,代码已开源
1090
Youtu Lab, 腾讯, SJTU, BAAI, ECNU 联合调查高效的多模态大型语言模型报告!
2960
全新模型RoboVLMs解锁VLA无限可能,真实机器人实验交出满分答卷
1160
LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
2480
Lexicon3D: 探索复杂3D场景理解的视觉基础模型 !
3090
CogACT:一种新的VLA模型架构
1430
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
1.6K0
融合专家知识:VILA-M3框架推动医学视觉语言模型迈向更高精度 !
2940
谷歌打造「终结者」!ChatGPT版最强机器人AGI,动嘴操控007
2550
Cosmos-Reason1模型:借助层次化与二维本体实现物理AI推理,经四阶段训练及评估展现显著性能提升 !
890
相关推荐
斯坦福大学 & 亚马逊 AI 探索视觉-语言模型的前沿,当前方法与未来方向的调查!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档