首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >每日论文速递 | 苹果发文:VLMs离视觉演绎推理还有多远

每日论文速递 | 苹果发文:VLMs离视觉演绎推理还有多远

作者头像
zenRRan
发布于 2024-03-25 06:11:40
发布于 2024-03-25 06:11:40
1990
举报

深度学习自然语言处理 分享 整理:pp

摘要:最近,GPT-4V 等视觉语言模型(VLM)在各种视觉语言任务中取得了令人难以置信的进步。我们深入研究了基于视觉的演绎推理这一更为复杂但探索较少的领域,并发现了当前 SOTA 视觉语言模型中尚未暴露的盲点。具体来说,我们利用Raven's Progressive Matrices(RPM)来评估 VLM 仅依靠视觉线索进行多跳multi-hop关系和演绎推理的能力。我们在三个不同的数据集(包括 Mensa IQ 测试、IntelligenceTest 和 RAVEN)上对几种流行的 VLM 进行了全面评估,这些 VLM 采用了标准策略,如上下文学习、自我一致性(SC)和思维链(CoT)。结果表明,尽管 LLM 在文本推理方面的能力令人印象深刻,但我们在视觉演绎推理方面仍远未达到可比的熟练程度。我们发现,某些在 LLMs 中有效的标准策略并不能完美地应对视觉推理任务带来的挑战。此外,详细的分析表明,VLMs 在解决这些任务时之所以举步维艰,主要是因为他们无法感知和理解 RPM 示例中多种混淆的抽象模式。

https://arxiv.org/abs/2403.04732

Q1: 这篇论文试图解决什么问题?

A:这篇论文试图解决的问题是评估和理解当前最先进的视觉-语言模型(Vision-Language Models, VLMs)在视觉推理任务上的性能,特别是在需要复杂视觉推理能力的挑战性任务上。具体来说,研究者们通过使用Raven's Progressive Matrices(RPMs)问题来测试VLMs在仅依赖视觉线索进行多跳关系和演绎推理的能力。这些任务要求模型能够理解给定的模式、推导出潜在的规则,并使用这些规则来选择缺失模式的正确选项。论文的目标是揭示VLMs在视觉演绎推理方面的局限性,并探讨如何提高它们在这一领域的性能

Q2: 有哪些相关研究?

A:相关研究包括以下几个方面:

  1. 通用大型语言模型(LLM)推理基准:研究者们介绍了多种基于文本的推理任务和基准,用于评估LLMs在不同领域(如常识、数学推理、常识推理、事实推理和编程)的性能。这些研究包括BIG-bench、HELM、SuperGLUE和LAMA等。
  2. 视觉推理评估:先前的工作主要集中在视觉问答(VQA)和图像描述等任务上,这些任务涉及回答有关图像的问题或生成视觉内容的自然语言描述。研究人员还检查了模型理解图像中对象的关系和组合方面的能力。CLEVR和SHAPES等数据集评估了计数、比较、逻辑推理和记忆存储等视觉推理能力。
  3. 演绎推理:在文本和视觉领域都进行了演绎推理评估和基准测试。例如,GuessWhat?!和ReferIt评估了模型的视觉推理能力。最近,LMRL Gym和Entity Deduction Arena被引入作为评估LLMs执行多轮演绎推理任务的能力的方法。ARC任务与RPMs相似,都需要根据给定的例子正确推断未见的输出。
  4. 视觉-语言模型(VLMs)的发展:随着VLMs在视觉推理方面的能力发展,基准测试也在不断进步。新的基准测试,如MMMU和MathVista,测试了模型在图像和视频中模拟人类对场景和对象理解的能力,包括场景文本理解、公式、图表解释、视觉刺激理解、几何推理、空间推理和面部表情理解与推理。

这些研究为评估VLMs在视觉演绎推理任务上的性能提供了背景和基础,同时也指出了当前模型在这一领域的局限性。

Q3: 论文如何解决这个问题?

A:论文通过以下步骤来解决视觉演绎推理的问题:

  1. 建立评估框架:研究者们建立了一个系统性的评估框架,用于评估VLMs在RPM问题上的性能。他们选择了包括Mensa IQ测试、IntelligenceTest和RAVEN在内的多样化数据集,并在这些数据集上评估了多个流行的开源和闭源VLMs。
  2. 应用标准策略:研究者们尝试了在大型语言模型(LLMs)中有效的标准推理时策略,**如上下文学习(in-context learning)和自我一致性(self-consistency),以探索这些策略在VLMs中的潜力。**
  3. 性能瓶颈分析:通过将VLMs的能力分解为感知、演绎推理和假设验证三个部分,研究者们详细诊断了VLMs在RPM任务中的性能瓶颈。他们发现感知是当前VLMs的限制因素,并提供了一个案例研究来突出强VLMs(如GPT-4V)中的特定“盲点”。
  4. 问题识别与分析:研究者们识别并检查了当前VLMs在这项任务中的几个问题,包括过度自信、对提示设计的敏感性以及无法有效利用上下文示例。他们通过消融实验研究了不同提示对模型整体性能的影响,并发现模型可以从更结构化的提示中受益。
  5. 实验设置:研究者们详细描述了实验设置,包括使用的数据集、比较的模型以及用于生成响应的提示方法。
  6. 结果评估:研究者们展示了不同VLMs在各个数据集上的表现,并分析了模型预测的不确定性。他们还探讨了标准策略在视觉演绎推理中的有效性,并讨论了VLMs在感知、推理和假设验证方面的表现。
  7. 结论与未来工作:最后,研究者们总结了VLMs在视觉演绎推理任务上的局限性,并提出了未来工作的方向,包括验证VLMs在描述模式时的盲点,以及探索对比学习或强化学习算法来提高模型的视觉演绎推理能力。

通过这些步骤,论文不仅揭示了VLMs在视觉演绎推理方面的当前能力,还为如何改进这些模型提供了见解和建议。

Q4: 论文做了哪些实验?

A:论文中进行的实验主要包括以下几个方面:

  1. 数据集评估:研究者们使用了三个不同的Raven's Progressive Matrices (RPMs) 数据集,包括Mensa IQ测试、IntelligenceTest和RAVEN,来评估多个流行的视觉-语言模型(VLMs)的性能。这些数据集涵盖了不同的难度级别和视觉模式。
  2. 模型比较:比较了多种代表最先进水平的VLMs,包括GPT-4V、Gemini-pro、Qwen-VL-Max和LLaVA-1.5-13B。这些模型在不同的数据集上进行了性能测试,以评估它们在视觉推理任务上的能力。
  3. 推理策略测试:尝试了在大型语言模型(LLMs)中有效的标准推理策略,如上下文学习(in-context learning)和自我一致性(self-consistency),以探究这些策略在VLMs中的效果。
  4. 性能瓶颈分析:通过将VLMs的能力分解为感知、演绎推理和假设验证三个部分,研究者们对VLMs在RPM任务中的性能瓶颈进行了详细分析。
  5. 感知能力测试:评估了VLMs在理解RPM图像模式方面的能力,包括对图像的描述准确性和对模式的识别
  6. 演绎推理能力测试:通过提供正确的文本描述(oracle descriptions)来测试模型在给定正确信息的情况下的推理能力。
  7. 假设验证能力测试:测试了模型在接收到正确的描述和推理(oracle rationale)后,能否有效地生成假设并验证这些假设。
  8. 提示格式影响测试:研究了提示的结构(如图像和文本的顺序)如何影响模型的预测性能。
  9. 错误描述处理:测试了模型在接收到自身生成的错误文本描述时,是否能够进行有效的推理。

这些实验旨在全面评估VLMs在视觉演绎推理任务上的能力,并识别它们在这一领域的局限性。通过这些实验,研究者们能够深入了解VLMs在视觉推理方面的性能,并为未来的改进提供了方向。

Q5: 有什么可以进一步探索的点?

A:论文提出了几个可以进一步探索的点:

模型训练数据的改进:研究者们提到,VLMs可能主要在真实世界图像上进行训练,这可能导致它们对抽象模式的敏感性降低。未来的工作可以探索在更多样化的RPM数据上进行微调,以提高模型对抽象模式的识别能力。

对比学习和强化学习算法:为了提高VLMs的视觉演绎推理能力,可以探索开发对比学习或强化学习算法,这些算法可能有助于模型更好地理解和推理视觉模式。

感知和推理的结合:研究者们发现,当任务涉及复杂的空间布局和关系推理时,文本信息可能不足以提供最佳性能,而视觉线索可能提供额外的对齐和更好的比较注意力。未来的研究可以探索如何更有效地结合视觉信息和文本线索。

提示结构的优化:论文中提到,VLMs对提示的结构非常敏感。未来的工作可以进一步研究如何设计更有效的提示结构,以提高模型在视觉推理任务上的性能。

模型的不确定性校准:研究者们观察到,即使在预测不确定性较高时,模型也倾向于提供确定性的答案,而不是表达不确定性。未来的研究可以探索如何改进模型的不确定性校准,使其在面对不确定性时能够更准确地表达其置信度。

模型的泛化能力:RPM任务要求模型具有强大的泛化能力,因为每个问题可能有不同的潜在规则。未来的工作可以探索如何提高VLMs在这种少样本学习任务中的泛化能力。

模型的解释能力:研究者们发现,模型在生成解释时可能会产生错误,特别是在复杂任务中。未来的研究可以探索如何提高模型的解释能力,使其能够更准确地生成与视觉线索相匹配的解释。

这些探索点为VLMs在视觉演绎推理领域的未来发展提供了潜在的研究方向。

Q6: 总结一下论文的主要内容?

A:这篇论文的主要内容可以总结如下:

  1. 研究背景:论文探讨了视觉-语言模型(VLMs)在视觉推理任务上的性能,特别是Raven's Progressive Matrices(RPMs)这类需要复杂视觉演绎推理的任务。
  2. 研究目标:旨在评估VLMs在视觉演绎推理任务上的能力,并识别当前模型的局限性。
  3. 实验设计:使用Mensa IQ测试、IntelligenceTest和RAVEN数据集,对多个流行的VLMs进行了全面评估。实验包括了标准策略的应用,如上下文学习和自我一致性。
  4. 主要发现:
  • **VLMs在文本推理任务上表现出色,但在视觉推理任务上仍有显著差距。**
  • 某些在LLMs中有效的策略在VLMs中并不总是有效。
  • VLMs在感知、演绎推理和假设验证方面存在性能瓶颈,尤其是感知能力。
  1. 问题分析:通过详细分析,研究者们发现VLMs在处理RPM任务时,主要问题在于无法准确感知和理解多个复杂的抽象模式。
  2. 策略测试:测试了在LLMs中有效的策略在VLMs中的有效性,发现这些策略并不总是能够提高VLMs的性能。
  3. 性能提升:研究者们提出了一些可能的改进方向,包括在更多样化的RPM数据上进行微调,以及开发对比学习和强化学习算法。
  4. 结论:尽管VLMs在视觉推理任务上取得了一定的进展,但与人类水平相比仍有较大差距。未来的研究需要进一步探索如何提高VLMs在这一领域的性能。

总的来说,这篇论文提供了对VLMs在视觉演绎推理任务上性能的深入分析,并为未来的研究方向提供了指导。

以上内容均由KimiChat生成,深入了解论文内容仍需精读论文

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-03-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度学习自然语言处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
​融合视觉语言模型 HPE-CogVLM | 基于LoRA层,利用 CogVLM 的视觉定位能力来增强 HPE 预测任务!
如今, Head 姿态估计(HPE)技术可应用于诸如注意力估计、面部识别、客户行为分析、驾驶员辅助系统以及人机交互[39]等各个领域。这项任务涉及从图像或视频中预测人类 Head 的欧拉角(偏航、俯仰和翻滚)。最近一些非大型语言模型(Non-LLMs)如6DRepNet[11]、HopeNet[36]和WHENet[57]在HPE上的研究努力,已经取得了显著的进展。
AIGC 先锋科技
2024/07/08
3030
​融合视觉语言模型 HPE-CogVLM |  基于LoRA层,利用 CogVLM 的视觉定位能力来增强 HPE 预测任务!
每周AI论文速递(2506202-250606)
我们提出了一种基于自我反思和强化学习的大语言模型性能提升方法。当模型回答错误时,通过激励其生成更高质量的反思内容,我们证明即使无法合成训练数据且仅能获得二元反馈信号,模型解决复杂可验证任务的能力仍能得到显著提升。该框架包含两个阶段:(1) 任务失败时,模型需生成分析先前尝试的反思性文本;(2) 模型在获得反思内容后重新尝试解决该任务。若重试成功,则对反思阶段生成的Token(词元)给予奖励。实验结果显示,该方法在不同架构模型上均取得显著效果提升,其中数学方程编写任务提升达34.7%,函数调用任务提升18.1%。特别值得注意的是,经过微调的中小规模模型(15亿至70亿参数)表现优于同架构下参数规模大10倍的基准模型。这一创新范式为开发具备有限反馈条件下自我提升能力的语言模型提供了新思路,有望推动构建更实用可靠的大语言模型系统。
叶子的技术碎碎念
2025/06/09
2590
每周AI论文速递(2506202-250606)
让视觉语言模型搞空间推理,谷歌又整新活了
视觉语言模型 (VLM) 已经在广泛的任务上取得了显著进展,包括图像描述、视觉问答 (VQA)、具身规划、动作识别等等。然而大多数视觉语言模型在空间推理方面仍然存在一些困难,比如需要理解目标在三维空间中的位置或空间关系的任务。
机器之心
2024/02/26
2470
让视觉语言模型搞空间推理,谷歌又整新活了
清华提出 VoCo-LLaMA | 使用LLMs 进行视觉压缩,FLOPs 减少 94.8%,推理时间加快 69.6% !
视觉语言模型的出现导致了视觉理解的显著进步。特别是,高分辨率图像编码[7; 8]和更多视频帧的融合[9; 10]分别提高了大型视觉语言模型和大型视频语言模型的能力。然而,大量的视觉标记占据了大型语言模型宝贵的上下文窗口的大部分,导致了高昂的计算成本,如图1(a)所示。例如,在使用LLaVA-1.6[7]中的高分辨率图像输入时,一个分辨率为672×672的单个图像被划分为四个较小的块,每个块以336×336的分辨率进行编码。这个过程产生了包含2304个视觉标记的图像表示,占据了超过一半的上下文长度。此外,随着输入图像数量的增加,文本的上下文窗口将进一步受限。例如,Vicuna-1.5[11]在其4k上下文长度内只能处理大约7帧(7×576=4032个标记),考虑到文本输入。[9, 10]研究了将上下文长度扩展到百万级以缓解这个问题的影响,但这需要昂贵的计算资源(例如,[9]需要超过1000个v4 TPU)以及数据准备和框架开发方面的工程努力。
AIGC 先锋科技
2024/07/08
5070
清华提出 VoCo-LLaMA | 使用LLMs 进行视觉压缩,FLOPs 减少 94.8%,推理时间加快 69.6% !
WalkVLM:如何通过VLM来辅助盲人行走?
这篇论文主要研究了如何利用视觉语言模型(Vision-Language Models,简称VLMs)来帮助视障人士行走。目前全球有大约两亿人患有不同程度的视力障碍,因此开发AI技术提供行走辅助变得尤为重要。
一点人工一点智能
2025/01/03
3660
WalkVLM:如何通过VLM来辅助盲人行走?
每日学术速递2.26
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
AiCharm
2025/02/27
2331
每日学术速递2.26
每周AI论文速递(250113-250117)
尽管大语言模型 (LLMs) 表现卓越,但其发展面临一个关键挑战:在人类评估困难或 LLMs 超越人类的任务中,如何提供有效的反馈。尽管使用 LLMs 进行批评的兴趣日益增长,但当前的方法仍然依赖于人类注释或更强大的模型,这使得在没有外部监督的情况下增强批评能力的问题仍未解决。我们提出了 SCRIT (Self-evolving CRITic),这是一个能够实现批评能力真正自我进化的框架。从技术上讲,SCRIT 通过训练合成数据进行自我改进,这些数据由基于对比的自我批评者生成,该批评者使用参考解决方案进行逐步批评,并通过自我验证机制确保批评质量,该机制通过纠正结果来确保批评质量。使用 Qwen2.5-72B-Instruct(最强大的 LLMs 之一)实现,SCRIT 在批评纠正和错误识别基准测试中实现了高达 10.3% 的提升。我们的分析表明,SCRIT 的性能随着数据和模型规模的增加而正向扩展,优于其他方法,并且其自我验证组件对其性能至关重要。
叶子的技术碎碎念
2025/04/08
1120
每周AI论文速递(250113-250117)
每日学术速递12.27
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
AiCharm
2024/12/27
1800
每日学术速递12.27
每周AI论文速递(250224-250228)
LLM-Microscope: 揭示 Transformer 上下文记忆中标点符号的隐藏作用
叶子的技术碎碎念
2025/04/08
1080
每周AI论文速递(250224-250228)
每日学术速递1.9
1.Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation
AiCharm
2025/01/09
1620
每日学术速递1.9
每日学术速递10.22
1.Dual Prototype Evolving for Test-Time Generalization of Vision-Language Models
AiCharm
2024/10/22
2100
每日学术速递10.22
每日学术速递12.19
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
AiCharm
2024/12/19
2050
每日学术速递12.19
中科大、中兴提出新后训练范式:小尺寸多模态模型,成功复现R1推理
本文第一作者为邓慧琳,中国科学技术大学硕博连读四年级,研究方向为多模态模型视觉理解、推理增强(R1强化学习)、异常检测。在TAI、TASE、ICCV等期刊和顶会发表论文。
机器之心
2025/04/15
1640
中科大、中兴提出新后训练范式:小尺寸多模态模型,成功复现R1推理
利用大型语言模型和扩散模型大规模生成视觉最小变化数据,提升VLMs的细粒度理解能力 !
细粒度地理解目标、属性及其关系对于视觉-语言模型(VLMs)有效泛化到新的、未见过的场景和构图至关重要。以往的研究如ARO [40] 和 Sugarcrepe [8],强调了VLMs在这一领域的不足,主要关注于理解两个非常相似的标题之间的细粒度差异——一个人工编写的标题和自动生成的硬负例2标题,其中硬负例标题与原标题仅在目标、属性或两个目标之间的关系上有所不同。虽然可以通过基于规则的方法合成标题的硬负例,但为图像合成这样的硬负例则非常具有挑战性。
AIGC 先锋科技
2024/07/31
4520
利用大型语言模型和扩散模型大规模生成视觉最小变化数据,提升VLMs的细粒度理解能力 !
轻量级视频压缩(LVC):以最小成本迁移长视频理解能力,解决VLMs采样问题并提升多模型性能 !
大语言模型(LLMs)的快速发展推动了视频理解研究范式的转变,从传统的以视觉为中心的方法转向利用跨模态对齐能力的基于LLM的框架。这种由LLM驱动的革命体现在两种主要架构中:在视频-文本对齐数据上预训练的视频LLMs[3, 16, 23]和以图像-文本对齐[19, 25]为核心的视觉语言模型(VLMs)。
AIGC 先锋科技
2025/05/14
2430
轻量级视频压缩(LVC):以最小成本迁移长视频理解能力,解决VLMs采样问题并提升多模型性能 !
每日学术速递3.26 (New! 一图速览)
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
AiCharm
2025/03/27
2360
每日学术速递3.26 (New! 一图速览)
SARChat-2M:首个SAR图像多模态对话数据集,验证VLMs能力,项目即将开源!
在人工智能(AI)研究领域,随着技术的不断进步和应用领域的拓展,研究者们对AI的认知和期望也在不断提升。本文旨在对当前AI技术的发展现状、挑战及其在各个领域的应用进行综述,以期为AI领域的进一步研究和发展提供参考。
未来先知
2025/03/24
6350
SARChat-2M:首个SAR图像多模态对话数据集,验证VLMs能力,项目即将开源!
每日学术速递2.20
1.Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization
AiCharm
2025/02/21
2320
每日学术速递2.20
超越语义理解,VLMs通过像素值预测增强视觉细节感知能力 !
大型语言模型(LLMs)彻底改变了人工智能领域,使得机器能够以惊人的表现感知和生成人类般的文本。随着这一进步,基于LLM的视觉语言模型(VLMs)正在迅速发展,并在视觉和语言的跨领域内。最近的一些VLMs,如,在多个视觉语言任务上表现出色,包括视觉问答(VQA)和指代表达理解(REC)。通常,这些基于LLM的VLMs采用类似的建模设计:一个预训练的视觉编码器来提取视觉特征,一个映射模块将这些特征与语言空间对齐,以及一个LLM进行推理。
AIGC 先锋科技
2024/08/13
4290
超越语义理解,VLMs通过像素值预测增强视觉细节感知能力 !
2024年3月的计算机视觉论文推荐
从去年开始,针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。
deephub
2024/03/20
3610
2024年3月的计算机视觉论文推荐
推荐阅读
相关推荐
​融合视觉语言模型 HPE-CogVLM | 基于LoRA层,利用 CogVLM 的视觉定位能力来增强 HPE 预测任务!
更多 >
交个朋友
加入腾讯云官网粉丝站
蹲全网底价单品 享第一手活动信息
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档