Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >大模型能看懂图片的弦外之音吗?多模态大模型新基准II-Bench

大模型能看懂图片的弦外之音吗?多模态大模型新基准II-Bench

作者头像
zenRRan
发布于 2024-06-18 08:59:38
发布于 2024-06-18 08:59:38
6140
举报

背景引入

人工智能飞速发展的今天,大模型的感知能力已经达到了令人惊叹的水平。但是,它们真的能够像人类一样,洞悉图片中的深层含义吗?为了探讨多模型大模型与人类的差距,来自中科院深圳先进院,M-A-P,华中科技大学,零一万物,滑铁卢大学等多家机构联合提出了首个用于评估多模态大模型(MLLMs)图像隐喻理解能力的综合性基准测试II-Bench。

在多模态大模型(MLLMs)的世界中,图像隐喻理解(Image Implication Understanding) 正成为一个全新的挑战。图像隐喻理解不仅仅是识别图像中的物体,它要求模型具备多跳逻辑推理能力和心智理论(ToM),这是属于人类的高级认知能力。与简单的图像理解任务相比,图像隐喻理解要求模型能够捕捉到图像中的隐喻、象征以及细微的情感表达,这无疑是对MLLMs的一次严峻考验。

II-Bench

为了全面评估MLLMs的高级感知能力,研究团队精心打造了II-Bench数据集。从20,150张原始图片中,经过三阶段严格的数据筛选流程——图像去重、文本与图像比例控制以及人工审核,最终我们得到了1,222张图片和1,434个问题。

II-Bench覆盖了生活、艺术、社会、心理、环境等六大领域,图片类型包括插画、梗图、海报、漫画、Logo和绘画等。这种跨领域和跨类别的设计,使得对模型的理解和推理能力的评估更加客观和全面。

实验

研究团队在II-Bench上对20种MLLMs进行了广泛的实验。实验设置了不同的提示方式,包括思维链CoT,多样本学习,图像关键词等,以评估模型在不同条件下的表现。

评测结果

实验结果显示:

1.MLLMs在图像含义理解方面与人类存在显著差距。模型的最高准确率仅为74.8%,而人类的平均准确率高达90%,最佳表现甚至达到了98%。

2.此外,闭源模型通常优于开源模型,但领先闭源模型与领先开源模型之间的性能差距微乎其微,仅为1%左右。

3.在不同领域的表现上,模型在艺术和心理等包含抽象和复杂信息的领域表现较差,而在环境、生活、社会等其他领域表现较好。

4.当在提示中加入图像的情感倾向信息时,模型的得分普遍提高,这表明模型在图像情感理解方面存在不足,容易导致对隐含意义的误解。

5.思维链(CoT)和多样本学习对模型在II-Bench的得分提升上无明显效果。

6.MLLMs对于难度的感知和人类是对齐的,但是对于隐含情感的感知和人类相悖,相比中立和负面情感模型在正面隐喻情感上的表现更好。

错误分析

研究人员对GPT-4V在II-Bench上的错误进行了深入分析,错误类型包括隐喻理解错误、细节理解错误、细节忽略、表面层次理解、推理错误、拒绝回答和答案提取错误。

GPT-4V最常见的错误类型是隐喻理解错误,占比高达36%。这种错误表明,尽管MLLMs在表面级别的图像识别上表现出色,但当涉及到图像中的隐喻和象征性含义时,它们的理解能力仍然有限。这可能是因为隐喻通常需要对文化背景和情境有深刻的理解,而MLLMs可能缺乏这种深层次的语义关联能力。

同时,占比12%的推理错误表明,在需要复杂逻辑和多步骤推理的任务中,MLLMs的性能不足,这反映了模型在处理高级认知任务时的局限性。

总结

最后简单总结一下,II-Bench是一个旨在评估多模态大模型(MLLMs)在图像隐喻理解方面的综合性基准测试。II-Bench的广度体现在其精心构建的包含1,222张图片和1,434个问题的数据上,这些问题覆盖了生活、艺术、社会、心理、环境等六大领域。

评估结果揭示了当前MLLMs在图像含义理解方面与人类相比存在显著差距。II-Bench的目标是衡量MLLMs在高级感知、推理和理解能力方面的进展,并在未来将继续扩展其所涵盖的领域和任务类型。研究人员相信,II-Bench将进一步激发MLLMs的研究和开发,推动人工智能在图像情感理解、隐喻识别和深层次含义推断等高级认知任务上的发展,使得人们能够更接近实现具有高级心智理论(ToM)的真正智能的多模态系统。

相关链接

  • Paper: https://arxiv.org/abs/2406.05862
  • HomePage: https://ii-bench.github.io
  • GitHub: https://github.com/II-Bench/II-Bench
  • HuggingFace: https://huggingface.co/datasets/m-a-p/II-Benc
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度学习自然语言处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
ICML 2025 Spotlight | 多模态大模型暴露短板?EMMA基准深度揭秘多模态推理能力
「三个点电荷 + Q、-2Q 和 + 3Q 等距放置,哪个向量最能描述作用在 + Q 电荷上的净电力方向?」
机器之心
2025/05/21
1320
ICML 2025 Spotlight | 多模态大模型暴露短板?EMMA基准深度揭秘多模态推理能力
​ LaVy 与 LaVy-Bench | 推进越南语多模态语言理解研究与基准测试 !
近年来,大型语言模型(LLM)在各种自然语言处理任务中展示了卓越的能力,证明了它们在复杂推理和语言理解方面的专长。LLM的成功激励研究行人探索多模态大型语言模型(MLLM)的潜力,这些模型结合了视觉信息与文本数据。MLLM在需要理解语言与视觉之间互动的任务中表现出了良好的结果,如图像字幕生成、视觉问答和多模态机器翻译。
AIGC 先锋科技
2024/07/08
1710
​ LaVy 与 LaVy-Bench  |  推进越南语多模态语言理解研究与基准测试 !
每周AI论文速递(250113-250117)
尽管大语言模型 (LLMs) 表现卓越,但其发展面临一个关键挑战:在人类评估困难或 LLMs 超越人类的任务中,如何提供有效的反馈。尽管使用 LLMs 进行批评的兴趣日益增长,但当前的方法仍然依赖于人类注释或更强大的模型,这使得在没有外部监督的情况下增强批评能力的问题仍未解决。我们提出了 SCRIT (Self-evolving CRITic),这是一个能够实现批评能力真正自我进化的框架。从技术上讲,SCRIT 通过训练合成数据进行自我改进,这些数据由基于对比的自我批评者生成,该批评者使用参考解决方案进行逐步批评,并通过自我验证机制确保批评质量,该机制通过纠正结果来确保批评质量。使用 Qwen2.5-72B-Instruct(最强大的 LLMs 之一)实现,SCRIT 在批评纠正和错误识别基准测试中实现了高达 10.3% 的提升。我们的分析表明,SCRIT 的性能随着数据和模型规模的增加而正向扩展,优于其他方法,并且其自我验证组件对其性能至关重要。
叶子的技术碎碎念
2025/04/08
680
每周AI论文速递(250113-250117)
李飞飞谢赛宁:多模态LLM「空间大脑」觉醒,惊现世界模型雏形!
更震撼的是,MLLM的空间推理能力虽然仍是瓶颈,但这些模型中,已经出现了局部世界模型和空间意识的迹象!
新智元
2025/02/15
1790
李飞飞谢赛宁:多模态LLM「空间大脑」觉醒,惊现世界模型雏形!
上交大/哈佛/鹏程实验室提出 MEMO-Bench:一种基于文本到图像和多模态大语言模型的人类情绪分析基准 !
目前,人工智能(AI)在多个领域的能力已经达到了与人类相当的水平,甚至有些领域超过了人类,这表明它具有一定程度的理性思维。然而,理性思维的存在并不等同于完全的“智能”,因为AI是否真正体验情感这个问题仍未得到解决。在实际应用中,如人机交互(HCI)和具身智能,以及沉浸式媒体设计(如虚拟数字人)中,用户情感在塑造AI决策过程中起着关键作用。不幸的是,大多数现有交互系统主要依赖文本界面[47],而不是利用多模态信息(如视觉和听觉线索),有效地捕捉和理解情感变化。这种局限性极大地限制了这些系统的情感理解能力。多模态大型语言模型(MLLMs)的出现为情感 Aware 交互带来了新的可能性,使AI能够可能理解人类情感。然而,这种能力的范围仍然 largely unexplored。现有研究[37]主要关注评估MLLMs识别和分类情感的能力,往往忽视了它们在更细粒度理解情感方面的能力。此外,情感理解的需求不仅限于MLLMs,还包括文本到图像(T2I)模型,这些模型越来越用于生成传达特定情感状态的角色肖像。因此,评估AI的情绪分析能力应包括MLLMs和T2I模型,因为两者都是推动情感 Aware AI系统发展的关键。
未来先知
2025/01/07
3220
上交大/哈佛/鹏程实验室提出 MEMO-Bench:一种基于文本到图像和多模态大语言模型的人类情绪分析基准 !
MLLM真能看懂数学吗?MathVerse来了次摸底测评,放出当天登热榜
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。
机器之心
2024/04/19
1760
MLLM真能看懂数学吗?MathVerse来了次摸底测评,放出当天登热榜
ICLR 2025 | 多模态大模型能否胜任工业异常检测?MMAD基准揭示真相
事实上,工业场景中的许多任务——例如异常检测——就属于这种基础但至关重要的工作。想象一下,一个工厂质检员每天需要检查成千上万的产品,找出微小的缺陷或异常。这是一项既繁琐又要求极高的工作,通常依赖大量人力完成。如果能够用AI替代这种重复性强且耗时的任务,不仅可以显著提高效率,还能让人类员工专注于更具创造性和战略性的工作。
小腾资讯君
2025/02/14
5210
谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告
在Gemini开放API不到一周的时间,港中文等机构就完成评测,联合发布了多达128页的报告,结果显示:
量子位
2023/12/28
2020
谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告
多模态大模型面对误导性问题:看懂图片也会答错,一骗就中招
多模态大语言模型(MLLMs)因其在视觉理解和推理方面的突出表现,例如生成详细的图像描述和回答复杂的问题等,逐渐成为近期AI研究的热点。
CV君
2024/06/27
2560
多模态大模型面对误导性问题:看懂图片也会答错,一骗就中招
李飞飞、谢赛宁等探索MLLM「视觉空间智能」,网友:2025有盼头了
在购买家具时,我们会尝试回忆起我们的客厅,以想象一个心仪的橱柜是否合适。虽然估计距离是困难的,但即使只是看过一次,人类也能在脑海里重建空间,回忆起房间里的物体、它们的位置和大小。
机器之心
2025/02/15
630
李飞飞、谢赛宁等探索MLLM「视觉空间智能」,网友:2025有盼头了
港中文128页全球首份Gemini vs GPT-4V多模态PK报告
2023 年 12 月 6 日,谷歌发布了最新一代的通用人工智能大模型 Gemini,并报告在多项测试中取得了最先进的结果,甚至在 MMLU 测试中首次取得了超过人类专家的成绩,人工智能似乎进入 Gemini 时代。
CV君
2023/12/26
2510
港中文128页全球首份Gemini vs GPT-4V多模态PK报告
MLLM首篇综述 | 一文全览多模态大模型的前世、今生和未来
近年来,大型语言模型取得了显著进展。通过扩大数据大小和模型大小,这些LLM提高了惊人的涌现能力,通常包括上下文学习(ICL)、指令跟随和思想链(CoT)。尽管LLM在大多数自然语言处理(NLP)任务中表现出了令人惊讶的Zero/Few-Shot推理性能,但它们天生对视觉“视而不见”,因为它们只能理解离散文本。
集智书童公众号
2023/09/04
13.5K0
MLLM首篇综述 | 一文全览多模态大模型的前世、今生和未来
颜水成领衔,给AI分段位!超100款多模态模型,无人达到L5
得益于大语言模型强大的文本理解与生成能力,用户可以用「自然语言」来操控其他模态的模态,比如用文本生成图片、视频等。
新智元
2025/05/21
890
颜水成领衔,给AI分段位!超100款多模态模型,无人达到L5
字节提出 LLaVA-OneVision :首个突破多模态模型性能瓶颈的开源大型模型 !
人工智能的核心愿望之一就是构建具有大规模视觉语言模型的通用助手[67]。LLaVA-OneVision是一个开源模型,致力于推进构建具有大规模视觉语言助手的(LLaVA)[83]研究,该助手可以适应各种指令,在野外完成各种计算机视觉任务。作为一种既省钱又高效的做法,它通常通过连接视觉编码器与大规模语言模型(LLM)来实现。
AIGC 先锋科技
2024/08/14
1.5K0
字节提出 LLaVA-OneVision :首个突破多模态模型性能瓶颈的开源大型模型 !
清华 & 港中文 & 香港科技 深入探究 LLM, 利用大型语言模型理解视频和动作序列的多模态人类行为!
理解人类行为,如细粒度标注和分析,在以人为中心的多模态智能领域[21, 25, 93]至关重要,并且可以从人机交互和机器人技术到医疗保健和安保的具身智能中受益。
AIGC 先锋科技
2024/07/08
5570
清华 &  港中文 & 香港科技 深入探究 LLM, 利用大型语言模型理解视频和动作序列的多模态人类行为!
【源头活水】ECCV2024|DepictQA: 图像质量感知多模态语言模型
“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注!
马上科普尚尚
2024/07/29
2620
【源头活水】ECCV2024|DepictQA: 图像质量感知多模态语言模型
传统预训练正走向终结,推理优化与后训练提升有限,大模型今后如何突破发展瓶颈?
当前(多模态)大模型正深陷「数据饥渴」困境:其性能高度依赖预训练阶段大量高质量(图文对齐)数据的支撑。然而,现实世界中这类高价值数据资源正在迅速耗尽,传统依赖真实数据驱动模型能力增长的路径已难以为继。
机器之心
2025/04/13
1260
传统预训练正走向终结,推理优化与后训练提升有限,大模型今后如何突破发展瓶颈?
【论文解读】多模态大模型综述
多模态大语言模型(MLLM)是近年来一个新兴的研究热点,它利用强大的大语言模型(LLM)作为大脑进行多模态研究。MLLM令人惊讶的涌现能力,比如基于图像写故事和无ocr的数学推理,在传统方法中是罕见的,这表明了一条通往人工通用智能的潜在道路。本文旨在对MLLM的最新研究进展进行跟踪和总结。首先,论文提出了MLLM的公式,并描述了它的相关概念。然后,论文讨论了关键的技术和应用,包括多模态指令调整(M-IT)、多模态上下文学习(M-ICL)、多模态思维链(M-CoT)和LLM辅助视觉推理(LAVR)。最后,论文讨论了现有的挑战,并指出了很有前景的研究方向。鉴于MLLM的时代才刚刚开始,作者将继续更新这项调查,并希望它能激发更多的研究。
合合技术团队
2024/03/12
6.5K0
【论文解读】多模态大模型综述
超越CoT!微软剑桥中科院提出MVoT,直接可视化多模态推理过程
在大语言模型(LLMs)和多模态大语言模型(MLLMs)中,思维链(CoT)在复杂推理方面非常有效。
新智元
2025/02/08
1420
超越CoT!微软剑桥中科院提出MVoT,直接可视化多模态推理过程
ACL 2024 | 多模态大模型能揭示图像背后的深意吗?
Can Large Multimodel Models Uncover Deep Semantics Behind Images?
NewBeeNLP
2024/06/27
2300
ACL 2024 | 多模态大模型能揭示图像背后的深意吗?
推荐阅读
ICML 2025 Spotlight | 多模态大模型暴露短板?EMMA基准深度揭秘多模态推理能力
1320
​ LaVy 与 LaVy-Bench | 推进越南语多模态语言理解研究与基准测试 !
1710
每周AI论文速递(250113-250117)
680
李飞飞谢赛宁:多模态LLM「空间大脑」觉醒,惊现世界模型雏形!
1790
上交大/哈佛/鹏程实验室提出 MEMO-Bench:一种基于文本到图像和多模态大语言模型的人类情绪分析基准 !
3220
MLLM真能看懂数学吗?MathVerse来了次摸底测评,放出当天登热榜
1760
ICLR 2025 | 多模态大模型能否胜任工业异常检测?MMAD基准揭示真相
5210
谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告
2020
多模态大模型面对误导性问题:看懂图片也会答错,一骗就中招
2560
李飞飞、谢赛宁等探索MLLM「视觉空间智能」,网友:2025有盼头了
630
港中文128页全球首份Gemini vs GPT-4V多模态PK报告
2510
MLLM首篇综述 | 一文全览多模态大模型的前世、今生和未来
13.5K0
颜水成领衔,给AI分段位!超100款多模态模型,无人达到L5
890
字节提出 LLaVA-OneVision :首个突破多模态模型性能瓶颈的开源大型模型 !
1.5K0
清华 & 港中文 & 香港科技 深入探究 LLM, 利用大型语言模型理解视频和动作序列的多模态人类行为!
5570
【源头活水】ECCV2024|DepictQA: 图像质量感知多模态语言模型
2620
传统预训练正走向终结,推理优化与后训练提升有限,大模型今后如何突破发展瓶颈?
1260
【论文解读】多模态大模型综述
6.5K0
超越CoT!微软剑桥中科院提出MVoT,直接可视化多模态推理过程
1420
ACL 2024 | 多模态大模型能揭示图像背后的深意吗?
2300
相关推荐
ICML 2025 Spotlight | 多模态大模型暴露短板?EMMA基准深度揭秘多模态推理能力
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档