前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大模型能看懂图片的弦外之音吗?多模态大模型新基准II-Bench

大模型能看懂图片的弦外之音吗?多模态大模型新基准II-Bench

作者头像
zenRRan
发布2024-06-18 16:59:38
1320
发布2024-06-18 16:59:38
举报

背景引入

在人工智能飞速发展的今天,大模型的感知能力已经达到了令人惊叹的水平。但是,它们真的能够像人类一样,洞悉图片中的深层含义吗?为了探讨多模型大模型与人类的差距,来自中科院深圳先进院,M-A-P,华中科技大学,零一万物,滑铁卢大学等多家机构联合提出了首个用于评估多模态大模型(MLLMs)图像隐喻理解能力的综合性基准测试II-Bench。

在多模态大模型(MLLMs)的世界中,图像隐喻理解(Image Implication Understanding) 正成为一个全新的挑战。图像隐喻理解不仅仅是识别图像中的物体,它要求模型具备多跳逻辑推理能力和心智理论(ToM),这是属于人类的高级认知能力。与简单的图像理解任务相比,图像隐喻理解要求模型能够捕捉到图像中的隐喻、象征以及细微的情感表达,这无疑是对MLLMs的一次严峻考验。

II-Bench

为了全面评估MLLMs的高级感知能力,研究团队精心打造了II-Bench数据集。从20,150张原始图片中,经过三阶段严格的数据筛选流程——图像去重、文本与图像比例控制以及人工审核,最终我们得到了1,222张图片和1,434个问题。

II-Bench覆盖了生活、艺术、社会、心理、环境等六大领域,图片类型包括插画、梗图、海报、漫画、Logo和绘画等。这种跨领域和跨类别的设计,使得对模型的理解和推理能力的评估更加客观和全面。

实验

研究团队在II-Bench上对20种MLLMs进行了广泛的实验。实验设置了不同的提示方式,包括思维链CoT,多样本学习,图像关键词等,以评估模型在不同条件下的表现。

评测结果

实验结果显示:

1.MLLMs在图像含义理解方面与人类存在显著差距。模型的最高准确率仅为74.8%,而人类的平均准确率高达90%,最佳表现甚至达到了98%。

2.此外,闭源模型通常优于开源模型,但领先闭源模型与领先开源模型之间的性能差距微乎其微,仅为1%左右。

3.在不同领域的表现上,模型在艺术和心理等包含抽象和复杂信息的领域表现较差,而在环境、生活、社会等其他领域表现较好。

4.当在提示中加入图像的情感倾向信息时,模型的得分普遍提高,这表明模型在图像情感理解方面存在不足,容易导致对隐含意义的误解。

5.思维链(CoT)和多样本学习对模型在II-Bench的得分提升上无明显效果。

6.MLLMs对于难度的感知和人类是对齐的,但是对于隐含情感的感知和人类相悖,相比中立和负面情感模型在正面隐喻情感上的表现更好。

错误分析

研究人员对GPT-4V在II-Bench上的错误进行了深入分析,错误类型包括隐喻理解错误、细节理解错误、细节忽略、表面层次理解、推理错误、拒绝回答和答案提取错误。

GPT-4V最常见的错误类型是隐喻理解错误,占比高达36%。这种错误表明,尽管MLLMs在表面级别的图像识别上表现出色,但当涉及到图像中的隐喻和象征性含义时,它们的理解能力仍然有限。这可能是因为隐喻通常需要对文化背景和情境有深刻的理解,而MLLMs可能缺乏这种深层次的语义关联能力。

同时,占比12%的推理错误表明,在需要复杂逻辑和多步骤推理的任务中,MLLMs的性能不足,这反映了模型在处理高级认知任务时的局限性。

总结

最后简单总结一下,II-Bench是一个旨在评估多模态大模型(MLLMs)在图像隐喻理解方面的综合性基准测试。II-Bench的广度体现在其精心构建的包含1,222张图片和1,434个问题的数据上,这些问题覆盖了生活、艺术、社会、心理、环境等六大领域。

评估结果揭示了当前MLLMs在图像含义理解方面与人类相比存在显著差距。II-Bench的目标是衡量MLLMs在高级感知、推理和理解能力方面的进展,并在未来将继续扩展其所涵盖的领域和任务类型。研究人员相信,II-Bench将进一步激发MLLMs的研究和开发,推动人工智能在图像情感理解、隐喻识别和深层次含义推断等高级认知任务上的发展,使得人们能够更接近实现具有高级心智理论(ToM)的真正智能的多模态系统。

相关链接

  • Paper: https://arxiv.org/abs/2406.05862
  • HomePage: https://ii-bench.github.io
  • GitHub: https://github.com/II-Bench/II-Bench
  • HuggingFace: https://huggingface.co/datasets/m-a-p/II-Benc
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度学习自然语言处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 背景引入
  • II-Bench
  • 实验
  • 评测结果
  • 错误分析
  • 总结
  • 相关链接
相关产品与服务
腾讯云服务器利旧
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档