Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >超越文本理解:MMMU-Pro对多模态模型真实推理能力的评估!

超越文本理解:MMMU-Pro对多模态模型真实推理能力的评估!

作者头像
AIGC 先锋科技
发布于 2024-09-10 12:59:03
发布于 2024-09-10 12:59:03
4930
举报
文章被收录于专栏:AIGC 先锋科技AIGC 先锋科技

本文介绍了MMMU-Pro,即MMMU基准测试的健壮版。MMMU-Pro通过基于MMMU的三个步骤严格评估多模态模型的真实理解和推理能力: (1)过滤出仅能由文本模型回答的问题; (2)增强候选选项; (3)引入仅依赖图像的输入设置,其中问题嵌入在图像中。这种设置挑战AI同时真正“看”和“读”,测试人类“无缝集成视觉和文本信息”的基本认知技能。结果表明,模型在MMMU-Pro上的性能远低于在MMMU上的性能,各个模型之间的差异为16.8%至26.9%。 作者探讨了OCR提示和连续推理(CoT)的影响,发现OCR提示的效果微乎其微,而CoT通常可以提高性能。MMMU-Pro提供了一个更严格的评估工具,可以 closely mimicking 真实世界场景,并提供了有价值的未来研究多模态AI的指导。

最近,多模态大型语言模型(MLLMs)的进步已经使得在结合文本和视觉信息处理复杂的推理任务上取得了显著的进展。例如,GPT-4o 在MMMU基准测试上达到了69.1%的准确率。

然而,这些成就仍然引发了关键问题: 当前基准测试结果是否能真正反映对多样主题的深入、多方面的理解,或者是这些模型利用微妙的捷径和统计模式

为解决此问题并推动多模态AI评估的边界,作者提出了MMMU-Pro,这是MMMU基准的一个更强大且更具挑战性的版本。MMMU-Pro旨在更准确、严格地评估模型在广泛学术学科中的真实多模态理解和推理能力。MMMU-Pro的开发受到几个关键观察的驱动,其中包括某些现有基准问题的纯文本可解性,多选题格式的选项空间有限,以及挑战模型更集成地共同理解不同模态的需要。

MMMU-Pro采用了一个严谨的三步构建过程(如图2所示),该过程建立在MMMU(Yue等人,2024)基础上:

(1)过滤掉可以由纯文本语言模型回答的问题,(2)增强候选选项以减少基于选项的猜测效果,(3)引入单眼输入设置(如图3所示),其中模型遇到嵌入在截图或照片中的问题。

引入单眼输入设置尤其关键,因为它测试了人的基本认知能力: _视觉和文本信息的无缝集成和切换_。这个设置挑战模型开发真正“同时看到”和“阅读”的能力,这与人类轻松处理文本和图像交织的复杂场景一样。这个能力对于从解释科学图表(Li等人,2024)到导航图形用户界面 的各种任务都是至关重要的。此外,这种方法与用户自然与AI系统互动的方式一致,他们通常会分享截图或照片,而不是仔细地分开文本和图像。

作者的实验结果显示MMMU-Pro在提供多模态模型更严谨评估方面的有效性。作者观察到所有测试模型与原始MMMU基准相比的性能显著下降,降幅范围为16.8%至26.9%。这些结果突显了现有最先进模型在真正多模态理解和推理方面的局限性。此外,作者的分析揭示,虽然Chain of Thought(CoT)(Wei等人,2022)提示通常可以提高性能,但这种优势在不同模型和设置之间有所不同。

值得注意的是,作者发现明确的OCR提示对于大多数模型来说并不会显著影响性能,这表明先进的多元化的模型已经从图像中发展出了强大的文本提取能力。然而,这一结果同时也强调了MMMU-Pro的视觉输入设置所面临的挑战,即简单的OCR是不够的。作者进一步的定性分析表明,当文本嵌入在图像中时,它会显著增加视觉输入的整体复杂性,需要模型不仅识别文本,还需理解其上下文、与视觉元素的关联以及与问题相关的性。这些发现不仅为作者提供了对当前多模态AI能力更准确的评估,同时也强调了需要更为复杂的多元 reasoning能力。

2 MMMU-Pro: A More Robust Version of MMMU

Revisiting the MMMU Benchmark

大型多学科多模态理解与推理(MMMU)基准是一个全面的數據集,旨在評估大學水平的多模態人工智能模型在需要特定學科知識和精確推理的任務上的表現。MMMU 包括 11.5 万個由大學考試,問答和教科書精心 curated 的多模态問題,涵蓋了 6 個核心學科,30個科目和183個子領域。MMMU 中每個問題都是一組多模態圖像文本對,并有 4 個多選項,包括 30 種不同的圖像類型,如圖表、圖像、地圖和化學結構。MMMU 已經迅速成為該領域的標準評估工具,用於在多模態模型發布時評估其能力。同時,作者收到了社區的一些反饋,即純文本 LLM(語言模型)可以正確回答一些問題,無需任何視覺輸入。作者仔細研究了這些問題,並 identifier 出兩個主要問題:

  1. 文本唯獨依賴性: 某些問題相對獨立於對應的圖像。
  2. 捷徑 exploitation: 即使問題需要圖像才能讓人類正確回答,模型也常常能夠找到捷徑或相關性在候選答案中,利用其預先存在的知識(來自預訓練)來得出正確答案。Llama-3-70B 指令(Dubey 等,2024)回答正確的兩個示例在圖4中展示。

Methods

为缓解这些问题并构建一个更健壮的基准,作者实施了一个三步法:

过滤问题:作者首先过滤出只能由纯文本LLM回答的问题。作者选择了四个强大的开源LLM:Llama3-70B-Instruct、Qwen2-72B-Instruct(Yang等人,2024年)、Yi-1.5-34B-Chat 和 Mixtrl-822B-Instruct(gpt-4o)--,并的任务它们在看不到图像的情况下回答MMMU问题。这些模型需要 even

3 Experiments

Experimental Setups

Baseline 模型。为了全面理解 MMMU-Pro 的难度,并为未来的研究提供参考,作者评估了一系列最先进的多模态模型作为 Baseline 模型。这些模型在多模态AI领域代表了不同的训练方法和能力。作者的 Baseline 模型包括:

专有模型: GPT-4o (0513) 和 GPT-4o mini,Claude 3.5 Sonnet,以及 Gemini 1.5 Pro (0801 和 0523 版本)。这些模型代表了多模态AI能力的尖端。

开源模型: 作者评估了一系列开源模型,包括 InternVL2 (8B、40B 和 Llama3-76B 版本),LaVAV (OneVision-7B、OneVision-72B 和各种 NeXT 版本),VLA-1.5-40B,MiniCPM-V2.6,Phi-3.5-Vision,和 Idefics3-8B-Llama3。这些模型展示了公开可用的多模态AI系统的当前状态。作者在三个不同的设置上评估这些模型:1) 标准设置(通常有4个选项);2) 带增强选项的标准设置(通常有10个选项);3) 仅输入视觉模型的设置。

MMMU-Pro 的总体性能评分是其设置(2)和(3)的得分平均值。作者包括了(1)设置,仅用于比较目的,突出 MMMU-Pro 的增加难度。

作者用两种提示方式对模型进行评估(如附录A所示),并在总体结果中报告较高的分数。作者还在第3.4节中讨论了CoT提示的影响。

Overall Results

作者在表1中呈现了不同模型在MMMU-Pro中的总体结果。

增加候选选项的影响:从4个候选选项增加到10个候选选项()的结果显示,所有模型的性能都有显著下降。GPT-4o(0513)从64.7%下降到54.0%,降低了10.7%。这表明,增加候选选项的有效性是降低模型猜测正确答案的可能性,迫使它们更深入地处理多模态内容。

仅视觉设置的影响:引入仅视觉输入设置进一步挑战了模型,因为将仅视觉结果与10个选项的标准进行比较()时,性能又出现了额外下降。例如,GPT-4o(0513)在仅视觉设置下的准确率降低了4.3%,而LLaVA-OneVision-72B出现了戏剧性的14.0%的下降。这表明,仅视觉设置成功测试了模型将视觉和文本信息集成的能力,突显了在文本未明确提供时的局限性。

对MMMU-Pro的综合影响:总体,表示MMMU-Pro与MMMU(Val)之间的差异,显示所有模型在各方面都出现了显著的下降。例如,像Gemini 1.5 Pro(0801)和Claude 3.5 Sonnet分别出现了18.9%和16.8%的下降,而更激进的下降模型如VILA-1.5-40B出现了26.9%的下降。

这种全面降低的准确率表明,MMMU-Pro成功地减少了模型在原始基准中可以利用的捷径和猜测策略。

Does OCR Help in the Vision Setting?

图6探究了光学字符识别(OCR)提示是否有助于在MMMU-Pro的视觉输入设置中提高性能。OCR提示明确要求模型从图像中写出问题文本(如附录A所示)。在评估的模型中,包含OCR提示并未显著改变性能。这些微小的差异表明,强大且有能力的模型已经在没有明确OCR提示的情况下, proficient 地从图像中提取和理解文本信息。

重要的是,这一结果强调了简单的OCR并不能解决MMMU-Pro视觉输入设置所面临的挑战。当文本嵌入在图像中时,会显著增加视觉输入的整体复杂性。这需要模型不仅能够识别和提取文本,还能够理解其图像内的上下文,与视觉元素之间的关系,以及与所提问题相关性。这种文本和视觉信息的层次处理使得这项任务变得更为艰巨,迫使模型向更复杂的多模态推理发展。### CoT帮助回答MMMU-Pro问题吗?

图7探讨了在MMMU-Pro基准测试中,Chain of Thought(CoT)提示在标准输入和视觉输入设置中增强模型表现的有效性。在两种设置中,引入CoT提示 generally 通常导致 performance 的改善。然而,模型之间的改进程度差异显著。例如,Claude 3.5 Sonnet 在标准设置中出现了显著提高,从42.7%提高到55.0%。相反,像LLaVA-OneVision-72B这样的模型只出现了微小的改进。

有趣的是,作者观察到一些模型的性能出现了显著下降,例如VILA1.5-40B。这种下降可能归因于模型在指令遵循能力方面的挑战。当模型在准确遵循指令上 struggle时,生成CoT解释变得更加困难。此外,这些模型可能会面临保持正确回答格式的挑战,导致“沸腾响应格式”问题。这些发现突显了CoT在增强模型在需要细微推理和将多个信息源集成起来的复杂,真实世界任务中的潜在能力。然而,它们也强调了实施CoT的重要前提是具有 robust 的指令遵循能力。

Qualitative Analysis

在获得关于模型性能的更深入洞察力方面,作者对MMMU-Pro的结果进行了全面的定性分析,重点关注两个关键场景:

1)标准设置中正确答案为四个选项但错误答案为十个选项;

2)在标准十个选项设置中获得成功但在视觉输入设置中失败。作者的分析揭示了几种影响模型性能的关键因素:

增加选项带来的挑战。模型通常会选择最接近的答案,而不是得出明确的结论,导致更多错误选项。例如,在概念问题上,模型难以区分细微不同的选项,揭示其在领域内理解细小区别局限性。

视觉与文本集成挑战。一个主要可能原因是视觉与文本集成显著增加了信息处理的复杂性和处理难度。作者观察到在同时处理视觉和文本信息时,模型更容易出现虚构和错误推理链。如图9所示的一个例子。另外,复杂的视觉输入或独特的布局也可能扰乱逻辑判断并增加认知负荷。文本与图像的快速转换可能导致处理偏见。

这些观察突出了MMMU-Pro在揭示当前多模态模型局限性方面的有效性,尤其是在处理增加复杂性和集成多样化信息类型方面。它们指出了在多模态人工智能系统中需要改进的几个关键领域,包括在多选项场景中增强精确度,更好地集成视觉和文本信息处理以及提高处理复杂、混合格式输入的鲁棒性。

4 Related Work

在多模态AI领域,近年来取得了显著的进步。受到大型语言模型成功的启发,研究行人开发了具有改进的指令遵循能力的大量模型。专有的模型如GPT-4V(OpenAI,2023年),GPT-4o(OpenAI,2024年a),Gemini(团队,2023年),Claude-3.5(Anthropic,2024年)在其他各种视觉语言任务中都表现出了很强的性能。然而,准确评估这些先进多模态模型的能力仍然存在显著的挑战,突显了需要更多强大和全面的基准测试。

多模态模型基准。更先进的多模态预训练和指令调优暴露了如VQA(Antol等人,2015年; Goyal等人,2017年),OK-VQA(Marino等人,2019年)和MSCOCO(Lin等人,2014年)等早期基准的局限性,这些基准已经无法评估LMM的全能力范围。为解决这个问题,最近出现了如LAMM(Yin等人,2023b),LVLM-eHub(Xu等人,2023年),SEED(Li等人,2024年a),MMBench(Liu等人,2023年d),CV-Bench(Tong等人,2024年a),MM-Vet(Yu等人,2024年),Mantis(江等人,2024年),和BLINK(Fu等人,2024年)等新基准,涵盖感知基础知识到幻觉检测(Cui等人,2023年;Liu等人,2023年a)的各个方面。然而,现有的基准往往在评估专家 Level 的域知识和新复杂的推理时存在局限性。虽然MMMU(Yue等人,2024年)通过纳入多模态、大学程度问题取得了进步,但仍允许仅用文本的模型找到捷径(Lu等人,2023年)。为克服这些局限性,作者引入了MMMU-Pro,这是一个专门设计用来更好地评估多模态推理的版本,通过消除只可填写的文本问题,扩大候选答案,并引入了镜像真实世界的仅使用视觉输入设置,其中文本和图像 naturally intertwined。

5 Conclusion

MMMU-Pro 提出了与其前身 MMMU 相比更为强大的多模态理解和推理基准。作者的结果表明,与当前最先进的多模态模型相比,MMMU-Pro 在所有测试系统中都显示出性能明显的下降。MMMU-Pro 开辟了未来研究的重要方向:

1)开发在所有 MMMU-Pro 设置上性能一致的模型,尤其是在弥合标准输入和仅视觉输入之间的差距。

2)提高视觉文本集成能力,更有效地处理复杂的混合格式输入。

3)探索高级推理技术,以解决 MMMU-Pro 问题的日益增加的复杂性。

参考

[1].MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-09-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC 先锋科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
ICML 2025 Spotlight | 多模态大模型暴露短板?EMMA基准深度揭秘多模态推理能力
「三个点电荷 + Q、-2Q 和 + 3Q 等距放置,哪个向量最能描述作用在 + Q 电荷上的净电力方向?」
机器之心
2025/05/21
1560
ICML 2025 Spotlight | 多模态大模型暴露短板?EMMA基准深度揭秘多模态推理能力
字节提出 LLaVA-OneVision :首个突破多模态模型性能瓶颈的开源大型模型 !
人工智能的核心愿望之一就是构建具有大规模视觉语言模型的通用助手[67]。LLaVA-OneVision是一个开源模型,致力于推进构建具有大规模视觉语言助手的(LLaVA)[83]研究,该助手可以适应各种指令,在野外完成各种计算机视觉任务。作为一种既省钱又高效的做法,它通常通过连接视觉编码器与大规模语言模型(LLM)来实现。
AIGC 先锋科技
2024/08/14
1.5K0
字节提出 LLaVA-OneVision :首个突破多模态模型性能瓶颈的开源大型模型 !
从文本到图像:AutoBench-V利用LVLMs实现高效视觉问答评估 !
大型语言模型的繁荣为各种下游应用带来了显著的进步。随着LLM能力的增长,研究行人开始探索将视觉信息理解能力整合到LLM中,催生了大型视觉语言模型的。这些模型在广泛的成对图像-文本数据集上进行训练,使他们能够通过有效地整合视觉和文本信息进行复杂的多模态推理。
AIGC 先锋科技
2024/11/29
1370
从文本到图像:AutoBench-V利用LVLMs实现高效视觉问答评估  !
OpenAI 2024 Spring推出 GPT-4o,这是OpenAI的新旗舰模型,可以实时对音频、视觉和文本进行推理
OpenAI 2024 Spring推出 GPT-4o,这是OpenAI的新旗舰模型,可以实时对音频、视觉和文本进行推理。
小小纽扣
2024/05/14
2530
Transformer作者创立独角兽推出超强多模态LLM,性能超Gemini Pro,推理能力惊人!
这家由两位从谷歌出走的Transformer论文作者创立的Adept AI,目标是开发一个提升打工人工作效率的AI智能体。
新智元
2024/02/26
1560
Transformer作者创立独角兽推出超强多模态LLM,性能超Gemini Pro,推理能力惊人!
超越低秩自适应,从LoRA到Neat,利用轻量级神经网络优化预训练模型 !
预训练模型,在广泛和多样的一般领域语料库上进行训练,具有卓越的泛化能力,受益于一系列基本任务,如自然语言理解[Devlin,2018,Liu,2019],自然语言生成,以及图像分类[Dosovitskiy等人,2020a]。为了将预训练模型适应到特定的下游任务,通常采用微调。然而,由于预训练模型中参数数量庞大,完全微调需要大量的计算资源和产生大量的内存开销[Qin等人,2024]。
AIGC 先锋科技
2024/11/26
2360
超越低秩自适应,从LoRA到Neat,利用轻量级神经网络优化预训练模型 !
14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?
2023-2024年,以 GPT-4V、Gemini、Claude、LLaVA 为代表的多模态大模型(Multimodal LLMs)已经在文本和图像等多模态内容处理方面表现出了空前的能力,成为技术新浪潮。
机器之心
2024/05/14
2320
14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?
腾讯微信团队 & 上交通 & 南大 揭秘模型汤,构建与优化,视觉-语言模型的强基准与有效改进策略研究 !
另外,作者提出的这些策略具有高效、相对轻量级,使社区可以轻松地采用它们为自己的模型。
未来先知
2025/01/07
1590
腾讯微信团队 & 上交通 & 南大 揭秘模型汤,构建与优化,视觉-语言模型的强基准与有效改进策略研究 !
Kimi 1.5解读:国产AI大模型的创新突破与多模态推理能力(内含论文地址)
近期,月之暗面科技有限公司发布了全新的Kimi 1.5多模态思考模型,引发了AI领域的广泛关注。Kimi 1.5不仅在性能上达到了全球领先水平,还首次公开了详细的技术报告,展示了其在多模态推理和强化学习方面的创新技术。本文将全面解析Kimi 1.5的核心技术创新、多模态推理能力的具体应用领域,以及其在多个基准测试中的卓越表现。
码事漫谈
2025/01/24
5990
Kimi 1.5解读:国产AI大模型的创新突破与多模态推理能力(内含论文地址)
Cosmos-Reason1模型:借助层次化与二维本体实现物理AI推理,经四阶段训练及评估展现显著性能提升 !
物理AI系统需要在物理世界中感知、理解和执行复杂的动作。本文介绍了Cosmos-Reason1模型,该模型能够通过长期推理过程理解物理世界,并以自然语言生成适当的具身决策(例如,下一步行动)。
未来先知
2025/04/18
1550
Cosmos-Reason1模型:借助层次化与二维本体实现物理AI推理,经四阶段训练及评估展现显著性能提升 !
语言模型中的多模态链式推理
本文主要对2023一篇论文《Multimodal Chain-of-Thought Reasoning in Language Models》主要内容进行介绍。
Srlua
2024/12/01
3990
语言模型中的多模态链式推理
李飞飞谢赛宁:多模态LLM「空间大脑」觉醒,惊现世界模型雏形!
更震撼的是,MLLM的空间推理能力虽然仍是瓶颈,但这些模型中,已经出现了局部世界模型和空间意识的迹象!
新智元
2025/02/15
1980
李飞飞谢赛宁:多模态LLM「空间大脑」觉醒,惊现世界模型雏形!
集成500+多模态现实任务!全新MEGA-Bench评测套件:CoT对开源模型反而有害?
随着人工智能技术的进步,多模态大模型正逐渐应用于多个领域,极大地提升了机器在视觉、文本等多种信息模式下的理解和生成能力。这些模型不仅用于对话、图片标注、视频分析等较常见的任务,还被广泛应用在复杂场景中,如程序编写、医疗影像诊断、自动驾驶、虚拟助手中的多模态交互,甚至用于游戏策略分析与操作应用程序。
新智元
2025/02/14
1620
集成500+多模态现实任务!全新MEGA-Bench评测套件:CoT对开源模型反而有害?
中科大 & 腾讯微信提出 EE-MLLM,一种数据高效和计算高效的多模大型语言模型!
近年来,由于在各种自然语言任务上的惊人表现,大型语言模型(LLM)受到了广泛关注。然而,实际场景往往涉及不仅仅是语言模态,因此将LLM扩展到多模态LLM至关重要。拓展的关键在于进行模态对齐,即学习将剩余模态以相同语义映射到预训练LLM特征空间的对应语言模态。
AIGC 先锋科技
2024/08/30
3050
中科大 & 腾讯微信提出 EE-MLLM,一种数据高效和计算高效的多模大型语言模型!
VLm2Vec:基于 MMEB 训练,通用多模态嵌入模型的崛起 !
嵌入模型对于实现各种下游任务如语义相似度、信息检索和聚类等至关重要。近年来,开发通用文本嵌入模型以实现跨任务泛化(例如MTEB)引起了广泛关注。
未来先知
2025/01/10
6180
VLm2Vec:基于 MMEB 训练,通用多模态嵌入模型的崛起 !
LlavaGuard与GPT-4o mini:ShieldGemma 2的4B参数模型与对抗性数据生成技术 !
视觉语言模型(VLMs)近年来取得了快速进展,在理解和生成视觉内容方面展现出令人印象深刻的能力(Achiam等人,2023;Dubey等人,2024;Gemini团队等人,2023;Li等人,2023)。这些模型提供了广泛的功能,包括图像描述生成、视觉问答(VQA)、视觉对话、图像编辑、图像生成等。此类进展的例子包括:
未来先知
2025/06/09
780
LlavaGuard与GPT-4o mini:ShieldGemma 2的4B参数模型与对抗性数据生成技术 !
手机上的 GPT-4V 级多模态大型语言模型!
随着多模态大型语言模型(MLLM)的快速发展,作者的理解、推理和交互能力在多个模态下有了显著提升。这不仅从根本上改变了AI研究和发展的新格局,而且为向下一个AI里程碑迈进提供了一扇诱人的窗户。然而,当前的MLLM在实际应用中仍存在很大的局限性。其中一个最突出的挑战是,目前大多数MLLM参数数量庞大,计算负担重,导致大多数MLLM只能部署在高性能云服务器上,从而产生大量的能源消耗和碳排放。这一限制极大地限制了潜在的应用范围,如在移动设备、敏感能源场景、没有稳定网络连接的离线场景以及个人和工业用户的隐私/安全保护场景等。
AIGC 先锋科技
2024/08/19
1950
手机上的 GPT-4V  级多模态大型语言模型!
每周AI论文速递(250407-250411)
虽然大型视觉语言模型 (VLMs) 具备卓越性能,但其计算资源需求过高,限制了这类模型在移动和边缘设备上的部署。传统小型 VLMs 通常沿用大型模型的设计方案(例如复杂的图像 Token 化处理),导致 GPU 内存利用率低下,难以满足终端设备的实际应用需求。
叶子的技术碎碎念
2025/04/13
1260
每周AI论文速递(250407-250411)
MLLM首篇综述 | 一文全览多模态大模型的前世、今生和未来
近年来,大型语言模型取得了显著进展。通过扩大数据大小和模型大小,这些LLM提高了惊人的涌现能力,通常包括上下文学习(ICL)、指令跟随和思想链(CoT)。尽管LLM在大多数自然语言处理(NLP)任务中表现出了令人惊讶的Zero/Few-Shot推理性能,但它们天生对视觉“视而不见”,因为它们只能理解离散文本。
集智书童公众号
2023/09/04
13.6K0
MLLM首篇综述 | 一文全览多模态大模型的前世、今生和未来
【论文解读】多模态大模型综述
多模态大语言模型(MLLM)是近年来一个新兴的研究热点,它利用强大的大语言模型(LLM)作为大脑进行多模态研究。MLLM令人惊讶的涌现能力,比如基于图像写故事和无ocr的数学推理,在传统方法中是罕见的,这表明了一条通往人工通用智能的潜在道路。本文旨在对MLLM的最新研究进展进行跟踪和总结。首先,论文提出了MLLM的公式,并描述了它的相关概念。然后,论文讨论了关键的技术和应用,包括多模态指令调整(M-IT)、多模态上下文学习(M-ICL)、多模态思维链(M-CoT)和LLM辅助视觉推理(LAVR)。最后,论文讨论了现有的挑战,并指出了很有前景的研究方向。鉴于MLLM的时代才刚刚开始,作者将继续更新这项调查,并希望它能激发更多的研究。
合合技术团队
2024/03/12
6.6K0
【论文解读】多模态大模型综述
推荐阅读
ICML 2025 Spotlight | 多模态大模型暴露短板?EMMA基准深度揭秘多模态推理能力
1560
字节提出 LLaVA-OneVision :首个突破多模态模型性能瓶颈的开源大型模型 !
1.5K0
从文本到图像:AutoBench-V利用LVLMs实现高效视觉问答评估 !
1370
OpenAI 2024 Spring推出 GPT-4o,这是OpenAI的新旗舰模型,可以实时对音频、视觉和文本进行推理
2530
Transformer作者创立独角兽推出超强多模态LLM,性能超Gemini Pro,推理能力惊人!
1560
超越低秩自适应,从LoRA到Neat,利用轻量级神经网络优化预训练模型 !
2360
14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?
2320
腾讯微信团队 & 上交通 & 南大 揭秘模型汤,构建与优化,视觉-语言模型的强基准与有效改进策略研究 !
1590
Kimi 1.5解读:国产AI大模型的创新突破与多模态推理能力(内含论文地址)
5990
Cosmos-Reason1模型:借助层次化与二维本体实现物理AI推理,经四阶段训练及评估展现显著性能提升 !
1550
语言模型中的多模态链式推理
3990
李飞飞谢赛宁:多模态LLM「空间大脑」觉醒,惊现世界模型雏形!
1980
集成500+多模态现实任务!全新MEGA-Bench评测套件:CoT对开源模型反而有害?
1620
中科大 & 腾讯微信提出 EE-MLLM,一种数据高效和计算高效的多模大型语言模型!
3050
VLm2Vec:基于 MMEB 训练,通用多模态嵌入模型的崛起 !
6180
LlavaGuard与GPT-4o mini:ShieldGemma 2的4B参数模型与对抗性数据生成技术 !
780
手机上的 GPT-4V 级多模态大型语言模型!
1950
每周AI论文速递(250407-250411)
1260
MLLM首篇综述 | 一文全览多模态大模型的前世、今生和未来
13.6K0
【论文解读】多模态大模型综述
6.6K0
相关推荐
ICML 2025 Spotlight | 多模态大模型暴露短板?EMMA基准深度揭秘多模态推理能力
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档