首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >2025多模态好发论文的方向!

2025多模态好发论文的方向!

作者头像
Ai学习的老章
发布2025-06-09 15:52:22
发布2025-06-09 15:52:22
6240
举报

作为AI领域的大势所趋,多模态可谓是火的一塌糊涂,在各大顶会都是霸榜的存在!

关于它的研究,近来也发生了诸多变化:跨界缝合成为新风向,比如用多模态模型分析财报文本+管理层表情+市场指标预测企业价值;研究视角也从静态分析,走向动态推理;模型的可解释性、结合垂直领域开发专属大模型等也成为重点!

为让大家能够紧跟领域前沿,早点发出自己的顶会,我给大家梳理了目前还好出创新点的7大方向:多模态大模型、多模态预训练、多模态生成、多模态感知、多模态推理、多模态数据高效学习、多模态可解释。每个方向还给大家准备了代表性论文、最新论文和源码,共100篇!

图片
图片
1.多模态大模型
论文:Harnessing Multimodal Large Language Models for Multimodal Sequential  Recommendation
内容

该论文提出了一种名为MLLM-MSR的模型,旨在利用多模态大语言模型(MLLMs)来增强多模态序列推荐系统,介绍了大语言模型(LLMs)在推荐系统中的应用进展,并指出了现有研究主要集中在将用户行为日志转换为文本提示以利用LLMs进行推荐任务。

图片
图片
2.多模态预训练
论文:Parameter-Inverted Image Pyramid Networks for  Visual Perception and Multimodal Understanding
内容

该论文介绍了一种名为PIIP的新型网络架构,旨在提高计算机视觉任务中多尺度特征提取的效率,通过使用不同参数规模的预训练模型来处理不同分辨率的图像,其中高分辨率图像由参数较少的网络分支处理,以平衡计算成本和性能。

图片
图片
3.多模态生成
论文:GRAPHGPT-O: Synergistic Multimodal Comprehension and Generation on  Graphs CVPR25
内容

该论文提出了GRAPHGPT-O,这是一个针对多模态属性图(MMAGs)的多模态大型语言模型(MLLMs),用于理解和生成图中的文本和图像内容。该模型通过个性化PageRank采样方法提取相关子图信息,解决了图规模爆炸问题。

图片
图片
4.多模态数据高效学习
论文:Multimodal Task Vectors Enable Many-Shot  Multimodal In-Context Learning
内容

该论文提出了一种名为MTV的方法,旨在解决多模态领域中大型多模态模型(LMMs)在多示例上下文学习中的限制问题,通过在LMM的注意力头中压缩多示例上下文为紧凑的隐式表示,从而克服了这一限制。

图片
图片
5.多模态可解释
论文:SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context Misinformation Detection
内容

该论文介绍了一种名为SNIFFER的新型多模态大型语言模型,专门用于检测和解释“情境外”虚假信息。SNIFFER通过两阶段指令调优在InstructBLIP基础上进行优化,通过检索和工具使用增强外部知识,不仅检测文本与图像之间的一致性,还利用外部知识进行上下文验证。

图片
图片
6.多模态感知
论文:Correlation-Decoupled Knowledge Distillation for  Multimodal Sentiment Analysis with Incomplete Modalities
内容

本文提出了一种名为CorrKD的框架,用于处理多模态情感分析(MSA)任务中模态不完整的情况。该框架通过样本级对比蒸馏机制、类别引导的原型蒸馏机制和响应解耦的一致性蒸馏策略,从教师网络向学生网络传递包含跨样本相关性的全面知识,以重建缺失的语义信息。

图片
图片
7.多模态推理
论文:Mind with Eyes: from Language Reasoning to  Multimodal Reasoning
内容

本文提供了一个关于多模态推理方法的系统性综述,将这些方法分为两个层次:以语言为中心的多模态推理和协作式多模态推理,分析了这些方法的技术演变,讨论了其固有挑战,并介绍了评估多模态推理性能的关键基准任务和评估指标。

图片
图片
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与统计学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.多模态大模型
    • 论文:Harnessing Multimodal Large Language Models for Multimodal Sequential  Recommendation
    • 内容
  • 2.多模态预训练
    • 论文:Parameter-Inverted Image Pyramid Networks for  Visual Perception and Multimodal Understanding
    • 内容
  • 3.多模态生成
    • 论文:GRAPHGPT-O: Synergistic Multimodal Comprehension and Generation on  Graphs CVPR25
    • 内容
  • 4.多模态数据高效学习
    • 论文:Multimodal Task Vectors Enable Many-Shot  Multimodal In-Context Learning
    • 内容
  • 5.多模态可解释
    • 论文:SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context Misinformation Detection
    • 内容
  • 6.多模态感知
    • 论文:Correlation-Decoupled Knowledge Distillation for  Multimodal Sentiment Analysis with Incomplete Modalities
    • 内容
  • 7.多模态推理
    • 论文:Mind with Eyes: from Language Reasoning to  Multimodal Reasoning
    • 内容
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档