Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >AAAI2020 | 自动化所&微信AI:双通道多步推理模型,更好解决视觉对话生成问题

AAAI2020 | 自动化所&微信AI:双通道多步推理模型,更好解决视觉对话生成问题

作者头像
AI科技评论
发布于 2020-02-21 10:08:58
发布于 2020-02-21 10:08:58
8350
举报
文章被收录于专栏:AI科技评论AI科技评论

作者 | 陈飞龙

编辑 | Camel

本文是对中科院自动化所和腾讯微信AI团队共同完成,被 AAAI2020 录用的论文《DMRM: A Dual-channel Multi-hop Reasoning Model for Visual Dialog》进行解读,相关工作已开源。

论文地址:https://arxiv.org/abs/1912.08360 代码地址:https://github.com/phellonchen/DMRM

为解决目前视觉对话系统中视觉语言两个模态之间的多轮指代、推理以及信息对齐等问题,自动化所陈飞龙博士、许家铭副研究员和徐波研究员等人与腾讯一起共建了一种双通道多步推理视觉对话生成模型,使得模型从视觉和语言两个方面丰富问题的语义表示,更好地针对问题生成高质量答复。

研究背景与研究目标

由于自然语言处理计算机视觉技术的快速发展,多模态问题受到了越来越多的关注。视觉对话是一种视觉语言交互任务,需要AI智能体与人类围绕同一个输入图像进行交流。这是一项具有挑战性的任务,要求模型能够充分理解人类当前轮对话的提问,同时有效整合对话历史的语言模态和输入图像的视觉模态,以关注与当前问题相关的语义信息并进行推理,给出高质量答复。研究团队就视觉对话任务提出一种双通道多步推理模型(简称DMRM)。

图1 DMRM模型框架

实验方法

DMRM通过利用双通道推理同步地从对话历史和输入图像中捕获信息,以丰富问题的语义表示。

具体地说,DMRM维护一个跨模态交互的双通道(如图1所示,Track Module负责从视觉方面丰富问题的语义表示,Locate Module负责从对话历史方面丰富问题的语义表示),通过每个通道中的多步推理过程(如图2所示)获得与当前问题和对话历史相关的视觉特征,以及当前问题和输入图像相关的语言特征。此外,团队还设计了一种多模态注意机制,以进一步增强解码器来生成更准确的答复。

图2 多步推理的示意图

团队在视觉对话任务中的解码端引入多模态注意机制,有效地缓解了只利用编码端输出多模态信息融合的局限性,在解码过程中能够较好的进行一些错误纠正及语义丰富。

图3 基于多模态注意的解码器

实验结果

团队在VisDial v0.9和VisDial v1.0两个公开数据集上进行实验。VisDial v0.9包含了83k训练集,40k测试集,每一幅图像对应10轮对话和图像描述。VisDial v1.0包含了123k训练集,2k验证集和8k测试集。

表1和表2给出了不同模型在两个数据集上的实验效果。可以看出,在大多数评价指标上,双通道多步推理视觉对话生成模型DMRM都优于其他模型(其中,MRR、R@k越高越好,Mean越低越好)。

表1 不同模型在VisDial v0.9数据集上的实验结果

表2 不同模型在VisDial v1.0数据集的实验结果

表3显示了双通道多步推理视觉对话生成模型DMRM的消融实验,分析了各个模块对于视觉对话任务效果的影响,可以看出双通道多步推理以及多模态解码器都起到了重要作用。

表3 DMRM的消融实验

图4显示了DMRM模型生成的回答结果,融合了多模态解码器的DMRM模型在准确性和语义丰富性上表现更好。

图4 视觉对话生成结果样例


本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-02-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
一种应用于视觉对话的视觉-文本自适应推理的知识桥图网络
近年来,随着自然语言处理和计算机视觉研究的发展,集成视觉和语言来构建一个综合的人工智能系统得到了广泛的关注,其中包括视觉对话(Visual Dialogue)、图像描述生成(Image Captioning)以及视觉问答(VQA)任务等。
AI科技评论
2020/08/28
9570
一种应用于视觉对话的视觉-文本自适应推理的知识桥图网络
IJCAI 2020 | DAM: 面向视觉对话的高质量回复生成框架
本文介绍的是 IJCAI-2020论文《DAM: Deliberation,Abandon and Memory Networks for Generating Detailed and Non-repetitiveResponses in Visual Dialogue》,该论文由中科院信工所于静老师指导,由来自中科院信工所、北京航空航天大学、阿德莱德大学的作者(蒋萧泽、于静、孙雅静、秦曾昌、朱梓豪、胡玥、吴琦)共同合作完成。
AI科技评论
2020/05/29
8100
IJCAI 2020 | DAM: 面向视觉对话的高质量回复生成框架
AAAI 2020 论文解读:关于生成模型的那些事
机器学习模型的一种分类方式就是将模型分为分类模型和生成模型,GAN 的出现使得生成模型一度大火,GAN 也开始被应用于各个领域,但是生成模型并不只是 GAN。除了 GAN 相关的模型,其他的生成模型也是很多人在研究的方向,AAAI 中收录的 1500 多篇文章中就有 100 多篇直接以「生成」命名的文章。本文对其中一些重要论文进行了解读。
机器之心
2020/02/24
3970
AAAI 2020 论文解读:关于生成模型的那些事
AAAI 2020上的NLP有哪些研究风向?
距离 AAAI 2020开幕还有不到一个月的时间,但有些话、有些文章却需要我们注意。
AI科技评论
2020/02/21
1.7K0
AAAI 2020上的NLP有哪些研究风向?
新范式,自回归大一统!北大提出VARGPT:单一框架实现视觉「理解」与「生成」
多模态大模型在视觉理解和生成领域取得了显著突破。先前的模型在视觉理解和生成方面通常各自为政,而统一处理两者的模型一直是研究的热点。
新智元
2025/02/04
2420
新范式,自回归大一统!北大提出VARGPT:单一框架实现视觉「理解」与「生成」
从文本到图像:Lumina-mGPT 展现卓越的光学真实图像生成能力 !
重要的模型,包括DALL-E 3(Betker等人,2023年)、Stable Diffusion 3(Esser等人,2024年)和SoRA(Brooks等人,2024年),在基于扩散式生成模型的连续潜在图像特征的实时成像和视频生成方面,表现出了优越的性能。相比之下,依靠"下一个 Token 预测"的自回归(AR)生成模型,已经在文本生成领域革命性地改变了 groundbreaking reasoning abilities,例如由 GPT-4(Achiam等人,2023年)和Gemini(团队,2023年)等模型,在离散 Token 表示方面展现出前所未有的推理能力。然而,基于向量化图像特征的 AR 生成模型,在实现光鲜且可控的图像生成方面,与基于扩散的对应模型相比,仍相差甚远。
AIGC 先锋科技
2024/08/19
4510
从文本到图像:Lumina-mGPT 展现卓越的光学真实图像生成能力 !
复旦大学:利用场景图针对图像序列进行故事生成 | AAAI 2020
论文链接: http://www.sdspeople.fudan.edu.cn/zywei/paper/2020/wang-aaai-2020.pdf
AI科技评论
2019/12/24
1.1K0
DAN改进视觉参考分辨率,DRLIH实现图像复刻 | AI一周学术
呜啦啦啦啦啦啦啦大家好,本周的AI Scholar Weekly栏目又和大家见面啦!
大数据文摘
2019/03/18
5330
DAN改进视觉参考分辨率,DRLIH实现图像复刻 | AI一周学术
斯坦福大学 & 亚马逊 AI 探索视觉-语言模型的前沿,当前方法与未来方向的调查!
大型语言模型(LLM)的出现标志着人工智能一个转型时代的开始, Reshape 了整个领域。跨越学术界和工业界的研究实验室正积极参与一场竞争,以推进LLM的能力。然而,一个值得注意的限制已经显现出来——这些模型仅限于处理单一类型的数据,特别是文本。这一限制凸显了在追求完善LLM以跨多个模态无缝运行的过程中一个关键挑战,这标志着在AI领域进一步创新的一个重要方向。
AIGC 先锋科技
2024/07/08
4150
斯坦福大学 & 亚马逊  AI 探索视觉-语言模型的前沿,当前方法与未来方向的调查!
开往视觉对话研究的列车——2018年第一届视觉对话挑战赛
整理 | 姗姗 出品 | 人工智能头条(公众号ID:AI_Thinker) 【人工智能头条导读】在过去的研究中,计算机视觉和自然语言处理两个领域都取得了飞速的发展与成功。虽然他们都有自己的研究方法,技术也已经满足了很多的应用需求,但更多时候是分开发展的,并且从感知觉深入到认知层面的研究还是存在着很多的问题与未知。随着问题的突出、不断涌现的需求与计算能力的飞速发展,理解能力已经成为越来越多的研究和应用中最为关注的问题。 视觉对话,是计算机视觉与自然语言处理两个领域结合的新研究方向,视觉与语言的综合应用。如果”
用户1737318
2018/07/20
1K0
港中文提出LISA大模型:解锁多模态大模型“推理分割”能力
本篇文章分享论文 LISA: Reasoning Segmentation via Large Language Model ,由香港中文大学提出 LISA 大模型,解锁多模态大模型“推理分割”能力。
CV君
2023/08/31
1.2K0
港中文提出LISA大模型:解锁多模态大模型“推理分割”能力
多模态应用之自然语言处理
多模态融合是多模态信息处理的核心问题。本文介绍 NLP 领域关注度较高的多模态应用和相关的数据集。
一点人工一点智能
2022/12/27
1.7K0
多模态应用之自然语言处理
AAAI 2024 | 利用通道模态冗余实现端到端 RGB-D 图像压缩
RGB-D 图像是一种重要的 3D 数据格式。它已被广泛用于 3D 场景重建、突出目标检测、机器人与自主导航、医学影像与健康监测、环境监测等领域。与 RGB 图像不同,深度图像包含有关从视点到场景对象表面的距离的信息,该视点提供了 3D 场景之间的深度信息。因此,RGB-D联合分析方法在计算机视觉任务中很受欢迎。然而,这些方法使用额外的模态,这将带来多余的存储和传输成本。因此,设计一个高效的RGB-D图像压缩方法是一项重要且具有挑战性的工作。
用户1324186
2024/03/26
7340
AAAI 2024 | 利用通道模态冗余实现端到端 RGB-D 图像压缩
每周AI论文速递(240826-240830)
视觉-语言模型 (VLMs) 领域,以图像和文本为输入并输出文本,正处于快速发展阶段,但在数据、架构和训练方法等关键开发环节上尚未形成共识。本文旨在作为构建 VLM 的实践指南。我们首先概述了当前最先进方法的优缺点,探讨了领域内主要挑战,并指出了未充分探索领域的潜在研究方向。随后,我们详细阐述了构建 Idefics3-8B 的过程,该模型在性能上大幅领先于前代 Idefics2-8B,且高效地仅利用开放数据集进行训练,流程简洁明了。这一过程中,我们创建了 Docmatix 数据集,旨在增强文档理解能力,其规模达到了先前数据集的 240 倍。我们同时发布了该模型及其训练所用的数据集。
叶子的技术碎碎念
2025/04/08
1480
每周AI论文速递(240826-240830)
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
多模态模型结合了多种数据类型,如图像、文本、音频等。传统的语言模型(LLMs)主要针对文本数据进行训练和应用,但在理解其他数据类型方面存在局限性。纯文本语言模型,如GPT-3、BERT和RoBERTa,在文本生成和编码等任务上表现出色,但在理解和处理其他数据类型方面存在不足。
集智书童公众号
2023/11/29
1.7K0
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
大规模计算时代:深度生成模型何去何从
人工智能的核心愿望之一是开发算法和技术,使计算机具有合成我们世界上观察到的数据的能力, 比如自然语言,图片等等。
AI科技评论
2020/04/16
9980
AAAI 2020 | 自动化所:基于对抗视觉特征残差的零样本学习方法
本文对中科院自动化所胡占义团队完成,被AAAI-20录用的论文《Zero-Shot Learning from Adversarial FeatureResidual to Compact Visual Feature》进行解读。
AI科技评论
2020/02/13
7770
清华 & MIT & 英伟达联合提出视觉理解与生成相结合的统一基础模型 VILA-U !
近年来,大型语言模型(LLM)在各种语言任务中表现出优越的能力。它们吸引人的特性,如遵循指令、零样本泛化和少样本上下文学习,激励研究行人将它们与视觉模型结合,构建视觉语言模型(VLMs)以应对多模态任务。很多工作 已经投入到了这个领域,在视觉语言理解基准测试上取得了显著的性能提升。在这些工作中,视觉输入通过像CLIP [58]这样的视觉基础模型映射到LLMs的语义空间,通过包括文本图像对齐训练目标来将两种模态联系起来。
AIGC 先锋科技
2024/09/30
3890
清华 & MIT & 英伟达联合提出视觉理解与生成相结合的统一基础模型 VILA-U !
AAAI 2024 | 腾讯优图实验室27篇论文入选,含表格结构识别、异常图像生成、医学图像分割等研究方向
AAAI 2024 (AAAI Conference on Artificial Intelligence) 人工智能国际会议于近日公布论文录用结果,本届会议共收到9862篇份论文投稿,最终录用2342篇论文,录用率23.75%。
小腾资讯君
2024/01/17
2K0
中国人民大学卢志武:ChatGPT对多模态通用生成模型的重要启发
机器之心报道 机器之心编辑部 3 月 21 日,在机器之心举办的 ChatGPT 及大模型技术大会上,中国人民大学高瓴人工智能学院教授、博士生导师卢志武发表了主题演讲《ChatGPT 对多模态通用生成模型的重要启发》。 以下为卢志武教授在机器之心举办的 ChatGPT 及大模型技术大会上的演讲内容,机器之心进行了不改变原意的编辑、整理: 大家好,我是中国人民大学卢志武。我今天报告的题目是《ChatGPT 对多模态通用生成模型的重要启发》,包含四部分内容。 首先,ChatGPT 带给我们一些关于研究范式革
机器之心
2023/04/06
6090
中国人民大学卢志武:ChatGPT对多模态通用生成模型的重要启发
推荐阅读
一种应用于视觉对话的视觉-文本自适应推理的知识桥图网络
9570
IJCAI 2020 | DAM: 面向视觉对话的高质量回复生成框架
8100
AAAI 2020 论文解读:关于生成模型的那些事
3970
AAAI 2020上的NLP有哪些研究风向?
1.7K0
新范式,自回归大一统!北大提出VARGPT:单一框架实现视觉「理解」与「生成」
2420
从文本到图像:Lumina-mGPT 展现卓越的光学真实图像生成能力 !
4510
复旦大学:利用场景图针对图像序列进行故事生成 | AAAI 2020
1.1K0
DAN改进视觉参考分辨率,DRLIH实现图像复刻 | AI一周学术
5330
斯坦福大学 & 亚马逊 AI 探索视觉-语言模型的前沿,当前方法与未来方向的调查!
4150
开往视觉对话研究的列车——2018年第一届视觉对话挑战赛
1K0
港中文提出LISA大模型:解锁多模态大模型“推理分割”能力
1.2K0
多模态应用之自然语言处理
1.7K0
AAAI 2024 | 利用通道模态冗余实现端到端 RGB-D 图像压缩
7340
每周AI论文速递(240826-240830)
1480
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
1.7K0
大规模计算时代:深度生成模型何去何从
9980
AAAI 2020 | 自动化所:基于对抗视觉特征残差的零样本学习方法
7770
清华 & MIT & 英伟达联合提出视觉理解与生成相结合的统一基础模型 VILA-U !
3890
AAAI 2024 | 腾讯优图实验室27篇论文入选,含表格结构识别、异常图像生成、医学图像分割等研究方向
2K0
中国人民大学卢志武:ChatGPT对多模态通用生成模型的重要启发
6090
相关推荐
一种应用于视觉对话的视觉-文本自适应推理的知识桥图网络
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档