Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >37项SOTA!全模态预训练范式MiCo:理解任何模态并学习通用表示|港中文&中科院

37项SOTA!全模态预训练范式MiCo:理解任何模态并学习通用表示|港中文&中科院

作者头像
量子位
发布于 2024-06-17 06:30:23
发布于 2024-06-17 06:30:23
4820
举报
文章被收录于专栏:量子位量子位
MiCo团队 投稿 量子位 | 公众号 QbitAI

GPT-4o掀起一股全模态(Omni-modal)热潮,去年的热词多模态仿佛已经不够看了。

要构建全模态智能,意味着能够理解任何模态并学习通用表示 (Universal Representations)。

现在,港中文、中科院等提出了一种大规模的全模态预训练范式,称为多模态上下文MiCo(Multimodal Context),它可以在预训练过程中引入更多的模态,数据量,模型参数。

借助 MiCo,团队预训练的模型在多模态学习中表现出极为令人印象深刻的性能,在目前主流的三大类任务上的评估结果显示出:

  • 10种不同模态的单模态感知基准。
  • 25种跨模态理解任务,包括检索、问答、描述。
  • 18种多模态大型语言模型基准,MiCo取得了37项最强性能的记录。

大规模全模态预训练

在AI的发展历程中, 大规模的预训练已经逐渐成为一种非常有前景的途径来实现通用智能(譬如大规模训练的GPT-4o, LLaMA, Stable Diffusion)。

其中图文对比学习是社区最有影响力的预训练方法之一,比如,CLIP构建起了数百万的图文数据对来实现跨模态的对比学习。

研究者将这样的对比学习范式推广到了更多的数据模态上(音频,点云)同时也实现了更深入的语义理解(LLaVA, VideoChat)。

但是在这多模态与AIGC的时代里,越来越多的数据模态(比如,音频,3D内容等)被广泛使用时,仅限于图文预训练的基础模型带来了包括多模态错位、误解、幻觉和偏见放大等问题,这些难题都阻碍了连贯的多模态理解(coherent multimodal understanding)。

因此,团队希望提出一种能适用于全模态(不局限于仅图文音视频3D内容)的大规模预训练方法,如图所示,团队将视频与相配对的音频、文字描述、深度还有法线进行联合预训练。

如何设计全模态预训练中的神经网络结构?

参考人脑中多模态认知的过程,如下图所示,根据理查德·梅耶的多媒体学习认知理论(Richard E Mayer. Multimedia learning. In Psychology of learning and motivation, volume 41,305 pages 85–139. Elsevier, 2002.),人脑对耳朵和眼睛的感知内容(图/文/视频/音频/3D)有两个不同的通道来处理他们的感觉记忆

感觉记忆通过文字将这些多模态信号与先验知识整合在一起,将新的多媒体信息转化为长期记忆。

由此团队能推断:1)大脑中的多媒体信号共享感知通道,2)文字在大脑中充当推理接口。

受此启发,团队将不同的模态分为两类:“知识模态”“接口模态”

知识模态主要来自原始传感器,以不同的形式贡献知识。例如,图像和深度图提供视觉知识,而音频和视频提供听觉和时空知识。人类语言模态本质上更为抽象,自然地作为了接口模态,促进大脑学习、推理和知识的协调。

为此,团队设计了一个全模态学习架构(详细严谨的结构设计见文3.2),如上图 (b) 所示,它有两个不同的分支:一个用于知识模态,一个用于接口模态,即自然语言。知识和界面模态通过一种新颖的生成推理方法进行对齐(见方法3.4)。

大规模的全模态预训练算法:多模态上下文与多模态尺度定律(Scaling Law)

“上下文”这一概念在本文指的是在注意力机制为序列中的每个标记分配一个唯一向量来强化了位置之间的潜在关联。

不同的模态(例如,文本、图像、音频)提供了互补信息,因此学习多模态的上下文可以更全面、细致地理解数据,还可以利用每种模态的优势,引导模型理解不同类型信息之间的交互。因此,团队寻求构建跨越不同模态的上下文关系,使得模态之间能够相互增强(见下图)并将学习能力扩展到全模态。

多模态配对数据中的多模态上下文

首先团队构建了多模态配对数据的数据集 (图像,深度,法线,图像的配对文字,音频,音频配对文字,视频,视频配对文字)。

然后使用一个全模态编码器(ViT) 提取多模态特征,然后使用文本编码器提取文本特征。通过自上而下的设计构建多模态上下文关系:

  1. 对于整个多模态Embeddings,它们共享一套位置编码,以构建跨越不同模态的融合上下文关系。 2.然后,对于每个特定模态的上下文,它们通过不同的模态标记来指示模态类别。
  2. 在同一模态上下文中,团队使用单独的上下文编码构建单一模态上下文关系(详见原文)上下文编码取决于特定模态的样本长度。

同时,不同模态的配对文本内容可以简单的拼接起来,其位置编码同样是共享的:

多数据集中的多模态上下文:图-文/音频-文字/视频-文字等

团队提出的范式还可以利用现有的大规模文本-图像、文本-音频和文本-视频数据集,共同预训练模型来学习通用表征。给定数据集 图文/音频-文字/视频-文字数据集,每对数据拥有局部的简单的上下文,例如,图文数据对在CLIP中仅对应一个简单的上下文,这可能会限制模型学习表征(工程中增大Batch Size来缓解)。团队提出通过跨数据集的联合采样,使用采样编码(Sampling Embeddings) 标记同一个数据集的配对数据,再层次化地在多数据之间构建多模态上下文。

通过这种方式,团队成功地结合了现有的多种跨模态数据集,通过构建更通用和复杂的多模态上下文(见上述公式)来预训练模型,从而实现更好的泛化学习能力、更完善的模态扩展性和数据扩展性来超越现有的预训练方法。

实验结果

10种单模态感知基准: 7项SOTA

25种跨模态检索、问答、描述基准: 20项SOTA

18种多模态大模型问答基准:10项SOTA

结论‍‍‍

在本文中,团队提出了一个新的大规模预训练框架 MiCo,用于训练具有全模态理解能力的基础模型。通过大规模的实验,团队得出结论,全模态学习的关键是模拟人脑的多模态认知过程。在 MiCo中,团队使用RGB图像、深度和法线图来模拟人类视觉认知的基本视觉感知能力、距离空间感知和几何感知。

此外,文字描述、音频和视频提供先验知识、听觉感知,时空感知能力,有效地提升了模型的对于多模态信息的理解能力,在未来的工作中,团队计划通过结合其他更多模态来继续增强全模态联合预训练,包括光流、IMU 数据和事件文件等。

团队相信MiCo中多模态上下文预训练算法是人工智能模拟人脑多模态认知的重要尝试,团队期待它能够启发未来的工作,开发更强大的全模态基础模型。

项目网站:https://invictus717.github.io/MiCo/ 开源代码:https://github.com/invictus717/MiCo Hugging Face模型:https://huggingface.co/Yiyuan/MiCo-ViT-g-14-omnimodal-300k-b64K

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
搞多模态不了解最新进展?中科院自动化所撰文首个视觉-语言预训练综述
选自arXiv 作者:Feilong Chen等 机器之心编译 编辑:陈萍 一文了解视觉 - 语言预训练最新进展和新领域。 让机器做出与人类相似的反应一直是 AI 研究不懈追求的目标。为了让机器具有感知和思考的能力,研究人员进行了一系列相关研究,如人脸识别、阅读理解和人机对话,通过这些任务训练和评估机器在特定方面的智能。一般来讲,领域专家通过手工构建标准数据集,然后在这些数据集上训练和评估相关模型。然而,由于相关技术的限制,训练模型往往需要大量的标注数据,以获得更好、更强大的模型。 基于 Transfor
机器之心
2022/03/28
4690
智源Emu开源!超越DeepMind,刷新8项SOTA,首个「多模态-to-多模态」全能高手
首个打通从多模态输入到多模态输出的「全能高手」,统一多模态预训练模型Emu开源,来自智源研究院「悟道·视界」研究团队。
新智元
2023/08/07
4070
智源Emu开源!超越DeepMind,刷新8项SOTA,首个「多模态-to-多模态」全能高手
用CLIP增强视频语言的理解,在VALUE榜单上SOTA!
在本文中,作者总结了针对视频和语言理解评估(VALUE)挑战的方法。作者提出了一种CLIP增强方法 ,将图像文本预训练知识融入到下游视频文本任务中。结合其他几项改进的设计,本文的方法在VALUE基准上的Meta Ave得分相比于之前的SOTA水平提高了2.4%。
CV君
2021/12/24
7420
用CLIP增强视频语言的理解,在VALUE榜单上SOTA!
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
多模态模型结合了多种数据类型,如图像、文本、音频等。传统的语言模型(LLMs)主要针对文本数据进行训练和应用,但在理解其他数据类型方面存在局限性。纯文本语言模型,如GPT-3、BERT和RoBERTa,在文本生成和编码等任务上表现出色,但在理解和处理其他数据类型方面存在不足。
集智书童公众号
2023/11/29
1.7K0
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
华为诺亚开源首个亿级中文多模态数据集-悟空,填补中文NLP社区一大空白
选自arXiv作者:Jiaxi Gu等 机器之心编译编辑:Juniper 华为诺亚方舟实验室的研究者提出了一个大规模的中文的跨模态数据库 ——「悟空」,并在此基础上对不同的多模态预训练模型进行基准测试,有助于中文的视觉语言预训练算法开发和发展。 在大数据上预训练大规模模型,对下游任务进行微调,已经成为人工智能系统的新兴范式。BERT 和 GPT 等模型在 NLP 社区中越来越受欢迎,因为它们对广泛的下游任务甚至零样本学习任务具有很高的可迁移性,从而产生了 SOTA 性能。最近的工作,如 CLIP、ALIGN
机器之心
2022/03/04
9380
论文解读 - 统一的多模态理解和生成模型综述(下)
大规模、高质量且多样化的训练数据是构建强大的统一多模态理解和生成模型的基础。这些模型通常需要在大量图像-文本对上进行预训练,以学习跨模态的相关性和表示。需要注意的是,在大规模多模态数据上进行训练之前,这些模型往往使用从大型自然语言语料库中训练得到的参数初始化,例如Common Crawl 1、RedPajama、WebText等。由于本综述主要关注多模态模型,因此本节讨论将不包括纯文本数据。根据主要用途和模态特征,常见的预训练多模态数据集可以大致分为:多模态理解数据集、文本到图像生成数据集、图像编辑数据集、交织图像-文本数据集以及其他基于文本和图像输入的图像生成数据集。本节将详细阐述表3中列出的每个类别中的代表性数据集,重点关注2020年以后发布的数据集。
合合技术团队
2025/05/30
1650
论文解读 - 统一的多模态理解和生成模型综述(下)
文档智能理解:通用文档预训练模型与数据集
预训练模型把迁移学习很好地用起来了,让我们感到眼前一亮。这和小孩子读书一样,一开始语文、数学、化学都学,读书、网上游戏等,在脑子里积攒了很多。当他学习计算机时,实际上把他以前学到的所有知识都带进去了。如果他以前没上过中学,没上过小学,突然学计算机就不懂这里有什么道理。这和我们预训练模型一样,预训练模型就意味着把人类的语言知识,先学了一个东西,然后再代入到某个具体任务,就顺手了,就是这么一个简单的道理。
机器学习AI算法工程
2020/12/15
1.8K0
中科院发布多模态ChatGPT,图片、语言、视频都可以Chat?中文多模态大模型力作
大数据文摘授权转载自夕小瑶科技说 作者:小戏、ZenMoore 在 GPT-4 的发布报道上,GPT-4 的多模态能力让人印象深刻,它可以理解图片内容给出图片描述,甚至能在图片内容的基础上理解其中的隐喻或推断下一时刻的发展。无疑,面向所谓的 AGI(通用人工智能),多模态显然是必经之路。但是遗憾 GPT-4 的图片输入能力尚且没有完全放开,而即使放开我们对 GPT-4 的模型结构和训练方法也知之甚少。 而最近,中科院自动化所带来了一项有趣的工作,推出了多模态的大规模语言模型 X-LLM,同时支持图片、语
大数据文摘
2023/05/22
8970
中科院发布多模态ChatGPT,图片、语言、视频都可以Chat?中文多模态大模型力作
更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」
当前学界和工业界都对多模态大模型研究热情高涨。去年,谷歌的 Deepmind 发布了多模态视觉语言模型 Flamingo ,它使用单一视觉语言模型处理多项任务,在多模态大模型领域保持较高热度。Flamingo 具备强大的多模态上下文少样本学习能力。
机器之心
2023/08/08
6340
更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」
人大金琴团队最新综述:基于 Transformer 的「视频-语言」预训练
作者丨熊宇轩 受到基于 Transformer 的预训练方法在自然语言和计算机视觉任务上取得的成功的启发,研究人员已经开始将 Transformer 用于视频处理。本文旨在全面概述基于 Transformer 的视频-语言学习预训练方法。 本文首先简要介绍了 Transformer 的相关背景知识(包括注意力机制、位置编码等)。本文从代理任务、下游任务和常用视频数据集三个方面介绍了典型的「视频-语言」处理的「预训练-微调」范式。接下来,本文将 Transformer 模型分为单流和多流结构,重点介绍了它们的
AI科技评论
2022/03/03
8640
WWW`22丨中科院信工所提出:面向多场景低资源加密流量分类的加密流量预训练技术
1 研究简介 加密流量分类在网络负载管理和安全威胁检测中逐渐成为自动识别目标应用、服务和协议的主要方式。现有的模型通常使用大规模带有准确标注的会话样本来提取流量深层的可识别特征,比如证书链、包长序列和方向序列。但是在网络环境(例如局域网)中,流量包含的场景多样,这些方法不具备健壮的通用能力来适应不同场景下的迁移,以及在小规模的标注样本下达到预期效果。 在WWW 20222这篇文章中,中科院信工所的研究者提出了一种流量表征模型, ET-BERT,有效学习无标注流量中的隐式关系,从而提升不同场景下流量分类的效
AI科技评论
2022/03/17
1.9K0
AAAI 2023|基于多模态标签聚合的视频检索模型TABLE,多项SOTA
机器之心专栏 QQ 浏览器搜索技术中心、腾讯 PCG ARC Lab 近年来,互联网短小视频内容的爆发式增长,对视频 - 文本检索(Video-Text Retrieval)的能力提出了更高的要求。在 QQ 浏览器搜索中,视频通常包含标题、封面图、视频帧、音频等多种模态信息,因此视频检索模型引入了多模态特征,以刻画 query 与视频在多个模态上的相关程度,并进行综合排序,提升视频搜索结果的整体满意度。此外,QQ 浏览器还能根据用户正在观看的视频内容,推荐用户可能感兴趣的搜索词,推词的挖掘、排序同样需要模型
机器之心
2023/03/29
1.1K0
AAAI 2023|基于多模态标签聚合的视频检索模型TABLE,多项SOTA
清华 & 港中文 & 香港科技 深入探究 LLM, 利用大型语言模型理解视频和动作序列的多模态人类行为!
理解人类行为,如细粒度标注和分析,在以人为中心的多模态智能领域[21, 25, 93]至关重要,并且可以从人机交互和机器人技术到医疗保健和安保的具身智能中受益。
AIGC 先锋科技
2024/07/08
5700
清华 &  港中文 & 香港科技 深入探究 LLM, 利用大型语言模型理解视频和动作序列的多模态人类行为!
北大邹月娴:视觉-语言预训练模型演进及应用
作者丨邹月娴整理 | 维克多 编辑 | 青暮 预训练模型在自然语言处理和计算机视觉领域引起了学术界和工业界的广泛关注。利用大规模无监督数据进行训练的预训练模型有着非常好的泛化性,只需在小规模标注数据上进行微调,就可以在相应任务上有所提高。但相关研究的进展如何?还有哪些问题需要进一步探索? 2021年12月16日,北京大学深圳研究生院党委副书记、教授、博士生导师、北京大学现代信号与数据处理实验室主任邹月娴在中国计算机大会(CNCC 2021)“产业共话:大型预训练模型的商业应用及技术发展方向”论坛上,做了《视
AI科技评论
2022/03/03
7320
用不匹配的图文对也能进行多模态预训练?百度提出统一模态的预训练框架:UNIMO(ACL2021)
本文分享 ACL 2021 论文『UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning』,由百度提出统一模态的预训练框架《UNIMO》、用不匹配的图文对也能进行多模态预训练?
CV君
2022/03/23
2.2K0
用不匹配的图文对也能进行多模态预训练?百度提出统一模态的预训练框架:UNIMO(ACL2021)
多模态LLM多到看不过来?先看这26个SOTA模型吧
当前 AI 领域的关注重心正从大型语言模型(LLM)向多模态转移,于是乎,让 LLM 具备多模态能力的多模态大型语言模型(MM-LLM)就成了一个备受关注的研究主题。
机器之心
2024/02/06
4680
多模态LLM多到看不过来?先看这26个SOTA模型吧
视频预训练界的HERO!微软提出视频-语言全表示预训练模型HERO,代码已开源!
在本文中,作者提出了HERO,一个新的大规模视频+语言综合表示学习框架。HERO以层次结构编码多模态输入,其中视频帧的局部上下文 通过多模态融合被跨模态Transformer(Cross-modal Transformer) 捕获,而全局视频上下文 由时间Transformer(Temporal Transformer) 捕获。
CV君
2021/11/18
2.6K0
视频预训练界的HERO!微软提出视频-语言全表示预训练模型HERO,代码已开源!
多模态视频理解模型新标杆!微软黄学东团队发布 i-Code
黄学东领衔,微软 Azure 认知服务研究团队重磅发布「视觉-语言-语音」多模态预训练模型 i-Code。在 5 项多模态视频理解任务以及 GLUE NLP 任务上树立了业界新标杆! 编译丨OGAI 编辑丨陈彩娴 人类的智能涉及多个模态:我们整合视觉、语言和声音信号,从而形成对世界全面的认识。然而,目前大多数的预训练方法仅针对一到两种模态设计。 在本文中,我们提出了一种多模态自监督预训练框架「i-Code」,用户可以灵活地将视觉、语音和语言的形式组合成统一的通用的向量表征。在该框架下,我们首先将各个模态的
AI科技评论
2022/05/12
8400
多模态视频理解模型新标杆!微软黄学东团队发布 i-Code
Meta-Transformer 多模态学习的统一框架
Meta-Transformer是一个用于多模态学习的新框架,用来处理和关联来自多种模态的信息,如自然语言、图像、点云、音频、视频、时间序列和表格数据,虽然各种数据之间存在固有的差距,但是Meta-Transformer利用冻结编码器从共享标记空间的输入数据中提取高级语义特征,不需要配对的多模态训练数据。该框架由统一的数据标记器、模式共享编码器和用于各种下游任务的任务头组成。它是在不同模式下使用未配对数据执行统一学习的第一次努力。实验表明,它可以处理从基础感知到实际应用和数据挖掘的广泛任务。
deephub
2023/08/30
8280
Meta-Transformer 多模态学习的统一框架
【综述专栏】最新视觉-语言预训练综述
在科学研究中,从方法论上来讲,都应“先见森林,再见树木”。当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异。对于AI从业者来说,在广袤的知识森林中,系统梳理脉络,才能更好地把握趋势。为此,我们精选国内外优秀的综述文章,开辟“综述专栏”,敬请关注。
马上科普尚尚
2022/04/11
6090
【综述专栏】最新视觉-语言预训练综述
推荐阅读
搞多模态不了解最新进展?中科院自动化所撰文首个视觉-语言预训练综述
4690
智源Emu开源!超越DeepMind,刷新8项SOTA,首个「多模态-to-多模态」全能高手
4070
用CLIP增强视频语言的理解,在VALUE榜单上SOTA!
7420
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
1.7K0
华为诺亚开源首个亿级中文多模态数据集-悟空,填补中文NLP社区一大空白
9380
论文解读 - 统一的多模态理解和生成模型综述(下)
1650
文档智能理解:通用文档预训练模型与数据集
1.8K0
中科院发布多模态ChatGPT,图片、语言、视频都可以Chat?中文多模态大模型力作
8970
更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」
6340
人大金琴团队最新综述:基于 Transformer 的「视频-语言」预训练
8640
WWW`22丨中科院信工所提出:面向多场景低资源加密流量分类的加密流量预训练技术
1.9K0
AAAI 2023|基于多模态标签聚合的视频检索模型TABLE,多项SOTA
1.1K0
清华 & 港中文 & 香港科技 深入探究 LLM, 利用大型语言模型理解视频和动作序列的多模态人类行为!
5700
北大邹月娴:视觉-语言预训练模型演进及应用
7320
用不匹配的图文对也能进行多模态预训练?百度提出统一模态的预训练框架:UNIMO(ACL2021)
2.2K0
多模态LLM多到看不过来?先看这26个SOTA模型吧
4680
视频预训练界的HERO!微软提出视频-语言全表示预训练模型HERO,代码已开源!
2.6K0
多模态视频理解模型新标杆!微软黄学东团队发布 i-Code
8400
Meta-Transformer 多模态学习的统一框架
8280
【综述专栏】最新视觉-语言预训练综述
6090
相关推荐
搞多模态不了解最新进展?中科院自动化所撰文首个视觉-语言预训练综述
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档