智源开源Emu3多模态大模型，视频理解和生成效果表现优异

文章来源：企鹅号 - 晓得智能

10月21日，北京智源人工智能研究院（BAAI）宣布发布了名为Emu3的原生多模态世界模型。

Emu3模型能够在没有依赖扩散模型或组合方法的情况下，仅通过预测下一个token，实现文本、图像和视频三种模态的数据理解和生成。

Emu3模型在图像生成、视频生成以及视觉语言理解等任务上的表现优于现有的多个知名开源模型，如SDXL、LLaVA、OpenSora等。

在图像生成任务中，根据人类偏好的评估结果显示，Emu3模型的表现优于SD-1.5与SDXL模型。

在视觉语言理解任务中，Emu3模型在12项基准测试中的平均得分上超过了LlaVA-1.6版本。

而在视频生成任务中，针对VBench基准测试的成绩表明，Emu3模型的表现优于OpenSora 1.2版本。

Emu3模型提供了一种强大的视觉tokenizer，可以将视频和图像转换为离散的token，这些离散的视觉token能够与文本tokenizer输出的离散token一同输入到模型中。

同时，模型输出的离散token也可以被转换回文本、图像和视频形式，从而为Any-to-Any的任务提供了一种更加统一的研究范式。

在此之前，社区中缺乏这样的技术和模型。

Emu3模型的设计允许直接偏好优化（Direct Preference Optimization，简称DPO）无缝应用于自回归视觉生成任务中，使得模型能够更好地与人类偏好保持一致。

Emu3模型的训练过程分为两个阶段：第一阶段不使用视频数据，文本和图像数据的上下文长度为5,120；第二阶段引入视频数据，并使用131,072的上下文长度。

为了适应视频数据的处理，模型在预训练期间利用了非常长的上下文长度，并且采用了张量并行（TP）、上下文并行（CP）和数据并行（DP）相结合的方法。

Emu3模型在架构方面继承了主流大语言模型（如Llama-2）的设计，主要区别在于扩展了嵌入层以容纳离散的视觉token。

模型使用RMSNorm进行归一化，并采用了GQA注意力机制、SwiGLU激活函数和一维旋转位置编码（RoPE）。

此外，模型在注意力模块中去除了QKV层和线性投影层中的偏置，并且在训练过程中使用了0.1的dropout率来提升稳定性。

在数据准备阶段，Emu3模型使用了包括语言、图像和视频在内的混合模态数据进行训练。

语言数据部分使用了与Aquila模型相同的数据集，该数据集是由中英文数据组成的高质量语料库。

图像数据则包括了开源网络数据、AI生成的数据以及高质量的内部数据，并经过了分辨率、图片质量、类型等多方面的筛选。

视频数据涵盖了风景、动物、植物和游戏等多个类别，并经过了场景切分、文本过滤、光流过滤和质量评分等处理步骤。

Emu3模型的训练数据结构定义了多模态数据格式，使用了五个特殊的token来合并文本和视觉数据，包括表示视觉输入开始的[SOV]、表示视觉token开始的[SOT]以及表示视觉输入结束的[EOV]等。

此外，为了防止视觉token在学习过程中占据主导地位，与视觉token相关的损失被加权调整为0.5。

Emu3模型的成功引发了社交媒体和技术社区内的广泛关注。

一些评论认为，Emu3模型不仅代表了多模态AI领域的一项重要进展，而且其广泛的应用性和开源特性也将为企业和开发者开启更多的创新可能。

Emu3模型为未来的多模态人工智能应用提供了一个统一的架构，简化了多模态AI系统的开发和应用，同时也为研究者们提供了一个新的探索方向，即通过统一的架构来处理多模态数据。

目前，Emu3的关键技术和模型已经开源，包括生成模型的预训练代码等资源，这将进一步促进多模态AI领域的研究和发展。

相关快讯