文章/答案/技术大牛

发布

CVPR 2024：Chat-UniVi统一图片和视频理解的多模态大模型

文章来源：企鹅号 - wisemodel开源社区

始智AI wisemodel.cn开源社区

北京大学和中山大学等机构研究者提出了统一的视觉语言大模型——Chat-UniVi。通过构建图片和视频统一表征，该框架使得一个LLM能够在图片和视频的混合数据下训练，并同时完成图片和视频理解任务。

更重要的是，该框架极大降低了视觉语言模型训练和推理的开销，使得在三天以内即可训练出具有130亿参数的通用视觉语言大模型。

Chat-UniVi模型在图片和视频的下游任务中都取得了卓越的性能。论文已被CVPR2024接收，所有代码、数据集和模型权重均已开源。

https://wisemodel.cn/models/PKU-YUAN/Chat-UniVi（模型地址）

具体来说，北京大学和中山大学的研究人员提出了一种名为Chat-UniVi的统一的视觉语言方案，其能通过统一的视觉表征同时处理图片任务和视频任务。

作为一个统一的视觉理解模型，Chat-UniVi以更少的视觉令牌数量，超过了专门针对图片设计的多模态大模型和专门针对视频设计的多模态大模型。

图1 Chat-UniVi在图片，视频上的17个基准上达到先进的性能

更值得注意的是，所提出的统一的视觉表征极大减少了输入视觉令牌的数量，大大降低了模型的训练和推理成本，使得训练一个具有130亿参数的通用视觉语言大模型只需要三天，推理速度明显由于LLaVA。

现有的多模态语言模型通常只专注于图片或视频输入。其中，专注于图片理解的方法通常使用大量的视觉token来获得更精细的空间分辨率。而专注于视频理解的方法往往会牺牲每帧的空间分辨率，以输入更多帧构建更精细的时间理解能力。

对此，研究人员提出使用一组动态视觉token统一表示图片和视频。如图2所示，图片可以通过不同大小的视觉token来建模。例如，主要对象(即图2中的羊)需要使用更多视觉token进行细粒度表示，而背景(即雪山)只需使用一个视觉令牌即可充分建模。

对于视频来说，视频首先会被分成多个关键事件，随后视觉token会在事件内部进行拓展。这种图片和视频的统一表示大大减少了视觉令牌的数量，同时保持了模型的表达能力。值得注意的是，在该方法中，较长的视频被分配了更多的视觉令牌。因此，比现有的方法更适合于具有可变长度视频的理解。

图2 Chat-UniVi提出的统一视觉表征

为了获得这些动态的视觉令牌，研究人员基于最近邻的密度峰聚类算法，逐步对视觉令牌进行分组和合并。当涉及到视频时，同样应用最近邻的密度峰聚类算法来获取事件的帧集合。

为了进一步提升模型的性能，研究人员为LLM提供了一个多尺度表征，其中多尺度表征的上层特征表示高级语义概念，而下层特征强调视觉细节表示。

图3 Chat-UniVi整体框架图

Chat-UniVi框架具有两个引人注目的优点:首先，其统一的图片和视频建模方法允许在图片和视频混合数据集上进行训练，从而无需任何修改即可直接应用于图片和视频任务。

多尺度表征有助于对图片和视频的全面理解，使Chat-UniVi能够适应各种任务，包括使用高层次特征进行语义理解，使用低层次特征生成详细描述。

Chat-UniVi的训练分为两个阶段：

（1）多模态预训练。在第一阶段，研究人员冻结LLM和视觉编码器的同时只训练投影矩阵。这种训练策略使模型能够有效地捕获视觉信息，而不会对LLM的性能造成任何明显的损害。

（2）联合指令微调。在第二阶段，研究人员在一个包含图片和视频的混合数据集上对整个模型进行了全参数微调。通过在混合数据集上的联合训练，Chat-UniVi实现了对大量指令的卓越理解，并产生了更自然、更可靠的输出。

图片理解实验

Chat-UniVi使用更少的视觉标记，同时实现卓越的性能。值得注意的是，Chat-UniVi模型在7B参数下，也能达到LLaVA模型13B参数下的性能水平，证明了该方法的有效性。

视频理解实验

Chat-UniVi作为一个统一的视觉语言模型，超过了专门针对视频设计的方法，例如VideoChat和Video-ChatGPT。

图片问答实验

Chat-UniVi在ScienceQA数据集上获得了有竞争力的性能。值得注意的是，Chat-UniVi优于专门针对科学问答进行优化的LLaMA-SciTune模型，充分体现了该方法的优越性。

视频问答实验

在所有数据集上，Chat-UniVi都优于最先进的方法，例如VideoChat和Video-ChatGPT。

幻觉实验

在幻觉评估上，Chat-UniVi优于最近提出的最先进的方法。此外，研究人员发现多尺度表征提高了抵抗幻觉的能力。值得注意的是，作为7B模型，Chat-UniVi甚至优于13B模型，如MiniGPT4。

研究人员将这一成功归功于多尺度表征，多尺度表征使模型能够同时感知高级语义概念和低级视觉外观。

人工评测实验

同时，研究人员也进行了人工评估实验。研究人员发现基于Flamingo的方法在理解视频的能力上存在局限性。这种限制归因于它们使用Q-Former从不同长度的视频中提取固定数量的视觉标记，这阻碍了它们在建模时间理解方面的有效性。

相比之下，Chat-UniVi作为一个统一的模型，不仅优于基于Flamingo构建的方法，而且超过了专门为图片和视频设计的模型。

可视化

Chat-UniVi所使用的动态视觉token有效地概括了对象和背景。这使Chat-UniVi能够使用有限数量的视觉token同时构建图片理解所需的细粒度的空间分辨率和视频理解所需的细粒度时间分辨率。

下面是一些与Chat-UniVi有关的地址，可供参考：

·论文地址：https://arxiv.org/pdf/2311.08046.pdf

·GitHub 地址：https://github.com/PKU-YuanGroup/Chat-UniVi

·Wisemodel地址：https://wisemodel.cn/models/PKU-YUAN/Chat-UniVi

供稿：金鹏

编辑：安冉

审核：成蕴年

始智AI wisemodel社区自2023年9月上线以来，取得了积极的进展，初步形成一定的影响力，为了加快公司发展，我们长期需要技术、运营等人才加盟，技术侧重在AI infra、后端开发，熟悉K8S、模型训练和推理等技术，以及熟悉开发者生态运营的成员（根据个人意向可备注“求职”或“创业”）

wisemodel相关

系统升级

发表于: 2024-03-242024-03-24 17:30:00
原文链接：https://page.om.qq.com/page/OULDfwb1VlphtrNuPgbm_t-Q0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

CVPR 2024：Chat-UniVi统一图片和视频理解的多模态大模型

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐