Loading [MathJax]/jax/output/CommonHTML/config.js

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >专栏 >北大视频大模型新SOTA，搞笑抖音视频AI秒懂笑点｜开源

北大视频大模型新SOTA，搞笑抖音视频AI秒懂笑点｜开源

量子位

发布于 2023-11-22 08:31:13

发布于 2023-11-22 08:31:13

2080

举报

文章被收录于专栏：量子位量子位

梦晨发自凹非寺量子位 | 公众号 QbitAI

AI能理解搞笑视频笑点在哪里了。

AI回答：这个视频之所以搞笑，在于一个小宝宝正坐在床上努力读书，但他显然还不会真正读书。他只是不停地指着书页上的各处，而摄影者则在背后笑他。小宝宝的这种尝试很有趣，因为他在尝试阅读一本对他而言过大的书，也看不懂里面的文字。

北大等团队开源视觉语言大模型Video-LLaVA，将图像和视频表示对齐到统一的视觉特征空间，在13个图片和视频基准上达到先进的性能。

值得注意的是，Video-LLaVA在训练过程中没有使用成对的视频和图片数据，但在训练后，LLM令人惊讶地展现出同时理解图片和视频的能力。

如下图所示，Video-LLaVA成功地识别出自由女神像的图片是近景且细腻的，而视频描述了自由女神像的多个角度，表明它们来自同一个地方。

在投影之前对齐图像和视频表示

这项工作具体贡献如下：

Video-LLaVA解决了在视觉-语言理解中同时处理图像和视频的挑战。它将视觉表示统一到语言特征空间中，使得大型语言模型能够同时对图像和视频进行视觉推理能力。
Video-LLaVA通过最初将图像和视频的表示对齐到一个统一的视觉特征空间中，将视觉表示统一到语言特征空间中。这是通过使用LanguageBind编码器来实现的，该编码器将不同的模态映射到文本特征空间中，提供了一个统一的视觉表示。然后，统一的视觉表示经过共享的投影层和词嵌入层进行编码，以将统一的视觉表示映射给大型语言模型使用。
Video-LLaVA在视频上表现出色，在MSVD、MSRVTT、TGIF和ActivityNet视频问答数据集上分别超过了Video-ChatGPT的5.8%、9.9%、18.6%和10.1%。

对于模型能力，研究团队做了充分实验。

视频理解能力实验。

如表3所示，Video-LLaVA在4个视频问答数据集上全面超过了Video-ChatGPT，并且涨幅相当可观。

图片理解能力实验。

该研究还与InstructBLIP，Otter，mPLUG-owl 等图片语言大模型在图片语言理解任务上进行了比较，结果如表2所示：

为了评估预先对齐视觉输入的效果，研究团队进行了大量的对比实验。

他们使用了相同规模的MAE编码器替换了图片编码器，其中MAE编码器生成分离的视觉表示，而LanguageBind编码器生成统一的视觉表示（因为预先对齐了视觉表征）。

然后，他们在13个基准测试中比较了MAE编码器和LanguageBind编码器的性能，包括9个图片理解基准和4个视频理解基准。

通过替换图片编码器为MAE编码器，LLM在初始学习视觉表示时将视频特征和图片特征分开处理，不再将它们统一起来。

有关图6的实验结果显示，与分离的视觉表示相比，联合的视觉表示在4个视频问答数据集上显著提升了性能。

这一发现表明，预先对齐的视觉表征有助于LLM进一步学习和理解视频内容。它提供了更好的能力，使得模型能够更有效地处理视频问答任务并展现出更好的性能表现。

同时论文还验证了无论是对于图片还是视频，在联合训练中他们能相互受益。

通过联合训练视频数据，对于图片理解任务，可以缓解幻觉问题。类似的趋势也在LLaVA-Bench基准测试上观察到。

在视频理解方面，联合训练的也得到了明显的提升。

参考资料： [1]https://arxiv.org/abs/2311.10122 [2]https://github.com/PKU-YuanGroup/Video-LLaVA

— 完 —

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2023-11-20，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自量子位微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

暂无评论

编辑精选文章

换一批

万字详解高可用架构设计

Go 开发者必备：Protocol Buffers 入门指南

10分钟带你彻底搞懂分布式链路跟踪

多租户的 4 种常用方案

亿级月活的社交 APP，陌陌如何做到 3 分钟定位故障？

60页PPT全解：DeepSeek系列论文技术要点整理

Video-LLaVA：图片视频13边形战士，北大团队将图片语言大模型拓展到视频

video 编码模型视频数据

值得注意的是，Video-LLaVA在训练过程中没有使用成对的视频和图片数据，但在训练后，LLM令人惊讶地展现出同时理解图片和视频的能力。如下图所示，Video-LLaVA成功地识别出自由女神像的图片是近景且细腻的，而视频描述了自由女神像的多个角度，表明它们来自同一个地方。

AIWalker

2023/11/27

7080

Video-LLaVA：图片视频13边形战士，北大团队将图片语言大模型拓展到视频

北大等提出Video-LLaVA视觉语言大模型，在多个评估榜单中名列前茅

video 模型视频数据性能

北京大学和其他机构的研究人员近期提出了一种名为Video-LLaVA的视觉语言大模型。该模型的创新之处在于能够同时处理图片和视频作为输入。

CV君

2023/11/27

4120

北大等提出Video-LLaVA视觉语言大模型，在多个评估榜单中名列前茅

新加坡 & 纽约大学 & 字节提出 PLLaVA | 简单高效视频语言模型适应方法，超越GPT4V，突破资源限制！

编码模型视频数据性能

多模态大型语言模型（MLLMs）在训练大规模图像-文本对时已显示出在图像理解方面的卓越能力。与图像领域类似，最近的视频理解模型也探索了类似的流程，在大规模视频-文本数据上对LLMs进行微调。然而，这种方法需要高昂的计算资源和视频数据标注成本。一种更为实用的方法是调整预先训练好的图像领域MLLMs以适应视频数据。

AIGC 先锋科技

2024/07/08

5230

新加坡 & 纽约大学 & 字节提出 PLLaVA | 简单高效视频语言模型适应方法，超越GPT4V，突破资源限制！

提前对齐，视频问答新SOTA！北大全新Video-LLaVA视觉语言大模型，秒懂视频笑点

video 模型视频数据性能

最近，来自北大的研究人员提出了一种全新的视觉语言大模型——Video-LLaVA，为alignment before projection提供了新颖的解决方案。

新智元

2023/11/24

6330

提前对齐，视频问答新SOTA！北大全新Video-LLaVA视觉语言大模型，秒懂视频笑点

3B模型不输7B LLaVA！北大多模态MoE模型登GitHub热榜

github 工作模型数据性能

北大联合中山大学、腾讯等机构推出的新模型MoE-LLaVA，登上了GitHub热榜。

量子位

2024/02/22

6670

3B模型不输7B LLaVA！北大多模态MoE模型登GitHub热榜

Video-LLava与YOLOv8联手，实现更精准的检测！

模型视频数据性能 video

智能交通系统（ITS）在智能城市范式中得到了显著的普及。ITS的关键组件之一是交通目标检测，这项技术利用计算机视觉和图像处理来识别数字图像中的特定物体。

未来先知

2024/10/25

3110

Video-LLava与YOLOv8联手，实现更精准的检测！

不止于看懂，AI如何重塑视频解读？

腾讯技术创作特训营S8

自从Sora引爆视频生成领域之后，视频等多模态领域的研究和应用已经取得了显著的进展，并且俨然成为AI大模型的未来发展趋势。

算法一只狗

2024/08/18

5550

不止于看懂，AI如何重塑视频解读？

清华 & 港中文 & 香港科技深入探究 LLM，利用大型语言模型理解视频和动作序列的多模态人类行为！

科技模型视频数据 LLM

理解人类行为，如细粒度标注和分析，在以人为中心的多模态智能领域[21, 25, 93]至关重要，并且可以从人机交互和机器人技术到医疗保健和安保的具身智能中受益。

AIGC 先锋科技

2024/07/08

5760

清华 & 港中文 & 香港科技深入探究 LLM，利用大型语言模型理解视频和动作序列的多模态人类行为！

颜水成挂帅，奠定「通用视觉多模态大模型」终极形态！一统理解/生成/分割/编辑

视频系统工作后端模型

这是一款重磅的通用视觉多模态大模型，支持从视觉理解到视觉生成、从低层次到高层次的一系列视觉任务，解决了困扰大语言模型产业已久的图像/视频模型割裂问题，提供了一个全面统一静态图像与动态视频内容的理解、生成、分割、编辑等任务的像素级通用视觉多模态大模型，为下一代通用视觉大模型的终极形态奠定了基础，也标志着大模型迈向通用人工智能（AGI）的又一大步。

新智元

2024/04/26

6480

颜水成挂帅，奠定「通用视觉多模态大模型」终极形态！一统理解/生成/分割/编辑

AI视频理解天花板，全新MiniGPT4-Video刷爆SOTA！宝格丽宣传片配文一绝

数据视频理解 video 模型视频

几天前，OpenAI官方账号发布了第一支由Sora制作的MV——Worldweight，引全网围观。

新智元

2024/04/12

1740

AI视频理解天花板，全新MiniGPT4-Video刷爆SOTA！宝格丽宣传片配文一绝

给语言大模型加上综合视听能力，达摩院开源Video-LLaMA

开源 video 模型视频音频

视频在当今社交媒体和互联网文化中扮演着愈发重要的角色，抖音，快手，B 站等已经成为数以亿计用户的热门平台。用户围绕视频分享自己的生活点滴、创意作品、有趣瞬间等内容，与他人互动和交流。

机器之心

2023/08/04

1.7K0

给语言大模型加上综合视听能力，达摩院开源Video-LLaMA

北大&腾讯打造多模态15边形战士！语言作“纽带”，拳打脚踢各模态，超越Imagebind

视频数据腾讯性能音频

用语言作为与其它模态之间的纽带，冻结语言编码器，然后用对比学习方法，将各个模态映射到一个共享的特征空间，实现多模态数据的语义对齐。

量子位

2023/11/13

2790

北大&腾讯打造多模态15边形战士！语言作“纽带”，拳打脚踢各模态，超越Imagebind

字节提出 LLaVA-OneVision ：首个突破多模态模型性能瓶颈的开源大型模型！

模型视频数据性能开源

人工智能的核心愿望之一就是构建具有大规模视觉语言模型的通用助手[67]。LLaVA-OneVision是一个开源模型，致力于推进构建具有大规模视觉语言助手的（LLaVA）[83]研究，该助手可以适应各种指令，在野外完成各种计算机视觉任务。作为一种既省钱又高效的做法，它通常通过连接视觉编码器与大规模语言模型（LLM）来实现。

AIGC 先锋科技

2024/08/14

1.5K0

字节提出 LLaVA-OneVision ：首个突破多模态模型性能瓶颈的开源大型模型！

每日学术速递12.28

模型视频数据对象论文

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

AiCharm

2024/12/30

1140

智源独家丨谢赛宁：AI是否需要更强的视觉基础来实现理解和意义?

监督学习基础模型搜索系统

实际上，早在 1990 年，Stevan Harnad 就讨论了符号基础的问题。那时，深度学习还没诞生。人们认为，只有当我们为人类语言或计算机代码赋予某种感知基础，这些符号才有意义。AI 要阻止出现「语义鸿沟」：通常人们在判别图像的相似性时并非建立在图像底层视觉特征的相似上，而是建立在对图像所描述的对象或事件的语义理解的基础上。

脑机接口社区

2024/06/21

2700

智源独家丨谢赛宁：AI是否需要更强的视觉基础来实现理解和意义?

剑桥、腾讯AI Lab等提出大语言模型PandaGPT：一个模型统一六种模态

模型视频数据腾讯音频

来自剑桥、NAIST 和腾讯 AI Lab 的研究者近期发布了一项名为 PandaGPT 的研究成果，这是一种将大型语言模型与不同模态对齐、绑定以实现跨模态指令跟随能力的技术。PandaGPT 可以完成诸如生成详细的图像描述、根据视频编写故事以及回答关于音频的问题等复杂任务。它可以同时接收多模态输入，并自然地组合它们的语义。

机器之心

2023/08/04

5500

剑桥、腾讯AI Lab等提出大语言模型PandaGPT：一个模型统一六种模态

中科院/中科大/芝加哥大学创新动态Token合并框架，无需微调，依然强大，零样本视频理解的突破性进展！

模型视频视频理解 token 框架

最近多模态大型语言模型（MLLMs）的先进发展，为视频理解开辟了新的途径。然而，在零样本视频任务中实现高保真度仍然具有挑战性。

AIGC 先锋科技

2025/01/07

3040

中科院/中科大/芝加哥大学创新动态Token合并框架，无需微调，依然强大，零样本视频理解的突破性进展！

VATT多模态框架实现可控视频到音频生成，凭音频字幕解锁新应用，性能远超现有方法！

音频框架模型视频性能

人类感知和认知的结合代表了一种“多模态”的场景处理和解释方式。例如，当作者面对一个喷泉表演的无声视频时，作者的解释可能会将视觉场景转化为一种听觉体验，其中视觉场景在语义上被处理并转化为作者内心相应的声音叙事。因此，作者可能会将伴有人们交谈和笑声的喷泉水花声与可能与喷泉同步的背景音乐联系起来。

AIGC 先锋科技

2025/02/26

1231

VATT多模态框架实现可控视频到音频生成，凭音频字幕解锁新应用，性能远超现有方法！

【论文解读】多模态大模型综述

模型 LLM 深度学习人工智能

多模态大语言模型（MLLM）是近年来一个新兴的研究热点，它利用强大的大语言模型（LLM）作为大脑进行多模态研究。MLLM令人惊讶的涌现能力，比如基于图像写故事和无ocr的数学推理，在传统方法中是罕见的，这表明了一条通往人工通用智能的潜在道路。本文旨在对MLLM的最新研究进展进行跟踪和总结。首先，论文提出了MLLM的公式，并描述了它的相关概念。然后，论文讨论了关键的技术和应用，包括多模态指令调整（M-IT）、多模态上下文学习（M-ICL）、多模态思维链（M-CoT）和LLM辅助视觉推理（LAVR）。最后，论文讨论了现有的挑战，并指出了很有前景的研究方向。鉴于MLLM的时代才刚刚开始，作者将继续更新这项调查，并希望它能激发更多的研究。

合合技术团队

2024/03/12

6.6K0

新范式，自回归大一统！北大提出VARGPT：单一框架实现视觉「理解」与「生成」

架构框架模型数据性能

多模态大模型在视觉理解和生成领域取得了显著突破。先前的模型在视觉理解和生成方面通常各自为政，而统一处理两者的模型一直是研究的热点。

新智元

2025/02/04

2050

新范式，自回归大一统！北大提出VARGPT：单一框架实现视觉「理解」与「生成」

相关推荐

Video-LLaVA：图片视频13边形战士，北大团队将图片语言大模型拓展到视频

更多 >

LV.1

这个人很懒，什么都没有留下～

作者相关精选

换一批

目录

在投影之前对齐图像和视频表示

加入讨论

的问答专区 >

相关课程

一站式学习中心 >

AI代码助手快速上手训练营

腾讯云代码助手