Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >迈向长上下文视频生成!NUS团队新作FAR同时实现短视频和长视频预测SOTA,代码已开源

迈向长上下文视频生成!NUS团队新作FAR同时实现短视频和长视频预测SOTA,代码已开源

作者头像
机器之心
发布于 2025-04-24 01:52:15
发布于 2025-04-24 01:52:15
1070
举报
文章被收录于专栏:机器之心机器之心
本文由 NUS ShowLab 主导完成。第一作者顾宇超为新加坡国立大学 ShowLab@NUS 在读博士生,研究方向是视觉生成,在 CVPR、ICCV、NeurIPS 等国际顶级会议与期刊上发表多篇研究成果。第二作者毛维嘉为新加坡国立大学 ShowLab@NUS 二博士生,研究方向是多模态理解和生成,项目负责作者为该校校长青年教授寿政。
  • 论文标题:Long-Context Autoregressive Video Modeling with Next-Frame Prediction
  • 论文链接:https://arxiv.org/abs/2503.19325
  • 项目主页:https://farlongctx.github.io/
  • 开源代码:https://github.com/showlab/FAR

背景:长上下文视频生成的挑战

目前的视频生成技术大多是在短视频数据上训练,推理时则通过滑动窗口等策略,逐步扩展生成的视频长度。然而,这种方式无法充分利用视频的长时上下文信息,容易导致生成内容在时序上出现潜在的不一致性

解决这一问题的关键在于:高效地对长视频进行训练。但传统的自回归视频建模面临严重的计算挑战 —— 随着视频长度的增加,token 数量呈爆炸式增长。 视觉 token 相较于语言 token 更为冗余,使得长下文视频生成比长上下文语言生成更为困难。

本文针对这一核心挑战,首次系统性地研究了如何高效建模长上下文视频生成,并提出了相应的解决方案。

我们特别区分了两个关键概念:

  • 长视频生成:目标是生成较长的视频,但不一定要求模型持续利用已生成的内容,因此缺乏长时序的一致性。这类方法通常仍在短视频上训练,通过滑动窗口等方式延长生成长度。
  • 长上下文视频生成:不仅要求视频更长,还要持续利用历史上下文信息,确保长时序一致性。这类方法需要在长视频数据上进行训练,对视频生成建模能力提出更高要求。

长上下文视频生成的重要性:

最近的工作 Genie2 [1] 将视频生成用于 world modeling /game simulation 的场景中,展现出非常令人惊艳的潜力。然而,现有基于滑窗的生成方法通常缺乏记忆机制,无法有效理解、记住并重用在 3D 环境中探索过的信息,比如 OASIS [2]。这种缺乏记忆性的建模方式,不仅影响生成效果,还可能导致对物理规律建模能力的缺失。这可能正是当前长视频生成中常出现非物理现象的原因之一:模型本身并未在大量长视频上训练,i2v(image-to-video)+ 滑动窗口的方式难以确保全局合理性。

FAR 的创新设计与分析

1)帧自回归模型(FAR)

FAR 将视频生成任务重新定义为基于已有上下文逐帧(图像)生成的过程。为解决混合自回归与扩散模型在训练与测试阶段存在的上下文不一致问题,我们在训练过程中随机引入干净的上下文信息,从而提升模型测试时对利用干净上下文的稳定性。

FAR 的训练测试流程;测试时对干净上下文的生成结果。

2) 长短时上下文建模

我们观察到,随着上下文帧数量的增加,视频生成中会出现视觉 token 数量急剧增长的问题。然而,视觉 token 在时序上具有局部性:对于当前解码帧,其邻近帧需要更细粒度的时序交互,而远离的帧通常仅需作为记忆存在,无需深入的时序交互。基于这一观察,我们提出了 长短时上下文建模。该机制采用非对称的 patchify 策略:短时上下文保留原有的 patchify 策略,以保证细粒度交互;而长时上下文则进行更为激进的 patchify,减少 token 数量,从而在保证计算效率的同时,维持时序模拟的质量。

FAR 的长视频训练测试流程

长短时上下文的非对称 patchify 带来的 token 减少以及训练效率提升

3) 用于长上下文视频生成的多层 KV Cache 机制

针对长短时上下文的非对称 patchify 策略,我们提出了相应的多层 KV-Cache 机制。在自回归解码过程中,当某一帧刚离开短时上下文窗口时,我们将其编码为低粒度的 L2 Cache(少量 token);同时,更新仍处于短时窗口内帧的 L1 Cache(常规 token)。最终,我们结合这两级 KV Cache,用于当前帧的生成过程。

值得强调的是,多层 KV Cache 与扩散模型中常用的 Timestep Cache 是互补的:前者沿时间序列方向缓存 KV 信息,后者则在扩散时间步维度上进行缓存,共同提升生成效率。

针对长短时上下文策略的多层 KV Cache

长视频生成的效率提升

FAR 相对于 SORA 类 VideoDiT 的潜在优势

1)收敛效率:在相同的连续潜空间上进行实验时,我们发现 FAR 相较于 Video DiT 展现出更快的收敛速度以及更优的短视频生成性能。

FAR 与 Video DiT 的收敛对比

2)无需额外的 I2V 微调:FAR 无需针对图像到视频(I2V)任务进行额外微调,即可同时建模视频生成与图像到视频的预测任务,并在两者上均达到 SOTA 水平。

条件 / 非条件视频生成的评测结果

基于条件帧的视频预测的评测结果

3)高效的长视频训练与长上下文建模能力:FAR 支持高效的长视频训练以及对长上下文建模。在基于 DMLab 的受控环境中进行实验时,我们观察到模型对已观测的 3D 环境具有出色的记忆能力,在后续帧预测任务中首次实现了近乎完美的长期记忆效果。

总结

我们首次系统性地验证了长上下文建模在视频生成中的重要性,并提出了一个基于长短时上下文的帧自回归模型 ——FAR。FAR 不仅在短视频生成任务中,相较于 Video DiT 展现出更快的收敛速度与更优性能,同时也在长视频的 world modeling 场景中,首次实现了显著的长时序一致性。此外,FAR 有效降低了长视频生成的训练成本。在当前文本数据趋于枯竭的背景下,FAR 为高效利用现有海量长视频数据进行生成式建模,提供了一条具有潜力的全新路径。

参考文献:

【1】Genie 2: https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

【2】Oasis: https://oasis-model.github.io/

© THE END

转载请联系本公众号获得授权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
520专属Python代码来了
快到 520 了,分享几段 520 专属 Python 代码,不多说了,下面直接上货。
Python小二
2022/08/24
6950
520专属Python代码来了
冰墩墩买不到?那就自己做一个!
冰墩墩(英文:Bing Dwen Dwen,汉语拼音:bīng dūn dūn),是2022年北京冬季奥运会的吉祥物。将熊猫形象与富有超能量的冰晶外壳相结合,头部外壳造型取自冰雪运动头盔,装饰彩色光环,整体形象酷似航天员。
跋扈洋
2022/03/29
3210
七夕最强Python表白代码来了
毫无疑问,玫瑰一直都是七夕、520......这类节日的专属,带文字的玫瑰花,文字可以根据节日自行更改。
Python小二
2023/09/11
1.9K0
七夕最强Python表白代码来了
七夕表白玫瑰花
七夕节,又称“七巧节”“女儿节”“乞巧节”等,是中国民间的传统节日。这个节日被赋予了“牛郎织女”的美丽爱情传说,被认为是中国最具浪漫色彩的传统节日,在当代更是产生了“中国情人节”的文化含义。
阿黎逸阳
2022/11/11
5990
七夕表白玫瑰花
Python绘制米老鼠,为余生请多指教打call
杨紫和肖战的《余生请多指教》于3月15日起腾讯视频全网独播,湖南卫视金鹰独播剧场晚8:20播放。
阿黎逸阳
2022/04/14
6391
Python-turtle库绘图
turtle(海龟)库是turtle绘图体系的Python实现,turtle库是一种标准库,是Python自带的。
wangmcn
2022/07/25
1.8K0
Python-turtle库绘图
用python画圣诞树、樱花树、卡通图案及打包成exe文件[通俗易懂]
如何将python代码生成exe文件,直接在桌面运行请参考文章:如何将python文件打包成exe格式
全栈程序员站长
2022/09/27
1K0
用python画圣诞树、樱花树、卡通图案及打包成exe文件[通俗易懂]
python绘制灯笼
一年一度的元宵节刚刚过去,由于时间关系,在元宵节当天晚上11点多才完成本文灯笼的绘制。
阿黎逸阳
2022/02/25
8870
六一儿童节来临,送大朋友小朋友一只最近爆火的“可达鸭”
童年是一盒水彩笔,五颜六色精彩纷呈。童年是一幅漫画,新奇幻想思绪缤纷。童年是用水彩笔绘出的一幅漫画,一个追风的少年。
阿黎逸阳
2022/05/31
4470
六一儿童节来临,送大朋友小朋友一只最近爆火的“可达鸭”
Python海龟画图集合
https://blog.csdn.net/weixin_38915701/article/details/79308578
全栈程序员站长
2022/09/14
1.2K0
Python海龟画图集合
用python画出你的童年回忆
于是,今天我们来学习python的turtle库绘制童年的卡通人物,皮卡丘,小猪佩奇,小黄人,一起做回年轻的那个少年。
生信交流平台
2020/08/06
8370
用python画出你的童年回忆
Python画小蜜蜂
公众号中有个朋友私信我,想要帮忙画下小蜜蜂。 答应了有时间就帮忙画下,趁着五一休息,今天就一起来实现一下吧。 一、效果展示 在正式进入代码讲解之前,先来看下本文的实现效果。 http://mpvide
阿黎逸阳
2022/05/31
1.6K0
Python绘制幸运草,见者皆幸运
本文主要介绍运用turtle库控制函数绘制四叶草,希望见者皆好运,祝福大家的生活都能幸福安康。
阿黎逸阳
2022/11/11
5860
Python绘制幸运草,见者皆幸运
30秒教会你用Python制作520表白神器
在我大三的时候,就有一个计算机的朋友用自己做的代码感动了一个数学系的女生。就是下面这种。(这个爱心是有运行结果的!)也不知道为什么妹子放弃了全班30多位帅哥(没错,他们班就她一个女生),而选择了头发日渐稀疏已经“六月怀胎”的我朋友。
用户7466307
2020/06/17
1.7K0
2022皆为过往,2023平安健康
本文介绍运用Python中的turtle库控制函数画生肖兔,并设置了2023年幸运词,快截屏看看你的幸运词吧。
阿黎逸阳
2023/01/31
3810
2022皆为过往,2023平安健康
Python小项目
很久没有更新过python的内容,现在我就来写一点大家比较感兴趣的东西,我们来完成一个小游戏,我们就从最基础的开始,最简单的猜数字的小游戏,进阶的玩法就是做一个GUI界面,给这个游戏加一个交互式的界面,使这个游戏变得更加人性化
Gorit
2021/12/09
1.1K0
Python小项目
Python版比心
本文介绍运用Python中的turtle库控制函数画比心图。 本文目录 效果展示 代码详解 2.1 导入库 2.2 播放音乐 2.3 画手 2.4 定义画心的函数 2.5 定义写名字的函数并实现动
阿黎逸阳
2023/01/16
8010
520永恒的心动
之前整理过520表白代码合集、情人节表白烟花、带音乐字符画+带颜色字符画—情人节表白代码、教你用Python秀恩爱、撒狗粮—这是我的某某某。
阿黎逸阳
2022/05/31
4350
520永恒的心动
【Python画蜘蛛侠】谁的DNA动了?
蜘蛛侠(Spider-Man)即彼得·帕克(Peter Parker),是美国漫威漫画旗下超级英雄。
阿黎逸阳
2022/11/11
5860
【Python画蜘蛛侠】谁的DNA动了?
python表白代码-python告白代码,只属于程序员的浪漫
不知何时,不知何因,程序员这个行业成为大家茶余饭后取乐的无辜群体。只要说到程序员,脑海中就浮现出刻板印象,标配穿搭:格子衫,牛仔裤,黑框眼镜。当然秃顶也是必须的,更狠的吐槽还有邋里邋遢,不懂浪漫,不知人情世故!开始可能只是幽默玩笑,后面慢慢就越传越多,大家便信以为真!可是程序员真的是这样吗?随着现在编程这个行业的普遍高薪收入,程序员又成为大家关注的焦点,深入的了解后,发现程序员其实是很可爱的一个群体。他们有着自己标新立异的想法和活跃的思维,他们用指间汇编着这个精彩的世界。他们有时会很丧,却又很快的充满能量去面对工作和生活,他们有时话会很少,因为他们知道自己肩上的担子很重,他们用双手小心翼翼的呵护着亲人,爱人的幸福。用自己的思维去让这个世界更美好!都说他们不懂浪漫,但你们是否见过他们遇见爱情的样子!
全栈程序员站长
2022/08/22
1.1K0
相关推荐
520专属Python代码来了
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档