Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >迈向长上下文视频生成!NUS团队新作FAR同时实现短视频和长视频预测SOTA,代码已开源

迈向长上下文视频生成!NUS团队新作FAR同时实现短视频和长视频预测SOTA,代码已开源

作者头像
机器之心
发布于 2025-04-24 01:52:15
发布于 2025-04-24 01:52:15
1070
举报
文章被收录于专栏:机器之心机器之心
本文由 NUS ShowLab 主导完成。第一作者顾宇超为新加坡国立大学 ShowLab@NUS 在读博士生,研究方向是视觉生成,在 CVPR、ICCV、NeurIPS 等国际顶级会议与期刊上发表多篇研究成果。第二作者毛维嘉为新加坡国立大学 ShowLab@NUS 二博士生,研究方向是多模态理解和生成,项目负责作者为该校校长青年教授寿政。
  • 论文标题:Long-Context Autoregressive Video Modeling with Next-Frame Prediction
  • 论文链接:https://arxiv.org/abs/2503.19325
  • 项目主页:https://farlongctx.github.io/
  • 开源代码:https://github.com/showlab/FAR

背景:长上下文视频生成的挑战

目前的视频生成技术大多是在短视频数据上训练,推理时则通过滑动窗口等策略,逐步扩展生成的视频长度。然而,这种方式无法充分利用视频的长时上下文信息,容易导致生成内容在时序上出现潜在的不一致性

解决这一问题的关键在于:高效地对长视频进行训练。但传统的自回归视频建模面临严重的计算挑战 —— 随着视频长度的增加,token 数量呈爆炸式增长。 视觉 token 相较于语言 token 更为冗余,使得长下文视频生成比长上下文语言生成更为困难。

本文针对这一核心挑战,首次系统性地研究了如何高效建模长上下文视频生成,并提出了相应的解决方案。

我们特别区分了两个关键概念:

  • 长视频生成:目标是生成较长的视频,但不一定要求模型持续利用已生成的内容,因此缺乏长时序的一致性。这类方法通常仍在短视频上训练,通过滑动窗口等方式延长生成长度。
  • 长上下文视频生成:不仅要求视频更长,还要持续利用历史上下文信息,确保长时序一致性。这类方法需要在长视频数据上进行训练,对视频生成建模能力提出更高要求。

长上下文视频生成的重要性:

最近的工作 Genie2 [1] 将视频生成用于 world modeling /game simulation 的场景中,展现出非常令人惊艳的潜力。然而,现有基于滑窗的生成方法通常缺乏记忆机制,无法有效理解、记住并重用在 3D 环境中探索过的信息,比如 OASIS [2]。这种缺乏记忆性的建模方式,不仅影响生成效果,还可能导致对物理规律建模能力的缺失。这可能正是当前长视频生成中常出现非物理现象的原因之一:模型本身并未在大量长视频上训练,i2v(image-to-video)+ 滑动窗口的方式难以确保全局合理性。

FAR 的创新设计与分析

1)帧自回归模型(FAR)

FAR 将视频生成任务重新定义为基于已有上下文逐帧(图像)生成的过程。为解决混合自回归与扩散模型在训练与测试阶段存在的上下文不一致问题,我们在训练过程中随机引入干净的上下文信息,从而提升模型测试时对利用干净上下文的稳定性。

FAR 的训练测试流程;测试时对干净上下文的生成结果。

2) 长短时上下文建模

我们观察到,随着上下文帧数量的增加,视频生成中会出现视觉 token 数量急剧增长的问题。然而,视觉 token 在时序上具有局部性:对于当前解码帧,其邻近帧需要更细粒度的时序交互,而远离的帧通常仅需作为记忆存在,无需深入的时序交互。基于这一观察,我们提出了 长短时上下文建模。该机制采用非对称的 patchify 策略:短时上下文保留原有的 patchify 策略,以保证细粒度交互;而长时上下文则进行更为激进的 patchify,减少 token 数量,从而在保证计算效率的同时,维持时序模拟的质量。

FAR 的长视频训练测试流程

长短时上下文的非对称 patchify 带来的 token 减少以及训练效率提升

3) 用于长上下文视频生成的多层 KV Cache 机制

针对长短时上下文的非对称 patchify 策略,我们提出了相应的多层 KV-Cache 机制。在自回归解码过程中,当某一帧刚离开短时上下文窗口时,我们将其编码为低粒度的 L2 Cache(少量 token);同时,更新仍处于短时窗口内帧的 L1 Cache(常规 token)。最终,我们结合这两级 KV Cache,用于当前帧的生成过程。

值得强调的是,多层 KV Cache 与扩散模型中常用的 Timestep Cache 是互补的:前者沿时间序列方向缓存 KV 信息,后者则在扩散时间步维度上进行缓存,共同提升生成效率。

针对长短时上下文策略的多层 KV Cache

长视频生成的效率提升

FAR 相对于 SORA 类 VideoDiT 的潜在优势

1)收敛效率:在相同的连续潜空间上进行实验时,我们发现 FAR 相较于 Video DiT 展现出更快的收敛速度以及更优的短视频生成性能。

FAR 与 Video DiT 的收敛对比

2)无需额外的 I2V 微调:FAR 无需针对图像到视频(I2V)任务进行额外微调,即可同时建模视频生成与图像到视频的预测任务,并在两者上均达到 SOTA 水平。

条件 / 非条件视频生成的评测结果

基于条件帧的视频预测的评测结果

3)高效的长视频训练与长上下文建模能力:FAR 支持高效的长视频训练以及对长上下文建模。在基于 DMLab 的受控环境中进行实验时,我们观察到模型对已观测的 3D 环境具有出色的记忆能力,在后续帧预测任务中首次实现了近乎完美的长期记忆效果。

总结

我们首次系统性地验证了长上下文建模在视频生成中的重要性,并提出了一个基于长短时上下文的帧自回归模型 ——FAR。FAR 不仅在短视频生成任务中,相较于 Video DiT 展现出更快的收敛速度与更优性能,同时也在长视频的 world modeling 场景中,首次实现了显著的长时序一致性。此外,FAR 有效降低了长视频生成的训练成本。在当前文本数据趋于枯竭的背景下,FAR 为高效利用现有海量长视频数据进行生成式建模,提供了一条具有潜力的全新路径。

参考文献:

【1】Genie 2: https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

【2】Oasis: https://oasis-model.github.io/

© THE END

转载请联系本公众号获得授权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
每周AI论文速递(250324-250328)
大语言模型 (LLMs) 在自然语言处理领域取得了突破性进展。近期研究推动了一类新型推理大语言模型的发展:例如,开源模型 DeepSeek-R1 通过融合深层语义理解与复杂逻辑推理,实现了当前最优性能。尽管这些能力表现卓越,其内部推理机制仍缺乏系统性研究。本文采用稀疏自编码器 (SAEs) —— 一种将神经网络潜在表征解耦为稀疏可解释特征的技术,用于识别 DeepSeek-R1 系列模型中的核心推理特征。我们首先提出从 SAE 表征中提取候选“推理特征”的方法,并通过实证分析与可解释性技术验证这些特征与模型推理能力的直接关联。关键贡献在于,通过调控这些特征可显著提升推理性能,首次为大语言模型的推理机制提供了可解释性论证。代码发布于 https://github.com/AIRI-Institute/SAE-Reasoning
叶子的技术碎碎念
2025/04/08
780
每周AI论文速递(250324-250328)
两分钟1200帧的长视频生成器StreamingT2V来了,代码将开源
prompt:Wide shot of battlefield, stormtroopers running...
机器之心
2024/04/12
2420
两分钟1200帧的长视频生成器StreamingT2V来了,代码将开源
生成越长越跑偏?浙大商汤新作StarGen让场景视频生成告别「短片魔咒」
本文介绍了一篇由浙江大学章国锋教授和商汤科技研究团队联合撰写的论文《StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation》。
机器之心
2025/02/03
1350
生成越长越跑偏?浙大商汤新作StarGen让场景视频生成告别「短片魔咒」
清华提出 Owl-1 全景世界模式:革新长视频生成,重塑视觉体验 !
随着图像生成模型的成功,视频生成也逐渐引起了广泛关注。尽管现有的视频生成模型(VGMs)已经达到了商用 Level 的性能,但所生成的视频时长仍然较短。长视频生成方法通过改善生成视频的长度和一致性来解决这一问题,促进了诸如视频扩展[35]、电影生成[40]和世界模拟[24]等多种新兴任务的发展。
AIGC 先锋科技
2025/02/12
1040
清华提出 Owl-1 全景世界模式:革新长视频生成,重塑视觉体验 !
全球首款AI游戏诞生!无需游戏引擎,视频模型直出「我的世界」
今天,两家初创公司Decart和Etched宣布,他们打造了一款世界上首个实时、可玩、可交互的世界模型——Oasis。
新智元
2025/02/14
980
全球首款AI游戏诞生!无需游戏引擎,视频模型直出「我的世界」
首个开源世界模型!百万级上下文,长视频理解吊打GPT-4,UC伯克利华人一作
来自UC berkeley的研究人员发布并开源了LWM(LargeWorldModel)系列模型:
新智元
2024/04/12
1960
首个开源世界模型!百万级上下文,长视频理解吊打GPT-4,UC伯克利华人一作
Step-Video-T2V:全球最强开源视频生成
目前阶跃已经成为行业内公认的内卷王之一。其覆盖的领域包含了语音、图片、视频理解和生成等。就在2月中,其就发布了Step-Video-T2V,号称全球最强的开源视频模型。同时一经发布,就已经上线官网,目前所有用户都可以注册进行免费使用,感兴趣的可以来到这个网站进行尝试:
算法一只狗
2025/03/20
1870
Sora之后,OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型
过去几年来,扩散模型强大的图像合成能力已经得到充分证明。研究社区现在正在攻克一个更困难的任务:视频生成。近日,OpenAI 安全系统(Safety Systems)负责人 Lilian Weng 写了一篇关于视频生成的扩散模型的博客。
机器之心
2024/04/26
1940
Sora之后,OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型
HumanDiT 姿势引导框架来袭,支持多分辨率,长序列视频生成精准又高保真 !
近年来,生成逼真的人类运动视频受到了广泛关注,特别是在生成式人工智能的进步之后。与图像生成相比,视频生成面临更大的挑战,因为它不仅需要高质量的视觉效果,还需要帧与帧之间平滑的时间一致性,以保持视觉连贯性[68]。虚拟人类、动画电影和沉浸式体验等应用推动了可靠、高质量运动视频生成方法的需求。
AIGC 先锋科技
2025/03/17
1880
HumanDiT 姿势引导框架来袭,支持多分辨率,长序列视频生成精准又高保真 !
直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争
谷歌又放大招了,发布下一代 Transformer 模型 Infini-Transformer。
机器之心
2024/04/13
7240
直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争
GitHub热榜第一:百万token上下文,还能生成视频,UC伯克利出品
上下文窗口长度达到了100万token,持平了谷歌同时推出的王炸Gemini 1.5,伯克利出品。
量子位
2024/02/22
2710
GitHub热榜第一:百万token上下文,还能生成视频,UC伯克利出品
混元视频:大型视频生成模型的系统框架
视频生成技术的最新进展极大地改变了个人与行业日常生活的面貌。然而,主流的视频生成模型仍为闭源,导致行业与公众社区在视频生成能力上存在显著的性能差异。在本报告中,我们提出了HunyuanVideo,这是一种新型开源视频基础模型,其视频生成性能可与主流闭源模型相媲美,甚至更优。HunyuanVideo具有一个综合框架,整合了多项关键贡献,包括数据整理、先进架构设计、渐进式模型缩放与训练,以及为大规模模型训练和推理设计的高效基础设施。凭借这些,我们成功训练了一个参数超过130亿的视频生成模型,成为所有开源模型中的最大模型。我们进行了广泛的实验并实施了一系列有针对性的设计,以确保高视觉质量、运动动态、文本-视频对齐和先进的拍摄技术。根据专业人工评价结果,HunyuanVideo的性能优于先前的最先进模型,包括Runway Gen-3、Luma 1.6和3个表现最佳的中国视频生成模型。通过发布基础模型及其应用的代码,我们旨在弥合闭源与开源社区之间的鸿沟。这一举措将使社区中的每个人都能够对自己的想法进行实验,从而培育一个更具活力和动态的视频生成生态系统。代码已公开发布在https://github.com/Tencent/HunyuanVideo。
AI浩
2024/12/19
4190
混元视频:大型视频生成模型的系统框架
Sora之后,苹果发布视频生成大模型STIV,87亿参数一统T2V、TI2V任务
Apple MM1Team 再发新作,这次是苹果视频生成大模型,关于模型架构、训练和数据的全面报告,87 亿参数、支持多模态条件、VBench 超 PIKA,KLING,GEN-3。
机器之心
2025/02/14
1550
Sora之后,苹果发布视频生成大模型STIV,87亿参数一统T2V、TI2V任务
Sora 面世,视频生成的 GPT-3 时刻来了
2月16日凌晨,正值中国春节法定节假日期间,OpenAI 毫无预兆地发布了 AI 视频生成大模型 Sora。看过视频效果后,网友纷纷感叹「现实,不存在了。」
AI科技评论
2024/02/27
2190
Sora 面世,视频生成的 GPT-3 时刻来了
用AI短视频「反哺」长视频理解,腾讯MovieLLM框架瞄准电影级连续帧生成
在视频理解这一领域,尽管多模态模型在短视频分析上取得了突破性进展,展现出了较强的理解能力,但当它们面对电影级别的长视频时,却显得力不从心。因而,长视频的分析与理解,特别是对于长达数小时电影内容的理解,成为了当前的一个巨大挑战。
机器之心
2024/03/18
2570
用AI短视频「反哺」长视频理解,腾讯MovieLLM框架瞄准电影级连续帧生成
攻陷短视频后,Sora将需要72万块H100 GPU
OpenAI 推出的 Sora 模型能够在各种场景下生成极其逼真的视频,吸引了全世界的目光。
机器之心
2024/04/12
1980
攻陷短视频后,Sora将需要72万块H100 GPU
Sora 与文本到视频生成,探索通用人工智能的里程碑与挑战!
近期在AI生成内容(AIGC)领域的快速发展标志着向实现人工通用智能(AGI)迈出的关键一步,特别是继OpenAI在2023年初推出大型语言模型(LLM)GPT-4之后。AIGC 吸引了学术界和工业界的广泛关注,例如基于LLM的对话代理ChatGPT[1],以及文本转图像(T2I)模型如DALLLE[2],Midjourney[3]和Stable Diffusion[4]。这些成果对文本转视频(T2V)领域产生了重大影响,OpenAI的Sora[5]在图1中展示的出色能力便是例证。
AIGC 先锋科技
2024/07/08
3130
Sora 与文本到视频生成,探索通用人工智能的里程碑与挑战!
详解Latte:去年底上线的全球首个开源文生视频DiT
随着 Sora 的成功发布,视频 DiT 模型得到了大量的关注和讨论。设计稳定的超大规模神经网络一直是视觉生成领域的研究重点。DiT [1] 的成功为图像生成的规模化提供了可能性。
机器之心
2024/04/12
4620
详解Latte:去年底上线的全球首个开源文生视频DiT
MTVInpaint:多任务视频修复框架,以双分支注意力与两阶段流水线统一完成、插入任务,处理长视频 !
视频修复指的是对视频中静态或动态的局部区域进行修改的过程,确保修复后的视频在空间和时间维度上展现出平滑自然的过渡。
AIGC 先锋科技
2025/04/22
760
MTVInpaint:多任务视频修复框架,以双分支注意力与两阶段流水线统一完成、插入任务,处理长视频 !
每周AI论文速递(241209-241213)
我们推出了 InternVL 2.5,这是一个基于 InternVL 2.0 的先进多模态大语言模型 (MLLM) 系列,保留了其核心架构,同时在训练和测试策略以及数据质量上进行了显著改进。本文深入研究了模型扩展与性能的关系,系统地分析了视觉编码器、语言模型、数据集规模及测试时配置对性能的影响。通过在多学科推理、文档理解、多图像/视频理解、现实世界理解、多模态幻觉检测、视觉定位、多语言能力及纯语言处理等广泛基准上的全面评估,InternVL 2.5 展现出与 GPT-4o 和 Claude-3.5-Sonnet 等领先商业模型相媲美的竞争力。特别地,我们的模型在 MMMU 基准上首次突破 70%,通过链式推理 (CoT) 提升了 3.7 个百分点,并展示了强大的测试时扩展潜力。我们期待该模型为开源社区在多模态 AI 系统的开发与应用上树立新标杆。HuggingFace 演示见 https://huggingface.co/spaces/OpenGVLab/InternVL
叶子的技术碎碎念
2025/04/08
750
每周AI论文速递(241209-241213)
推荐阅读
每周AI论文速递(250324-250328)
780
两分钟1200帧的长视频生成器StreamingT2V来了,代码将开源
2420
生成越长越跑偏?浙大商汤新作StarGen让场景视频生成告别「短片魔咒」
1350
清华提出 Owl-1 全景世界模式:革新长视频生成,重塑视觉体验 !
1040
全球首款AI游戏诞生!无需游戏引擎,视频模型直出「我的世界」
980
首个开源世界模型!百万级上下文,长视频理解吊打GPT-4,UC伯克利华人一作
1960
Step-Video-T2V:全球最强开源视频生成
1870
Sora之后,OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型
1940
HumanDiT 姿势引导框架来袭,支持多分辨率,长序列视频生成精准又高保真 !
1880
直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争
7240
GitHub热榜第一:百万token上下文,还能生成视频,UC伯克利出品
2710
混元视频:大型视频生成模型的系统框架
4190
Sora之后,苹果发布视频生成大模型STIV,87亿参数一统T2V、TI2V任务
1550
Sora 面世,视频生成的 GPT-3 时刻来了
2190
用AI短视频「反哺」长视频理解,腾讯MovieLLM框架瞄准电影级连续帧生成
2570
攻陷短视频后,Sora将需要72万块H100 GPU
1980
Sora 与文本到视频生成,探索通用人工智能的里程碑与挑战!
3130
详解Latte:去年底上线的全球首个开源文生视频DiT
4620
MTVInpaint:多任务视频修复框架,以双分支注意力与两阶段流水线统一完成、插入任务,处理长视频 !
760
每周AI论文速递(241209-241213)
750
相关推荐
每周AI论文速递(250324-250328)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档