首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

北大、北邮和快手开源视频生成模型Pyramid Flow,5秒高质量视频只要1分钟,附CogVideoX-Fun的简单效果对比

北京大学、北京邮电大学和快手科技联合开发的Pyramid Flow模型,在文本生成视频领域取得了重大突破。本文将深入探讨这一模型的技术细节,解析其如何在效率和质量方面实现创新。

1、模型概述

Pyramid Flow能够:

根据文本描述生成长达10秒的视频

支持1280x768的高分辨率

实现24fps(每秒帧数)的流畅帧率

在仅56秒内生成5秒长的384p视频

这些性能指标不仅与当前顶级的全序列扩散模型相当,在某些方面甚至更胜一筹。

2、核心技术:金字塔流匹配算法

Pyramid Flow的核心创新在于其采用的金字塔流匹配算法。这一方法从根本上改变了视频生成的流程。

2.1 多阶段生成过程

金字塔流匹配将视频生成分解为多个阶段,每个阶段对应不同的分辨率:

低分辨率阶段:生成视频的粗略草图

中间阶段:逐步提升分辨率,增添细节

高分辨率阶段:完成最终的高质量视频生成

2.2 连续流生成

每个金字塔阶段都被建模为一个从噪声到数据的连续流:

开始于像素化、高噪声的潜在表示

通过插值方式逐步演化

最终形成清晰、低噪声的潜在表示

2.3 阶段间连续性

为确保不同阶段间的连续性:

在阶段过渡时重新引入噪声

使用校正高斯噪声维持概率路径的连续性

3、自回归框架与时间金字塔

Pyramid Flow引入了创新的自回归视频生成框架:

3.1 时间金字塔压缩

压缩全分辨率的历史信息

每一帧基于之前生成的历史帧进行预测

显著提高训练效率和生成视频的质量

3.2 块状因果注意力机制

确保每一帧只关注之前的帧

避免引入来自"未来"帧的不相关信息

维护视频生成的连贯性和逻辑性

4、DiT单一框架优化

Pyramid Flow采用了DiT(Diffusion Transformer)作为单一优化框架:

整合了扩散模型和Transformer的优势

大幅缩短了训练时间

提高了模型的整体效率

5、与CogVideoX-Fun对比

我用的CogVideoX-Fun的默认关键词:

正向:

A young woman with beautiful and clear eyes and blonde hair standing and white dress in a forest wearing a crown. She seems to be lost in thought, and the camera focuses on her face. The video is of high quality, and the view is very clear. High quality, masterpiece, best quality, highres, ultra-detailed, fantastic.

反向:

The video is not of a high quality, it has a low resolution. Watermark present in each frame. Strange motion trajectory.

CogVideoX-Fun v1.1  5B 在加载时需要把 low gpu memory选成 true否则会爆内存

这是Pyramid Flow的配置,为了对比,帧率也改为8帧,其他分辨率和模型改了会报错,还没看代码不知道咋回事

好像这两个底模都是SD3,但是速度来说Pyramid Flow速度快很多,具体效果看上面的视频。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OwiXeKb3IND-fIZUCBw3DIXg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券