首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >文生视频模型调研

文生视频模型调研

原创
作者头像
aaronwjzhao
修改2025-03-13 11:16:53
修改2025-03-13 11:16:53
3710
举报
文章被收录于专栏:AI工程落地AI工程落地

开源文生视频一览表

模型名称

机构

是否开源

时长(秒)

分辨率&帧率

模型参数量(B)

模型地址/体验入口

Wan2.1

阿里

5

720*1280 16

14/1.3

https://huggingface.co/Wan-AI

Open-Sora-v2

潞晨科技

5

768*768 24

11

https://huggingface.co/hpcai-tech/Open-Sora-v2

腾讯混元

腾讯

5

720*1280 25.8

13

https://huggingface.co/tencent/HunyuanVideo

cogvideoX 1.5

智谱

5或10

1360*768 16

5

https://huggingface.co/THUDM/CogVideoX1.5-5B

cogvideoX

智谱

6

720*480 8

5

https://huggingface.co/THUDM/CogVideoX-5b

T2V-Turbo-v2

加州大学

-

320*512

2

https://t2v-turbo-v2.github.io/

MiniMax-Video-01

MinMax

6

1280*720

-

https://platform.minimaxi.com/document/video_generation?key=66d1439376e52fcee2853049

Vidu

生数科技

4

-

-

https://www.vidu.studio/zh

Kling

快手

5或10

-

-

https://klingai.kuaishou.com/

即梦

字节跳动

5

1280*720

-

https://jimeng.jianying.com/

TeleAI

中国电信

-

-

-

-

Open-Sora

潞晨科技

15

1280*720

https://hpcaitech.github.io/Open-Sora/

文生视频评测榜单:VBench Leaderboard - a Hugging Face Space by Vchitect

模型量化

文生视频模型参数量越来越大,视频时长越来越长,帧率越来越高。

文生视频量化需求越来越迫切,目前这方面论文比较少,是一个可以深入研究的领域。

下面总结了几篇当前可以支持文生图模型量化的论文:

ViDiT-Q:2406.02540

  • 逐Token的量化参数确定(Token-wise Quantization):DiT所采用的Transformer架构与CNN模型的关键区别在于,卷积涉及对局部像素的特征聚合,这些参与聚合的像素需要采用相同的量化参数。因此,面向CNN的量化方法通常对整个激活值张量采用统一的量化参数(Tensor-wise quantization parameter)。与此不同,DiT的特征聚合主要由Attention算子完成,而网络的主要计算开销为大量的线性(Linear)层,对Linear层来说,每个Token的计算是独立的,因此,可以采用逐Token的量化参数,来应对不同Token之间特征分布差异大的问题。采用逐Token的量化参数,引入的额外存储开销仅为激活值张量的约千分之一,却能显著提升量化后模型的性能。
  • 动态量化参数(Dynamic Quantization):在上述挑战中,CFG维度的差异与时间步维度的差异是扩散模型的两个特有问题。受此前语言模型量化工作的启发,通过采用动态量化,即在线进行量化参数的统计,可以以少量的额外开销(小于LInear层计算过程约1%的延迟开销),自然的解决CFG维度与时间步维度的差异问题。
  • 时间步感知的通道均衡(Timestep-aware Channel Balancing):现有量化工作(如SmoothQuant)通常通过采用通道均衡的卷积技巧,来解决通道之间数据分布差异大的问题。通过引入一个逐通道的Mask:S,在权重上除以S并在激活值上乘以S,再进行量化。该过程将权重量化的难度转移到了激活值量化上以平衡二者的难度。而当将该技巧应用在DiT量化时仍然不能弥补性能损失,原因是激活值的逐通道数据分布,随着扩散模型的时间步变化明显。基于此观察,对通道均衡进行了“时间步感知”的改进,在不同的时间步阶段采用不同的通道均衡Mask(如下图所示)。

Q-DiT:2406.17343

  • 对权重和输入都进行细粒度的group量化,根据不同的时间步、不同的数据,动态调整分组大小
  • 提出一个group size搜索策略

MixDQ:2405.17873

  • 针对时间步比较少的扩散模型,提出了混合比特量化
  • 可以支持weight-only量化、权重激活同时量化

HQ-DiT:2405.19751

  • 基于数据分布,选择最优的FP数据类型。并大大减少了搜索的成本
  • 以FP4格式量化权重和激活

Post-training Quantization with Progressive Calibration and Activation Relaxing for Text-to-Image Diffusion Models:2311.06322

  • 提出PCR,包含渐进式的校准策略、激活放松策略
  • 提出QDiffBench,第一个高效评估量化文生图扩散模型的benchmark

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 开源文生视频一览表
  • 模型量化
    • ViDiT-Q:2406.02540
    • Q-DiT:2406.17343
    • MixDQ:2405.17873
    • HQ-DiT:2405.19751
    • Post-training Quantization with Progressive Calibration and Activation Relaxing for Text-to-Image Diffusion Models:2311.06322
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档