前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >VideoCrafter | 图文生成视频

VideoCrafter | 图文生成视频

作者头像
iResearch666
发布2023-11-09 15:22:12
1.4K0
发布2023-11-09 15:22:12
举报
文章被收录于专栏:AI算法能力提高班

VideoCrafter1: Open Diffusion Models for High-Quality Video Generation


  • paper https://arxiv.org/pdf/2310.19512.pdf
  • code https://github.com/ailab-cvc/videocrafter

image-20231108102745812


Abstract

  • 商用的Text2Video模型可以生成高质量的视频,但是不开源,无法研究
  • VideoCrafter开源了2个模型,Text2Video和Image2Video,其中I2V可以生成1024X576高分辨率的电影质量的视频,在质量上超过其它开源模型,而且是业内第一个开源的的I2V模型。(I2V模型输入为text和reference image)

Contributions

  • T2V模型可以生成高分辨率高质量视频,训练集集为2千万视频和6亿张图像
  • I2V模型可以很好的保留参考图像的内容、结构和风格

Related Work

  • Video Diffusion Models (VDMs)
  • ImagenVideo
  • DragNUWA

Methodology

Overview

image-20231108104712911

包括2个关键部分:video vae 和 video diffusion

  • video vae 负责降低采样维度
    • 视频数据X0喂给VAE编码器E,映射到隐层Z0,其可以以低维表示压缩的视频表征
    • Z0通过解码器D反映射会视频数据空间,进行重构X0'
    • VAE采用的是Stable Diffusion的VAE,将每一帧独自投影,不包含时间信息

image-20231108111414839

  • video diffusion
    • 对视频隐层Z0进行去噪,最后通过VAE解码器在像素空间生成视频
    • 采用3D U-Net架构,包含了时间维度

Denoising 3D U-Net

  • 每一个block包含卷积层、空间变换ST、时间变换TT

image-20231108112046340

  • 控制信号包括语义控制(文本提示)和动作速度控制(FPS帧率)

image-20231108112244180

image-20231108112640660

  • 时间步T和帧率FPS分别通过sinusoidal embedding(正弦嵌入)映射为向量,再通过2层的MLP映射为学习嵌入,最后通过逐元素相加融合
  • 语义控制通过CA交叉注意力注入到网络中,其中 φi(zt) ∈ RN×di ϵ represents spatially flattened tokens of video latent, ϕ denotes the Clip text encoder, and y is the input text prompt.

Text-Aligned Rich Image Embedding

image-20231108110036296

  • 文本提示聚焦在语义水平特征,而不是细节外表特征
  • 在I2V模型中,需要额外集成条件输入,即图像提示。为了将图像信息用于视频模型中,需要将图像特征投影到文本对齐的嵌入空间,这样才能兼容(就是同一个特征空间)
  • Text Encoder 是 CLIP的文本编码器,其全局语义字符 fcls 和图像字幕对齐,主要在语义水平表征视频内容,同时很少捕捉细节。因此,需要利用来自CLIP image ViT (clip image encoder)的最后一层的全部面片patch的token Fvis = {fi}K i=0
  • 为了和文本嵌入对齐,采用learnable投影网络 P 对 Fvis 映射 到 目标图像嵌入 Fimg = P(Fvis)
  • 将文本嵌入Ftext和图像嵌入Fimg通过CA层融合,用于计算内部特征Fin

image-20231108114344516

Experiments

  • 开源里面,性能较好,但是和商用的Gen2在视觉质量和动作质量上有差距

image-20231108114424527

  • 在五边形战士里,仅次于Gen2

image-20231108114431546

  • 图像条件输入控制对比

image-20231108114758612

  • T2V

image-20231108114824763

  • I2V

image-20231108114657469

image-20231108115035248

Conclusions

  • 开源了还可以
  • 论文对比从没输过,实测效果却一般

image-20231108115147302

image-20231108115209613

image-20231108115243336

References

  • https://github.com/Picsart-AI-Research/Text2Video-Zero 这个I2V效果更好
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-11-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 iResearch666 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Abstract
  • Contributions
  • Related Work
  • Methodology
    • Overview
      • Denoising 3D U-Net
        • Text-Aligned Rich Image Embedding
        • Experiments
        • Conclusions
        • References
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档