内容详情
视频生成技术:从 GAN 到 Diffusion Model
本次分享将聚焦于基于机器学习的视频生成这一内容,旨在梳理其从 GAN 到 Diffusion Model 的发展演变。讲者将深入探讨从 DCGAN 问世以来至 Stable Diffusion,以及如今的 DiT 技术下,视频生成模型的设计思想和代表工作。
视频生成技术的发展:从 GAN 至 Diffusion Model
首先, 讲者将带大家回顾整个视频生成的发展历史,并探讨视频生成研究中所面临的挑战。随后,讲者会介绍基于 GAN 的视频生成模型设计方法以及所能达到的能力。
基于 GAN 的视频生成
接下来,讲者会重点讲解基于 Diffusion Model 的视频生成技术,并通过 Vchitect 视频生成大模型,向大家展示基于扩散模型的设计与应用,如文生视频,图生视频,定制化生成视频等,同时也会探讨目前存在的一些问题。
书生筑梦(Vchitect) 视频生成大模型
最后,会和大家介绍一下最新的文生视频 DiT 模型 -- Latte,并展望视频生成发展的未来。
视频 DiT 模型 -- Latte
XTuner 长序列训练解决方案
及其在 Latte 中的应用
在生成式 AI 领域,长文档摘要和视频生成等任务都需要模型具有超长上下文的能力。如何训练超长上下文的模型,既是生成式 AI 算法领域的研究热点,也是 AI Infra 领域的难点。
随着 AI 模型参数量的不断增大,为了能够训练超长上下文,通常需要使用一些复杂的并行策略,如 Nvidia Megatron, DeepSpeed Ulysses 等工作。这些工作虽然解决了超长上下文的训练问题,但需要开发者具有一定的 AI Infra 的知识,对生成式 AI 的研究人员很不友好。
为了让研究人员能够更加便捷地训练超长上下文模型,促进生成式 AI 领域的发展,XTuner 开发了一套超长上文训练解决方案,研究人员在自己的项目中,只需加入几行代码,就可以训练超长上下文的模型,本次分享将围绕 XTuner 长序列训练解决方案及其在 Latte 中的应用展开。