Datawhale干货
作者:李孝杰,清华大学,Datawhale成员
从openai sora[1]的技术报告首段可以看出sora的野心远远不止视频生成,他们的目标是通过视频数据来学习一个世界模型或者世界模拟器,这才是真正令人兴奋和激动的部分。
最早在ViT[2]中出现将图片分patch输入给transformer。
Sora的做法会有些不同,首先通过一个encoder【VAE结构】将视频帧压缩到一个低维度隐式空间(包含时间和空间上的压缩),然后展开成序列的形式送入模型训练,同样的模型预测也是隐式的序列,然后用decoder解码器去解码映射回像素空间形成视频。注意在编码成Spacetime latent patches的时候可能用到了ViViT[3]的时空编码方式
如此一来有两个优势:
优点是使得视频在生成采样时更具有灵活性,可以生成不同尺寸的视频
在训练阶段,将视频按1帧或者隔n帧用DALLE3(CLIP)按照一定的规范形成对应的描述文本,然后输入模型训练。
在推理阶段,首先将用户输入的prompt用GPT4按照一定的规范把它详细化,然后输入模型得到结果。
DALLE2结构
简单来说就是tansformer+ddpm,核心就是用tansformer的结构替换掉stable diffusion中的unet结构,来预测噪声实现去噪。这个替换可以带来以下优势。
参考b站up主ZOMI酱的画的Sora结构[5]。
这张图感觉相对完整准确了,这里补充几点可能的改动和补充。
首当其冲当然是影视和短视频行业,之后可能会推出sora的迭代,生成的时间可能更长类比chatgpt不断增大的输入token,可能sora以后可以生成更多更长的patches。比单纯的视频生成更有价值的是这条道路能不能通向大家都神往的AGI。似乎至少出现了苗头~
大家广泛讨论和关注的是sora到底是不是或者具不具备世界模型的特征。
简单来讲Sora 具有以下几项能力:
很多大佬抨击深度学习不可解释性,可是这种解释性如果在模拟/生成的足够准确的情况下还有没有意义?(sora离足够准确还有一定的距离)
没有学过牛顿力学的人一样可以预测/知道物体自由落体的轨迹;没有学过压力和摩擦力的人一样能预测行驶中的自行车按住刹车的轨迹....对于模型或者机器的学习,是否一定要某个理论或者强制的条件约束?让它只依靠数据经验学习到底可不可行?
Sora视频的生成能力同样可以扩展到2D和3D的生成,同样也影响诸如感知、理解等2D/3D任务,如果未来继续迭代变强,似乎能实现CV的大一统,并消灭CG。如果实现CV大一统,那么整个AI都在基于transformer的大力出奇迹的架构下实现了大一统。
参考
[1] https://openai.com/research/video-generation-models-as-world-simulators
[2] https://arxiv.org/abs/2010.11929
[3] abhttps://arxiv.org/pdf/2103.15691.pdf
[4] https://arxiv.org/abs/2212.09748
[5] https://www.bilibili.com/video/BV1Bx4y1k7BQ
[6] https://worldmodels.github.io/
[7] https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/