首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Stable Video Diffusion来了,代码权重已上线

Stable Video Diffusion来了,代码权重已上线

作者头像
机器之心
发布于 2023-11-22 07:32:25
发布于 2023-11-22 07:32:25
9880
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

机器之心编辑部

Stability AI 的视频生成模型看来效果不错。

AI 画图的著名公司 Stability AI,终于入局 AI 生成视频了。

本周二,基于 Stable Diffusion 的视频生成模型 Stable Video Diffusion 来了,AI 社区马上开始了热议。

很多人都表示「我们终于等到了」。

项目地址:https://github.com/Stability-AI/generative-models

现在,你可以基于原有的静止图像来生成一段几秒钟的视频。

基于 Stability AI 原有的 Stable Diffusion 文生图模型,Stable Video Diffusion 成为了开源或已商业行列中为数不多的视频生成模型之一。

但目前还不是所有人都可以使用,Stable Video Diffusion 已经开放了用户候补名单注册(https://stability.ai/contact)。

据介绍,Stable Video Diffusion 可以轻松适应各种下游任务,包括通过对多视图数据集进行微调从单个图像进行多视图合成。Stability AI 表示,正在计划建立和扩展这个基础的各种模型,类似于围绕 stable diffusion 建立的生态系统。

Stable Video Diffusion 以两种图像到视频模型的形式发布,能够以每秒 3 到 30 帧之间的可定制帧速率生成 14 和 25 帧的视频。

在外部评估中,Stability AI 证实这些模型超越了用户偏好研究中领先的闭源模型:

Stability AI 强调,Stable Video Diffusion 现阶段不适用于现实世界或直接的商业应用,后续将根据用户对安全和质量的见解和反馈完善该模型。

论文地址:https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets

Stable Video Diffusion 是 Stability AI 各式各样的开源模型大家族中的一员。现在看来,他们的产品已经横跨图像、语言、音频、三维和代码等多种模态,这是他们致力于提升 AI 最好的证明。

Stable Video Diffusion 的技术层面

Stable Video Diffusion 作为一种高分辨率的视频潜在扩散模型,达到了文本到视频或图像到视频的 SOTA 水平。近期,通过插入时间层并在小型高质量视频数据集上进行微调,为 2D 图像合成训练的潜在扩散模型已转变为生成视频模型。然而,文献中的训练方法千差万别,该领域尚未就视频数据整理的统一策略达成一致。

在 Stable Video Diffusion 的论文中,Stability AI 确定并评估了成功训练视频潜在扩散模型的三个不同阶段:文本到图像预训练、视频预训练和高质量视频微调。他们还证明了精心准备的预训练数据集对于生成高质量视频的重要性,并介绍了训练出一个强大基础模型的系统化策划流程,其中包括了字幕和过滤策略。

Stability AI 在论文中还探讨了在高质量数据上对基础模型进行微调的影响,并训练出一个可与闭源视频生成相媲美的文本到视频模型。该模型为下游任务提供了强大的运动表征,例如图像到视频的生成以及对摄像机运动特定的 LoRA 模块的适应性。除此之外,该模型还能够提供强大的多视图 3D 先验,这可以作为多视图扩散模型的基础,模型以前馈方式生成对象的多个视图,只需要较小的算力需求,性能还优于基于图像的方法

具体而言,成功训练该模型包括以下三个阶段:

阶段一:图像预训练。本文将图像预训练视为训练 pipeline 的第一阶段,并将初始模型建立在 Stable Diffusion 2.1 的基础上,这样一来为视频模型配备了强大的视觉表示。为了分析图像预训练的效果,本文还训练并比较了两个相同的视频模型。图 3a 结果表明,图像预训练模型在质量和提示跟踪方面都更受青睐。

阶段 2:视频预训练数据集。本文依靠人类偏好作为信号来创建合适的预训练数据集。本文创建的数据集为 LVD(Large Video Dataset ),由 580M 对带注释的视频片段组成。

进一步的研究表明生成的数据集包含可能会降低最终视频模型性能的示例。因此,本文还采用了密集光流来注释数据集。

此外,本文还应用光学字符识别来清除包含大量文本的剪辑。最后,本文使用 CLIP 嵌入来注释每个剪辑的第一帧、中间帧和最后一帧。下表提供了 LVD 数据集的一些统计信息:

阶段 3:高质量微调。为了分析视频预训练对最后阶段的影响,本文对三个模型进行了微调,这些模型仅在初始化方面有所不同。图 4e 为结果。

看起来这是个好的开始。什么时候,我们能用 AI 直接生成一部电影呢?

参考内容:

https://stability.ai/news/stable-video-diffusion-open-ai-video-model

https://news.ycombinator.com/item?id=38368287

© THE END

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-11-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Stable Diffusion用来生成视频
之前我曾经多次介绍过,可以一键生成视频的模型。包括能够有效解决视频闪烁的Rerender A Video模型
算法一只狗
2024/10/01
3120
Stable Diffusion用来生成视频
Stable Diffusion简介
Stable Diffusion 是一种用于图像生成的人工智能技术。它可以根据文本描述生成相应的图像。
疯狂的KK
2023/06/25
1.6K0
Stable Video Diffusion来了,代码权重已上线
论文地址:https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets
计算机视觉研究院
2023/11/23
3280
Stable Video Diffusion来了,代码权重已上线
Stable Video 3D震撼上线,视频扩散模型史诗级提升!4090可跑,权重已开放
Stability AI又有新动作了!这次给我们端上来的是全新的3D生成模型Stable Video 3D(SV3D)。
新智元
2024/03/25
3000
Stable Video 3D震撼上线,视频扩散模型史诗级提升!4090可跑,权重已开放
Stable Video Diffusion问世!3D合成功能引关注,网友:进步太快
根据外部评估,官方宣称SVD甚至比runway和Pika的视频生成AI更受用户欢迎。
量子位
2023/11/23
3380
Stable Video Diffusion问世!3D合成功能引关注,网友:进步太快
Stable Video文本生成视频公测地址——Scaling Latent Video Diffusion Models to Large Datasets
​近期,Stability AI发布了首个开放视频模型——"Stable Video",该创新工具能够将文本和图像输入转化为生动的场景,将概念转换成动态影像,生成出电影级别的作品,旨在满足广泛的视频应用需求,包括媒体、娱乐、教育和营销等领域。"Stable Video"提供了两种图像到视频的模型,能够生成14帧和25帧的视频,用户还可以自行设置帧率,范围在3到30帧每秒之间。该模型适用于多种视频应用任务,包括从单一图像进行多视角合成,以及在多视角数据集上进行微调。
中杯可乐多加冰
2024/08/18
4570
重磅发布!Stable Diffusion 3 Medium 终于开源,革新图像生成技术新时代
大家好,我是猫头虎😺!今天要为大家介绍一款革命性的图像生成模型——Stable Diffusion 3 Medium。这款模型不仅提升了图像质量,还在排版和复杂提示理解方面表现出色,同时具备极高的资源效率。想了解更多关于这款模型的细节,请继续阅读下去!📖
猫头虎
2024/06/15
3990
重磅发布!Stable Diffusion 3 Medium 终于开源,革新图像生成技术新时代
新火种AI | Stable Video Diffusion来了!普通人拍大片指日可待
随着技术的不断进步,AI领域取得了巨大的突破。特别是在图片生成这个赛道,AI目前能做到的成绩超乎想象。或许就在1年以前,很多人,特别是一些专业从业者对AI绘画的印象还停留在“元素要靠东拼西凑”“废图率太高”“成品无法直接使用”等方面,但如今,高质量AI绘图软件的表现完全可以颠覆你的固有认知。
新火种
2023/11/25
3360
首个4D视频生成扩散模型!Diffusion4D数分钟内实现4D内容生成,超81K的4D数据集已开源!
本文介绍由多伦多大学,北京交通大学,德克萨斯大学奥斯汀分校和剑桥大学团队最新提出的4D生成扩散模型,该方法可以在几分钟之内可以完成时空一致的4D内容生成。
CV君
2024/06/27
4230
首个4D视频生成扩散模型!Diffusion4D数分钟内实现4D内容生成,超81K的4D数据集已开源!
Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩
基于Stable Video Diffusion的Stable Video 3D(SV3D),只用一张图片就能生成高质量3D网格。
量子位
2024/03/20
2840
Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩
Stable Video Diffusion: 将潜在视频扩散模型扩展到大型数据集
在图像生成模型技术的推动下,视频生成模型在研究和应用领域取得了显著进展。这些模型通常通过从头开始训练或对预训练图像模型插入额外的时间层进行微调来实现。训练通常在混合的图像和视频数据集上进行。尽管视频建模的改进研究主要关注空间和时间层的排列方式,但先前的工作没有探究数据选择的影响。然而,训练数据分布对生成模型的影响是不可忽视的。此外,对于生成式图像建模,已经知道在大型和多样化的数据集上进行预训练,然后在小型但质量更高的数据集上进行微调,可以显著提高性能。然而,之前的视频建模方法往往借鉴了来自图像领域的技术,而对于数据和训练策略的影响,即在低分辨率视频上进行预训练再在高质量数据集上微调,还需要进一步研究。
用户1324186
2023/12/11
1.4K0
Stable Video Diffusion: 将潜在视频扩散模型扩展到大型数据集
CVPR 2024 | 绝了!!最新 diffusion 扩散模型梳理!100+篇论文、40+研究方向!
扩散概率模型(DPMs)在高分辨率图像生成方面显示出显著性能,但由于通常需要大量采样步骤,其采样效率仍有待提高。高阶ODE求解在DPMs中的应用的最新进展使得能够以更少的采样步骤生成高质量图像。然而,大多数采样方法仍使用均匀的时间步长,在使用少量步骤时并不是最优的。
公众号机器学习与AI生成创作
2024/04/18
7.9K0
CVPR 2024 | 绝了!!最新 diffusion 扩散模型梳理!100+篇论文、40+研究方向!
开源文生图模型再进化,Stable Diffusion XL 1.0登场,出图效果不输Midjourney
在大模型开启的 AIGC 时代,由明星 AI 初创公司 Stability AI 打造的文本到图像生成模型 Stable Diffusion 可谓风靡全球。
机器之心
2023/08/08
6930
开源文生图模型再进化,Stable Diffusion XL 1.0登场,出图效果不输Midjourney
7.4K Star文生视频Sora开源了?
开源日记
2024/03/25
3350
7.4K Star文生视频Sora开源了?
写作、绘画、游戏、音视频编辑…AIGC为内容生产带来了什么?
就像丁磊博士在《生成式人工智能》中说到的,与其说人工智能将取代从业者,不如说它完成的是枯燥繁重的工作内容,它淘汰的不是人类,而是落后的生产力。对大部分人来说,人工智能不是竞争对手,而是我们的工作伙伴,它将成为必要的生产要素,使生产力倍增。我们应该做的是训练和使用人工智能,让人工智能为我所用,Work with AI
数据派THU
2023/08/03
6150
写作、绘画、游戏、音视频编辑…AIGC为内容生产带来了什么?
VideoScene:以三维感知跳跃流蒸馏策略破局,高效弥合从Sparse视图到三维场景的差距!
高效三维重建的需求正迅速增长,这得益于其实时游戏[83]、自主导航[1]等领域的应用[57, 97]。NeRF[59]和3DGS[35]等技术开创了高质量、密集视点重建,并在真实场景生成中展现出令人印象深刻的性能。然而,这些方法通常需要大量专业拍摄的图像,限制了其可及性[84]。为克服这一限制,研究行人开始探索从Sparse视点进行三维重建[13, 84, 95, 99],将输入要求降低至仅需两张随意拍摄的图像。
未来先知
2025/05/27
910
VideoScene:以三维感知跳跃流蒸馏策略破局,高效弥合从Sparse视图到三维场景的差距!
Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放
昨日,Stability AI 继推出文生图 Stable Diffusion、文生视频 Stable Video Diffusion 之后,又为社区带来了 3D 视频生成大模型「Stable Video 3D」(简称 SV3D)。
机器之心
2024/03/26
7520
Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放
Stable Diffusion 3 真正来了
在人工智能应用领域,文生图(Text-to-Image)一直是一个重要的研究领域。通过将文本描述转换为对应的图像,广泛应用在艺术创作、广告设计、游戏开发等工作中。
云水木石
2024/06/26
3430
Stable Diffusion 3 真正来了
CVPR 2023 | 视频AIGC,预测/插帧/生成/编辑
深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读
公众号机器学习与AI生成创作
2023/08/22
1.9K0
CVPR 2023 | 视频AIGC,预测/插帧/生成/编辑
没等来OpenAI,等来了Open-Sora全面开源
不久前 OpenAI Sora 以其惊人的视频生成效果迅速走红,在一众文生视频模型中突出重围,成为全球瞩目的焦点。继 2 周前推出成本直降 46% 的 Sora 训练推理复现流程后,Colossal-AI 团队全面开源全球首个类 Sora 架构视频生成模型 「Open-Sora 1.0」,涵盖了整个训练流程,包括数据处理、所有训练细节和模型权重,携手全球 AI 热爱者共同推进视频创作的新纪元。
机器之心
2024/03/18
2190
没等来OpenAI,等来了Open-Sora全面开源
推荐阅读
Stable Diffusion用来生成视频
3120
Stable Diffusion简介
1.6K0
Stable Video Diffusion来了,代码权重已上线
3280
Stable Video 3D震撼上线,视频扩散模型史诗级提升!4090可跑,权重已开放
3000
Stable Video Diffusion问世!3D合成功能引关注,网友:进步太快
3380
Stable Video文本生成视频公测地址——Scaling Latent Video Diffusion Models to Large Datasets
4570
重磅发布!Stable Diffusion 3 Medium 终于开源,革新图像生成技术新时代
3990
新火种AI | Stable Video Diffusion来了!普通人拍大片指日可待
3360
首个4D视频生成扩散模型!Diffusion4D数分钟内实现4D内容生成,超81K的4D数据集已开源!
4230
Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩
2840
Stable Video Diffusion: 将潜在视频扩散模型扩展到大型数据集
1.4K0
CVPR 2024 | 绝了!!最新 diffusion 扩散模型梳理!100+篇论文、40+研究方向!
7.9K0
开源文生图模型再进化,Stable Diffusion XL 1.0登场,出图效果不输Midjourney
6930
7.4K Star文生视频Sora开源了?
3350
写作、绘画、游戏、音视频编辑…AIGC为内容生产带来了什么?
6150
VideoScene:以三维感知跳跃流蒸馏策略破局,高效弥合从Sparse视图到三维场景的差距!
910
Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放
7520
Stable Diffusion 3 真正来了
3430
CVPR 2023 | 视频AIGC,预测/插帧/生成/编辑
1.9K0
没等来OpenAI,等来了Open-Sora全面开源
2190
相关推荐
Stable Diffusion用来生成视频
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档