Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >不止有SORA!一文带你了解 AI 视频生成技术的探索与趋势

不止有SORA!一文带你了解 AI 视频生成技术的探索与趋势

作者头像
CV君
发布于 2024-03-05 06:36:22
发布于 2024-03-05 06:36:22
8130
举报

随着科技的不断进步,生活中所见的一切已经不再局限于现实。在这个数字化时代,无论是图片、视频,还是其他形式的媒体内容,都有可能是通过 AI 算法生成的。精彩的场景、动人的情节,甚至栩栩如生的角色,都可能是由 AI 算法创造出来的。当你观看一段视频时,你是否曾思考过这个问题:这是一个真实的视频,还是由 AI 算法生成的呢?

前几天 Sora 横空出世震撼全场,今天 Stable Diffusion 3 也如约而至!在生成式 AI 发展正如火如荼的今天,许多小伙伴也在使用趋动云强大且灵活的算力进行相关探索。

本篇文章将探讨视频生成技术的发展现状,介绍一些近期刷屏的视频生成工具,包括商业产品和开源项目。

Sora

Sora 是由 OpenAI 开发的 text-to-video 模型。它可以根据一段简短的提示词,生成 60 秒的视频,不仅可以理解提示词内容,还能处理细致的场景,运用复杂的运镜、生成丰富的情感状态,实现真实的物理交互。

  • 官网链接:https://openai.com/sora
Sora 效果演示

提示词:一位时尚的女士穿着黑色皮夹克、红色的长裙和黑色短靴、手拿黑色手袋,在东京一条灯光温暖、霓虹灯闪烁、带有动感城市标志的街头自信而随意地行走。她戴着太阳镜,大红唇。街道潮湿而有反光效果,色彩缤纷的灯光仿佛在地面上营造出镜面效果,许多人在街道上来往。

Stable Diffusion 3

Stable Diffusion 3 是由 Stability AI 公司发布的新一代图像合成模型。相比前一代产品,它能生成细节丰富的多主体图像,并提高了文本生成的质量和准确性。

特点

  • SD3 的参数数量范围从 8 亿到 80 亿不等。允许不同版本模型在各种设备上运行——从智能手机到服务器。意味着 AI 算力消耗或许会更低,推理速度却更快。
  • SD3 系列采用了 diffusion transformer 架构(类似于Sora),一种利用 AI 创建图像的新方法,它将通常的图像构建模块(如 U-Net 架构)换成了一个在小块图片上工作的系统。这种方法不仅能高效扩展,还能生成更高质量的图像。
  • 另外,还采用“flow matching”技术,一种创建 AI 模型的技术,可以通过学习如何从随机噪音顺利过渡到结构化图像来生成图像。不需要模拟流程中的每一个步骤,仅专注于图像创建应遵循的整体方向或流程。
  • Stability 公司表示,一旦测试完成,其权重可以免费下载并在本地运行。
  • 可以实现视频、3D等功能。
SD3 效果演示

提示词:史诗般的动漫艺术风格,一位巫师站在夜间的山顶上,向黑暗的天空施放咒语,上面写着由彩色能量生成的“Stable Diffusion 3”文字

提示词:一辆跑车的夜间照片,侧面写有“SD3”字样,汽车在赛道上高速行驶,巨大的路标上写着“FASTER”的文字。

Stable Video Diffusion

Stable Video Diffusion 是由 Stability AI 发布的视频生成大模型,是基于他们原有的 Stable Diffusion 文生图模型开发的,专门用于视频生成的大型模型。

  • 论文链接:https://static1.squarespace.com/static/6213c340453c3f502425776e/t/655ce779b9d47d342a93c890/1700587395994/stable_video_diffusion.pdf
  • 项目链接:https://github.com/Stability-AI/generative-models
  • huggingface链接:https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt

在线体验

  • https://replicate.com/stability-ai/stable-video-diffusion

在该页面可以直接查看演示效果图,也可以使用自己的图片上传生成视频。

图源网络

生成结果

VideoPoet

VideoPoet 是由谷歌开发的一种大型语言模型(LLM),能够胜任多种视频生成任务,包括 text-to-video、image-to-video、video stylization、video inpainting & outpainting 和 video-to-audio。VideoPoet 的一大特点是可提升视频时长,通过重复的方法延长视频的长度,即让 AI 根据视频的最后一秒预测下一秒的内容。

  • 官网链接:https://sites.research.google/videopoet/
  • 论文链接:https://storage.googleapis.com/videopoet/paper.pdf
VideoPoet 效果演示

VideoPoet 根据各种文本提示生成的视频。

长视频

提示词:一名宇航员开始在火星上跳舞,背景是五彩缤纷的烟花。

趋动云赋能视频创作

视频生成技术的飞速发展离不开算力的强大支持。随着云计算技术的日益成熟和普及,趋动云作为算力服务商提供了高性能、高可靠性的算力资源,为视频生成技术的进步奠定了坚实基础。利用云计算平台提供的强大算力,视频生成模型能够更高效地训练和推理,从而不断提升生成的质量和效率。

未来,随着算力技术的不断创新和发展,视频生成技术将迎来更加广阔的发展空间。

参考文献

  • https://stability.ai/news/stable-diffusion-3
  • https://arstechnica.com/information-technology/2024/02/stability-announces-stable-diffusion-3-a-next-gen-ai-image-generator/
  • Flow Matching论文地址:https://arxiv.org/abs/2210.02747
  • https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.htm
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-03-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 我爱计算机视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
视频生成领域的发展概述:从多级扩散到LLM
2023年是语言模型(llm)和图像生成技术激增的一年,但是视频生成受到的关注相对较少。今年刚到2月份,OpenAI就发布了一个惊人的视频生成模型Sora。虽然它的架构没有披露,但是通过总结现有的视频生成领域可能能对Sora的构架有所理解。
deephub
2024/02/21
8080
视频生成领域的发展概述:从多级扩散到LLM
与Sora同架构的Stable Diffusion 3.0 震撼发布!4 秒视频生成却翻车,网友:还是等 Sora 吧!
Stability AI 发布了 Stable Diffusion 3,这款图像生成 AI 模型再次刷新了人们的认知。
深度学习与Python
2024/02/29
4360
与Sora同架构的Stable Diffusion 3.0 震撼发布!4 秒视频生成却翻车,网友:还是等 Sora 吧!
AI视频新霸主全网翻车,Ilya奥特曼老黄打起来了!动画出现诡异狗头网友笑疯
昨天诞生的AI视频新霸主——Luma AI的Dream Machine,再次在整个互联网掀起高潮。
新智元
2024/06/17
1870
AI视频新霸主全网翻车,Ilya奥特曼老黄打起来了!动画出现诡异狗头网友笑疯
一文带你了解OpenAI Sora
在国内外大多数AI厂商还在卷大语言模型之际,OpenAI悄无声息地发布了文生视频(text-to-video,简称t2v)模型Sora [1],仅仅几个视频demo,就让整个AI圈子从惊讶到恐惧,惊讶于Sora生成的视频已经到达工业应用级别,恐惧于现有的t2v模型与Sora的差距竟然如此之大。 先看个Sora官方博客展示的demo,当你向Sora输入:“A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.”,Sora则根据该文本生成以下长达1分钟的高清视频。
腾讯技术工程官方号
2024/02/21
5560
一文带你了解OpenAI Sora
试完刚刚开源的StableDiffusion3,我觉得能打败它的只有下一代。
当初SD3 API放出来的时候,他的公司Stability AI已经出现大大小小很多的裂缝了。
数字生命卡兹克
2025/04/14
560
试完刚刚开源的StableDiffusion3,我觉得能打败它的只有下一代。
Sora 面世,视频生成的 GPT-3 时刻来了
2月16日凌晨,正值中国春节法定节假日期间,OpenAI 毫无预兆地发布了 AI 视频生成大模型 Sora。看过视频效果后,网友纷纷感叹「现实,不存在了。」
AI科技评论
2024/02/27
2190
Sora 面世,视频生成的 GPT-3 时刻来了
7.4K Star文生视频Sora开源了?
开源日记
2024/03/25
2800
7.4K Star文生视频Sora开源了?
SD3 正式开源 Sora同源架构
2月16日伴随着OpenAI世界大模型Sora的发布,stability_ai也发布了其最新的模型Stablediffusion3,如果说一个是音视频方向,一个是图像生成方向,那么两者没有必然的联系,但Sora和Stablediffusion3的架构是出奇的一致,核心部分都是采用了Difusion Transformer的方式(在Stablediffusion3中称之为DiT)。本次模型参数量不是很大就当8-12G起吧
疯狂的KK
2024/06/06
2810
SD3 正式开源 Sora同源架构
Stable Diffusion 3深夜横空出世!模型与Sora同架构,也能「理解」物理世界
这次的Stable Diffusion 3,在图像质量、多个对象、拼写能力方面,都得到了显著提升。
新智元
2024/02/26
4340
Stable Diffusion 3深夜横空出世!模型与Sora同架构,也能「理解」物理世界
揭秘Stable Diffusion 3:当AI遇上艺术,创意无界限!
在这个闰年的肯德基星期四,让我们一起探索Stable Diffusion 3(简称SD3),一款革命性的AI艺术创作工具。SD3以其前所未有的提示词理解能力和图像生成技术,重新定义了人工智能与创意表达的边界。本文将深入探讨SD3的技术特点、应用前景以及其对未来创作领域的影响。 词条:Stable Diffusion 3、AI艺术创作、图像生成、创意表达、技术革命。
猫头虎
2024/04/07
7920
揭秘Stable Diffusion 3:当AI遇上艺术,创意无界限!
OpenAI Sora 1分钟视频生成 现实不存在了!
We’re teaching AI to understand and simulate the physical world in motion, with the goal of training models that help people solve problems that require real-world interaction.
疯狂的KK
2024/03/11
7870
OpenAI Sora 1分钟视频生成 现实不存在了!
关于 Sora
最近,OpenAI 在 ChatGPT 后,再次推出王炸,发布了文生视频模型 Sora,引起 AI 圈大震动,Sora 在文生视频领域的突破,不亚于 ChatGPT 在 NLP 领域的突破。
关键帧
2024/03/13
1570
关于 Sora
New Stability AI 最新的3个文生图模型
好久没打开自己的邮箱了,本来要验证一下Meta AI的AI视频能力,突然看到Stability AI的一封邮件,众所周知啊,上一次Stability AI火,还是因为要凉凉,因为偿还巨额债务和前CEO出走,加上SD3的不温不火,当时确实SD3是非常能打的,参数量也是当时最大的,但是奈何生不逢时,FLUX把风头都抢光了,一直说要对标MJ,最终还是被黑森林拉下神坛。
疯狂的KK
2024/10/08
1370
New Stability AI 最新的3个文生图模型
AI日报|Luma推出AI视频模型,又一Sora级选手登场?SD3 Medium发布,图中文效果改善明显
AI日报|仅三个月就下架?微软GPT Builder出局AI竞争赛;马斯克将撤回对奥特曼的诉讼
可信AI进展
2024/06/14
2860
AI生图格局大震!Stable Diffusion 3开源倒计时,2B单机可跑碾压闭源Midjourney
几天前,在Computex 2024大会上,Stability AI联合首席执行官Christian Laforte正式官宣:SD 3 Medium将在6月12日公开发布。
新智元
2024/06/17
2160
AI生图格局大震!Stable Diffusion 3开源倒计时,2B单机可跑碾压闭源Midjourney
Stable Diffusion 3技术报告出炉:揭露Sora同款架构细节
所以,SD3这比DALL·E 3和Midjourney v6都要强的文字以及指令跟随技能,究竟怎么点亮的?
量子位
2024/03/07
3180
Stable Diffusion 3技术报告出炉:揭露Sora同款架构细节
Stability AI杀回来了:视频生成新Demo效果惊人,网友:一致性超群
Stability AI CEO Emad Mostaque最新推文,四段视频引人无数遐想。
量子位
2024/01/23
2040
Stability AI杀回来了:视频生成新Demo效果惊人,网友:一致性超群
Stable Video Diffusion来了,代码权重已上线
本周二,基于 Stable Diffusion 的视频生成模型 Stable Video Diffusion 来了,AI 社区马上开始了热议。
机器之心
2023/11/22
9670
Stable Video Diffusion来了,代码权重已上线
谷歌发布视频生成模型 VideoPoet,AI 连剪辑师的工作也承包了
过去一年,从画图、写诗、代码到语音等生成式内容迎来爆炸性增长,在这当中,被视为 AIGC 高地之一的视频生成(Text-to-Video)受数据、算力多方影响,技术门槛更高,需要克服视频画面质量、画面连续性、文本和视频内容等诸多挑战。
AI科技评论
2023/12/26
6860
谷歌发布视频生成模型 VideoPoet,AI 连剪辑师的工作也承包了
开源的Stable Diffusion 3 Medium效果如何?
在2月份的时候,Stable Diffusion 3曾经公布过其强大的能力,由于其在细节生成上更加可控,不少人就一直期待着这个模型的开源。
算法一只狗
2024/08/16
1420
开源的Stable Diffusion 3 Medium效果如何?
推荐阅读
相关推荐
视频生成领域的发展概述:从多级扩散到LLM
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档