Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >被误解的「中文版Sora」背后,字节跳动有哪些技术?

被误解的「中文版Sora」背后,字节跳动有哪些技术?

作者头像
机器之心
发布于 2024-03-18 08:50:38
发布于 2024-03-18 08:50:38
1230
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

作者:蛋酱

2024 开年,OpenAI 就在生成式 AI 领域扔下了重磅炸弹:Sora。

这几年,视频生成领域的技术迭代持续加速,很多科技公司也公布了相关技术进展和落地成果。在此之前,Pika、Runway 都曾推出过类似产品,但 Sora 放出的 Demo,显然以一己之力抬高了视频生成领域的标准。

在今后的这场竞争中,哪家公司将率先打造出超越 Sora 的产品,仍是未知数。

国内这边,目光聚集于一众科技大厂。

此前有消息称,字节跳动在 Sora 发布之前就研发出了一款名为 Boximator 的视频生成模型。

Boximator 提供了一种能够精确控制视频中物体的生成方法。用户无需编写复杂的文本提示,可以直接在参考图像中通过在物体周围画方框来选择目标,然后添加一些方框和线条来定义目标的结束位置或跨帧的整个运动路径,如下图所示:

对此,字节跳动保持了低调的态度:相关人士回复媒体,Boximator 是视频生成领域控制对象运动的技术方法研究项目。目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

在对应的技术论文介绍(https://arxiv.org/abs/2402.01566)中,我们也能看到,Boximator 是以插件的形式运行,可与现有的视频生成模型无缝集成,在保持视频质量的同时,增加运动控制功能。

视频生成背后的技术涉及多个细分方向,与图像 / 视频理解、图像生成、超分辨率等技术都有关系。深挖之后,我们发现在众多分支领域,字节跳动已公开发表了一些研究成果。

这篇文章将介绍来自字节跳动智能创作团队的 9 项研究,涉及文生图、文生视频、图生视频、视频理解等多项最新成果。我们不妨从这些研究中,追踪探索视觉生成类模型的技术进展。

关于视频生成,字节有哪些成果?

在今年 1 月上旬,字节跳动就发布过一个视频生成模型 MagicVideo-V2,一度引发社区热议。

  • 论文标题:MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation
  • 论文链接:https://arxiv.org/abs/2401.04468
  • 项目地址:https://magicvideov2.github.io/

MagicVideo-V2 的创新在于将文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块集成到端到端视频生成 pipeline 中。得益于这一架构设计,MagicVideo-V2 在「审美」上能够保持着稳定的高水平表现,不仅生成美观的高分辨率视频,还兼具比较好的保真度和流畅度。

具体而言,研究者首先使用 T2I 模块创建一个 1024×1024 的图像,封装所描述的场景。随后,I2V 模块对该静态图像进行动画处理,生成 600×600×32 的帧序列,之前的潜在噪声确保了初始帧的连续性。V2V 模块将这些帧增强到 1048×1048 分辨率,同时完善视频内容。最后,插值模块将序列扩展到 94 个帧,得到 1048×1048 分辨率的视频,所生成视频具有较高的美学质量和时间平滑性。

研究者进行的大规模用户评估证明:MagicVideo-V2 比一些知名的 T2V 方法更受青睐(绿色、灰色和粉色条分别代表 MagicVideo-V2 被评为较好、相当或较差)。

高质量视频生成背后

统一视觉和语言学习的研究范式

从 MagicVideo-V2 的论文中,我们可以看出,视频生成技术的进展,离不开文生图、图生视频等 AIGC 技术的铺路。而生成高审美水准内容的基础在于理解,特别是模型对于视觉和语言两种模态学习、融合能力的进步。

近年来,大语言模型的可扩展性和通用能力,催生出了统一视觉和语言学习的研究范式。为了跨越「视觉」和「语言」两种模态之间的天然鸿沟,研究者们将预训练好的大语言模型和视觉模型的表征连接起来,提取跨模态特性,完成如视觉问题解答、图像字幕、视觉知识推理和对话等任务。

在这些方向上,字节跳动也有相关探索。

比如,针对开放世界视觉任务中的多目标推理分割挑战,字节跳动联合北京交通大学、北京科技大学的研究者提出了高效像素级推理大模型 PixelLM,并将其开源。

  • 论文标题:PixelLM:Pixel Reasoning with Large Multimodal Model
  • 论文链接:https://arxiv.org/pdf/2312.02228.pdf
  • 项目地址:https://pixellm.github.io/

PixelLM 能够熟练地处理具有任意数量的开放集目标和不同推理复杂性的任务,下图展示了 PixelLM 在各种分割任务中生成高质量目标掩码的能力。

PixelLM 的核心是一个新颖的像素解码器和一个分割 codebook:codebook 包含了可学习的 token,这些 token 编码了与不同视觉尺度目标参考相关的上下文和知识,像素解码器根据 codebook token 的隐藏嵌入和图像特征生成目标掩码。在保持 LMM 基本结构的同时,PixelLM 可以在没有额外的、昂贵的视觉分割模型的情况下生成高质量的掩码,从而提高了效率和向不同应用程序的可迁移性。

值得关注的是,研究者构建了一个全面的多目标推理分割数据集 MUSE。他们从 LVIS 数据集中选取了共 910k 个高质量实例分割掩码以及基于图像内容的详细文本描述,利用这些构建了 246k 个问题 - 答案对。

相比于图像,如果涉及视频内容,模型遭遇的挑战难度就又增加了不少。因为视频不仅包含丰富多变的视觉信息,还涉及时间序列的动态变化。

现有的多模态大模型在处理视频内容时,通常将视频帧转化为一系列的视觉 token,并与语言 token 结合以生成文本。但随着生成文本长度的增加,视频内容的影响会逐渐减弱,导致生成的文本越来越多地偏离原视频内容,产生所谓的「幻觉」。

面对这一问题,字节跳动联合浙江大学提出了专门针对视频内容的复杂性设计的多模态大模型 Vista-LLaMA。

  • 论文标题:Vista-LLaMA:Reliable Video Narrator via Equal Distance to Visual Tokens
  • 论文链接:https://arxiv.org/pdf/2312.08870.pdf
  • 项目地址:https://jinxxian.github.io/Vista-LLaMA/

Vista-LLaMA 采用了一种改良的注意力机制 —— 视觉等距离 token 注意力(EDVT),在处理视觉与文本 token 时去除了传统的相对位置编码,同时保留了文本与文本之间的相对位置编码。这种方法大幅提高了语言模型对视频内容的理解深度和准确性。

特别是,Vista-LLaMA 引入的序列化视觉投影器为视频中的时间序列分析问题提供了新的视角,它通过线性投影层编码视觉 token 的时间上下文,增强了模型对视频动态变化的理解能力。

在最近被 ICLR 2024 接收的一项研究中,字节跳动的研究者还探讨了一种提升模型对视频内容学习能力的预训练方法。

由于视频 - 文本训练语料的规模和质量有限,大多数视觉语言基础模型都采用图像 - 文本数据集进行预训练,并主要关注视觉语义表征建模,而忽略了时间语义表征和相关性。

为了解决这个问题,他们提出了 COSA,一种串联样本预训练视觉语言基础模型。

  • 论文标题:COSA: Concatenated Sample Pretrained Vision-Language Foundation Model
  • 论文链接:https://arxiv.org/pdf/2306.09085.pdf
  • 项目主页:https://github.com/TXH-mercury/COSA

COSA 仅使用图像 - 文本语料库对视觉内容和事件级时间线索进行联合建模。研究者将多个图像 - 文本对按顺序串联起来,作为预训练的输入。这种转换能有效地将现有的图像 - 文本语料库转换成伪长格式视频 - 段落语料库,从而实现更丰富的场景转换和明确的事件 - 描述对应关系。实验证明,COSA 能够持续提高各种下游任务的性能,包括长 / 短视频 - 文本任务和图像 - 文本任务(如检索、字幕和问题解答)。

从图像到视频

被重新认识的「扩散模型」

在视觉 - 语言模型之外,扩散模型同样是大部分视频生成模型采用的技术。

通过在大量图像 - 文本配对数据集上进行严格训练,扩散模型能够完全根据文本信息生成细节丰富的图像。除了图片生成,扩散模型还可用于音频生成、时间序列生成、3D 点云生成等等。

比如在一些短视频应用中,用户只需要提供一张图片,就能生成一段以假乱真的动作视频。

数百年来保持神秘微笑的蒙娜丽莎,都能马上跑起来:

这项有趣应用背后的技术,是新加坡国立大学和字节跳动的研究者联合推出的「MagicAnimate」。

MagicAnimate 是一个基于扩散的人类图像动画框架,在根据特定的运动序列生成视频的任务中,能够很好地保证整个动画的时间一致性并提升动画保真度。而且,MagicAnimate 项目是开源的。

  • 论文标题:MagicAnimate:Temporally Consistent Human Image Animation using Diffusion Model
  • 论文链接:https://arxiv.org/pdf/2311.16498.pdf
  • 项目地址:https://showlab.github.io/magicanimate/

为了解决生成动画普遍存在的「闪烁」问题,研究者通过将时间注意力(temporal attention)块合并到扩散主干网络中,来构建用于时间建模的视频扩散模型。

MagicAnimate 将整个视频分解为重叠的片段,并简单地对重叠帧的预测进行平均。最后,研究者还引入图像 - 视频联合训练策略,以进一步增强参考图像保留能力和单帧保真度。虽然仅接受了真实人类数据的训练,MagicAnimate 却展现出了泛化到各种应用场景的能力,包括对未见过的领域数据进行动画处理、与文本 - 图像扩散模型的集成以及多人动画等。

另一项基于扩散模型思想的研究「DREAM-Talk」,则解决了从单张肖像图像生成会说话的情绪化人脸的任务。

  • 论文标题:DREAM-Talk:Diffusion-based Realistic Emotional Audio-driven Method for Single Image Talking Face Generation
  • 论文链接:https://arxiv.org/pdf/2312.13578.pdf
  • 项目地址:https://dreamtalkemo.github.io/

我们知道,在这项任务中,很难同时实现富有表现力的情感对话和准确的唇语同步,通常为了保证唇语同步的准确性,表现力往往会大打折扣。

「DREAM-Talk」是一个基于扩散的音频驱动框架,分为两个阶段:首先,研究者提出了一个新颖的扩散模块 EmoDiff,可根据音频和参考情绪风格生成多种高度动态的情绪表情和头部姿势。鉴于唇部动作与音频之间的强相关性,研究者随后利用音频特征和情感风格对动态进行了改进,从而提高了唇部同步的准确性,此外还部署了一个视频到视频渲染模块,实现了将表情和唇部动作转移到任意肖像。

从效果上看,DREAM-Talk 在表现力、唇部同步准确性和感知质量方面的确不错:

但不管是图像生成还是视频生成,当前基于扩散模型路线的研究都还有一些基础挑战需要解决。

比如很多人关心生成内容的质量问题(对应 SAG、DREAM-Talk),这可能与扩散模型的生成过程中的一些步骤有关,比如引导采样。

扩散模型中的引导采样大致可分为两类:需要训练的和无需训练的。免训练引导采样是利用现成的预训练网络(如美学评估模型)来引导生成过程,旨在以更少的步骤和更高的精度从预训练的模型中获取知识。当前的训练无指导采样算法基于对干净图像的一步估计来获得指导能量函数。然而,由于预训练网络是针对干净图像进行训练的,因此干净图像的一步估计过程可能不准确,尤其是在扩散模型的早期阶段,导致早期时间步骤的指导不准确。

针对该问题,字节跳动和新加坡国立大学的研究者共同提出了 Symplectic Adjoint Guidance (SAG)。

  • 论文标题:Towards Accurate Guided Diffusion Sampling through Symplectic Adjoint Method
  • 论文链接:https://arxiv.org/pdf/2312.12030.pdf

SAG 通过两个内阶段计算梯度引导:首先,SAG 通过 n 个函数调用估计干净图像,其中 n 作为一个灵活的参数,可以根据特定的图像质量要求进行调整。其次,SAG 使用对称偶方法精确高效地获得关于内存需求的梯度。这种方法可支持各种图像和视频生成任务,包括风格引导图像生成、美学改进和视频风格化,并有效提升了生成内容的质量。

最近入选 ICLR 2024 的一篇论文,则着重讨论了「扩散概率模型梯度反向传播的临界灵敏度方法」。

  • 论文标题:Adjoint Sensitivity Method for Gradient Backpropagation of Diffusion Probabilistic Models
  • 论文链接:https://arxiv.org/pdf/2307.10711.pdf

由于扩散概率模型的采样过程涉及对去噪 U-Net 的递归调用,因此 naïve 梯度反向传播需要存储所有迭代的中间状态,从而导致极高的内存消耗。

在这篇论文中,研究者提出的 AdjointDPM 首先通过求解相应的概率流 ODE 从扩散模型中生成新样本。然后,通过求解另一个增强的 ODE,使用邻接灵敏度方法反向传播模型参数(包括调节信号、网络权重和初始噪声)损失的梯度。为了减少前向生成和梯度反向传播过程中的数值误差,研究者使用指数积分进一步将概率流 ODE 和增强型 ODE 重新参数化为简单的非刚性 ODE。

研究者指出,AdjointDPM 在三个任务中极具价值:将视觉效果转换为识别文本嵌入、针对特定类型的风格化对扩散概率模型进行微调,以及优化初始噪声以生成用于安全审计的对抗样本,以减少优化工作中的成本。

对于视觉类的感知任务,采用文本到图像的扩散模型作为特征提取器的方法也受到越来越多的关注。在这一方向上,字节跳动的研究者在论文中提出了一种简单而有效的方案。

  • 论文标题;Harnessing Diffusion Models for Visual Perception with Meta Prompts
  • 论文链接:https://arxiv.org/pdf/2312.14733.pdf

这篇论文的核心创新是在预训练的扩散模型中引入可学习的嵌入(元提示)以提取感知特征,不依赖额外的多模态模型来生成图像标题,也不使用数据集中的类别标签。

元提示有两方面的作用:首先,作为 T2I 模型中文本嵌入的直接替代物,它可以在特征提取过程中激活与任务相关的特征;其次,它将用于重新排列提取的特征,以确保模型专注于与手头任务最相关的特征。此外,研究者还设计了一种循环细化训练策略,充分利用扩散模型的特性,从而获得更强的视觉特征。

「中文版 Sora」诞生之前

还有多远的路要走?

在这几篇新论文中,我们已经了解到字节跳动这样的国内科技公司,在视频生成技术上的一系列积极的探索。

但是与 Sora 相比,无论是字节跳动,还是 AI 视频生成领域的一众明星公司,都存在肉眼可见的差距。Sora 的优势建立在对 Scaling Law 的信仰和突破性的技术创新上:通过 patchs 统一视频数据,依托 Diffusion Transformer 等技术架构和 DALL・E 3 的语义理解能力,真正做到了「遥遥领先」。

从 2022 年文生图的大爆发,到 2024 年 Sora 的横空出世,人工智能领域的技术迭代速度,已经超过了大家的想象。2024 年,相信这一领域还会出现更多的「爆款」。

字节显然也在加紧投入技术研发。近期,谷歌 VideoPoet 项目负责人蒋路,开源多模态大模型 LLaVA 团队成员之一、前微软研究院首席研究员 Chunyuan Li 均被曝出已加入字节跳动智能创作团队。该团队还在大力招聘,官网上已放出多个大模型算法相关岗位。

不仅仅是字节,BAT 等老牌巨头也放出众多令人瞩目的视频生成研究成果,一众大模型创业公司更是极具冲劲。文生视频技术又将出现哪些新的突破?我们拭目以待。

© THE END

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-03-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿
最近几天,据说全世界的风投机构开会都在大谈 Sora。自去年初 ChatGPT 引发全科技领域军备竞赛之后,已经没有人愿意在新的 AI 生成视频赛道上落后了。
机器之心
2024/02/26
1790
揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿
万字长文 | Sora技术解析报告
在深度学习革命之前,传统的图像生成技术依赖于基于手工创建特征的纹理合成和纹理映射等方法。这些方法在生成复杂而生动的图像方面能力有限。
NewBeeNLP
2024/03/07
1.6K0
万字长文 | Sora技术解析报告
国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收
2 月 16 日,OpenAI Sora 的发布无疑标志着视频生成领域的一次重大突破。Sora 基于 Diffusion Transformer 架构,和市面上大部分主流方法(由 2D Stable Diffusion 扩展)并不相同。
机器之心
2024/02/26
3830
国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收
爆火Sora震惊威尔·史密斯,真人整活吃意面视频!OpenAI技术路线或早在1月被成功预言
但如今,Sora已经做到了逼真似真人、毫无破绽,所以才让威尔史密斯成功骗过了大众,这太可怕了!
新智元
2024/02/26
1890
爆火Sora震惊威尔·史密斯,真人整活吃意面视频!OpenAI技术路线或早在1月被成功预言
Sora不开源,微软给你开源!全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂
Sora虽爆火但闭源,给学术界带来了不小的挑战。学者们只能尝试使用逆向工程来对Sora复现或扩展。
新智元
2024/03/25
1440
Sora不开源,微软给你开源!全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂
爆火Sora背后的技术,一文综述扩散模型的最新发展方向
为了使机器具有人类的想象力,深度生成模型取得了重大进展。这些模型能创造逼真的样本,尤其是扩散模型,在多个领域表现出色。扩散模型解决了其他模型的限制,如 VAEs 的后验分布对齐问题、GANs 的不稳定性、EBMs 的计算量大和 NFs 的网络约束问题。因此,扩散模型在计算机视觉、自然语言处理等方面备受关注。
机器之心
2024/02/26
5460
爆火Sora背后的技术,一文综述扩散模型的最新发展方向
OpenAI 的 ​Sora 技术报告详解
里面有 Open AI的训练思路以及 Sora 详细的技术特性,我从里面找了一些要点,详细的可以去看完整内容。
周萝卜
2024/02/21
3740
OpenAI  的 ​Sora 技术报告详解
OpenAI Sora 1分钟视频生成 现实不存在了!
We’re teaching AI to understand and simulate the physical world in motion, with the goal of training models that help people solve problems that require real-world interaction.
疯狂的KK
2024/03/11
7810
OpenAI Sora 1分钟视频生成 现实不存在了!
首批类Sora模型出现,色拉布上线Snap Video,效果优于Pika、不输Gen-2
最近,OpenAI 视频生成模型 Sora 的爆火,给基于 Transformer 的扩散模型重新带来了一波热度,比如 Sora 研发负责人之一 William Peebles 与纽约大学助理教授谢赛宁去年提出的 DiT(Diffusion Transformer)。
机器之心
2024/03/07
1140
首批类Sora模型出现,色拉布上线Snap Video,效果优于Pika、不输Gen-2
OpenAI Sora模型原理解析!
OpenAI Sora文生视频模型一经亮相再次沸腾了整个AI 圈,也是ChatGPT掀起GenAI热潮时隔一年后,OpenAI再次史诗级的更新。随后,OpenAI公布的技术综述[文献1]: 视频生成模型作为世界模拟器,更是充分展现了其勃勃雄心,这无疑为AI领域注入了新的活力与期待。
算法进阶
2024/02/29
3930
OpenAI Sora模型原理解析!
探索AI视频生成新纪元:文生视频Sora VS RunwayML、Pika及StableVideo——谁将引领未来
由于在AI生成视频的时长上成功突破到一分钟,再加上演示视频的高度逼真和高质量,Sora立刻引起了轰动。在Sora横空出世之前,Runway一直被视为AI生成视频的默认选择,尤其是自去年11月推出第二代模型以来,Runway还被称为“AI视频界的MidJourney”。第二代模型Gen-2不仅解决了第一代AI生成视频中每帧之间连贯性过低的问题,在从图像生成视频的过程中也能给出很好的结果。
汀丶人工智能
2024/02/19
2.3K0
探索AI视频生成新纪元:文生视频Sora VS RunwayML、Pika及StableVideo——谁将引领未来
深入理解Sora技术原理
OpenAI 发布的视频生成模型 Sora(https://openai.com/sora),能根据文本生成长达一分钟的高质量视频,理论上支持任意分辨率,如 1920x1080 、1080x1920 ,生成能力远超此前只能生成 25 帧 576x1024 图像的顶尖视频生成模型 Stable Video Diffusion。
得物技术
2024/03/20
4620
深入理解Sora技术原理
阿里最新图生视频模型效果好得可比肩 Sora,但 0 代码“假”开源让国内外网友骂翻了天?
近日,阿里巴巴集团智能计算研究院上线了一款 AI 图生视频模型 EMO(Emote Portrait Alive)。据悉,EMO 是一种富有表现力的音频驱动型肖像视频生成框架,用户用户只需要提供一张照片和一段任意音频文件,EMO 即可生成具有丰富面部表情和多种头部姿态的语音头像视频。此外,EMO 还可以根据输入音频的长度生成任意长度的视频。
深度学习与Python
2024/03/07
4130
阿里最新图生视频模型效果好得可比肩 Sora,但 0 代码“假”开源让国内外网友骂翻了天?
Sora的前世今生:从文生图到文生视频
最近AI圈内乃至整个科技圈最爆的新闻莫过于OpenAI的Sora了,感觉热度甚至远超之前ChatGPT发布时的热度。OpenAI也是放出了Sora的技术报告(有一定的信息量,也留下了大量的想象空间)。
腾讯技术工程官方号
2024/02/23
1.3K0
Sora的前世今生:从文生图到文生视频
万字长文解构中国如何复刻 Sora:模型架构、参数规模、数据规模、训练成本
导语 OpenAI 越来越不“Open”了,尽管发布多个轰动世界的闭源大模型——从 ChatGPT 到 Sora——伴随的技术报告却并不“技术”,更像一种营销。这次 Sora 的技术博客明确表示不分享技术实现细节,只提供模型设计理念及其“炫酷”的效果展示。 而尚在内测阶段的 Sora ,其轰动效应仅次于一年多前 ChatGPT 的“核爆”。从结果来看,Sora 均能在维持高分辨率输出的同时,在视频生成长度以及一致性层面,实现对于现有视频生成模型的碾压式超越。 在国人感叹于 Sora 的惊赞效果、顿悟这一人类与 AI 文明交汇时刻的同时,一面是哀鸿遍野于我们与 OpenAI 的进一步宏大差距,一面是各路神仙从各种角度予以技术分析、点评或拆解。 今日此时,中国的 AI 再一次站在了十字路口。作为技术人我们好奇 Sora 的实现细节究竟如何?作为中国的创业者,我们同样追问 Sora 能否复刻?中国复刻 Sora 要跨过哪些门槛?能否共趟一条中国 AI 强而有为的逆袭之路? 本文旨在提供对 Sora 技术路线的有理有据的“猜想”,其主要依据是出门问问训练跨模态大语言模型「序列猴子」获得的实战经验以及对相关文献的梳理。 错漏之处,文责自负,欢迎业界同仁批评指正,以期吾辈共勉。
深度学习与Python
2024/03/07
1.1K0
万字长文解构中国如何复刻 Sora:模型架构、参数规模、数据规模、训练成本
Stable Diffusion 3震撼发布,采用Sora同源技术,文字终于不乱码了
继 OpenAI 的 Sora 连续一周霸屏后,昨晚,生成式 AI 顶级技术公司 Stability AI 也放了一个大招 ——Stable Diffusion 3。该公司表示,这是他们最强大的文生图模型。
机器之心
2024/02/26
2030
Stable Diffusion 3震撼发布,采用Sora同源技术,文字终于不乱码了
DiT架构大一统:一个框架集成图像、视频、音频和3D生成,可编辑、能试玩
今年 2 月初,Sora 的发布让 AI 社区更加看到了基础扩散模型的潜力。连同以往出现的 Stable Diffusion、PixArt-α 和 PixArt-Σ,这些模型在生成真实图像和视频方面取得了显著的成功。这意味着开始了从经典 U-Net 架构到基于 Transformer 的扩散主干架构的范式转变。
机器之心
2024/05/14
9150
DiT架构大一统:一个框架集成图像、视频、音频和3D生成,可编辑、能试玩
从直观物理学谈到认知科学,Sora不是传统物理模拟器盖棺定论了?
最近,OpenAI 的文生视频模型 Sora 爆火。除了能够输出高质量的视频之外,OpenAI 更是将 Sora 定义为一个「世界模拟器」(world simulators)。
机器之心
2024/03/18
1340
从直观物理学谈到认知科学,Sora不是传统物理模拟器盖棺定论了?
Sora理论基础,论文作者解释原理
这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释。
统计学家
2024/02/26
2660
Sora理论基础,论文作者解释原理
视频版Stable Diffusion:英伟达做到最高1280×2048、最长4.7秒
机器之心报道 编辑:杜伟 在生成式 AI 盛行的今天,英伟达在文本生成视频领域更进了一步,实现了更高分辨率、更长时间。 要说现阶段谁是 AI 领域的「当红辣子鸡」?生成式 AI 舍我其谁。包括 ChatGPT 等对话式 AI 聊天应用、Stable Diffusion 等 AI 绘画神器在内,生成式 AI 展示的效果深深地抓住了人们的眼球。 我们以图像生成模型为例,得益于底层建模技术最近的突破,它们收获了前所未有的关注。如今,最强大的模型构建在生成对抗网络、自回归 transformer 和扩散模型(dif
机器之心
2023/04/21
6000
视频版Stable Diffusion:英伟达做到最高1280×2048、最长4.7秒
推荐阅读
揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿
1790
万字长文 | Sora技术解析报告
1.6K0
国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收
3830
爆火Sora震惊威尔·史密斯,真人整活吃意面视频!OpenAI技术路线或早在1月被成功预言
1890
Sora不开源,微软给你开源!全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂
1440
爆火Sora背后的技术,一文综述扩散模型的最新发展方向
5460
OpenAI 的 ​Sora 技术报告详解
3740
OpenAI Sora 1分钟视频生成 现实不存在了!
7810
首批类Sora模型出现,色拉布上线Snap Video,效果优于Pika、不输Gen-2
1140
OpenAI Sora模型原理解析!
3930
探索AI视频生成新纪元:文生视频Sora VS RunwayML、Pika及StableVideo——谁将引领未来
2.3K0
深入理解Sora技术原理
4620
阿里最新图生视频模型效果好得可比肩 Sora,但 0 代码“假”开源让国内外网友骂翻了天?
4130
Sora的前世今生:从文生图到文生视频
1.3K0
万字长文解构中国如何复刻 Sora:模型架构、参数规模、数据规模、训练成本
1.1K0
Stable Diffusion 3震撼发布,采用Sora同源技术,文字终于不乱码了
2030
DiT架构大一统:一个框架集成图像、视频、音频和3D生成,可编辑、能试玩
9150
从直观物理学谈到认知科学,Sora不是传统物理模拟器盖棺定论了?
1340
Sora理论基础,论文作者解释原理
2660
视频版Stable Diffusion:英伟达做到最高1280×2048、最长4.7秒
6000
相关推荐
揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档