OpenAI的Sora深度解析

原创

GPT4算法工程师

发布于 2024-03-14 14:57:32

4480

1 Sora是什么

"60s超长长度": Sora的视频长度达到了60秒，这比pika和runway生成的4秒视频大大拉开了差距。这段时间内，动作连贯流畅，呈现出一种独特的艺术感，观感更加丰富，让人仿佛沉浸其中，难以自拔。
"单视频多角度镜头": 在Sora的60秒视频中，不仅能够保持主角色的一致性，而且还能够呈现出多个不同角度的镜头。这种创新的拍摄方式使得观众可以从不同的视角全方位地感受到视频内容，增加了观赏的乐趣和视觉效果。
"世界模型": Sora所采用的虚幻引擎5(Unreal Engine 5)技术，使其具备了模拟世界状态产生影响的能力。例如，画家可以在画布上不断添加新的笔触，或者一个人吃汉堡时留下咬痕。这种技术的运用让视频内容更加生动有趣，仿佛将观众带入了一个真实存在的世界中。

2 Sora解决什么问题

技术上的领先：Sora在技术上远远领先于之前的runway和pika。与这些工具相比，Sora不仅具有生成视频的能力，还具备了理解自然语言和物理世界的能力。这使得Sora能够更加智能地生成视频内容，呈现出更加真实和生动的画面。
成本的大幅降低：Sora的出现极大地降低了短视频制作的成本。只需提供简单的提示词，就能够生成制作精良的60秒视频。此外，Sora还支持使用图片或视频片段进行扩展，生成全新的视频，甚至能够将两个视频合并整合成一个新的视频。这种低成本的制作方式使得原先需要大量人力物力的汽车广告视频或电影宣传片等也可以通过AI生成，从而降低了制作的成本，提高了效率。
生成4K图片：除了生成视频外，Sora还能够生成高分辨率的图像，分辨率高达2048x2048。这使得Sora成为了生成高质量图片的又一个选择，与已有的Midjourney和Dall-E等工具相比，Sora的出现为用户提供了更多的选择，满足了不同需求的用户对于高分辨率图片的需求。

3 Sora技术原理

Sora的训练受到了大型语言模型（Large Language Model）的启发，这些模型通过在互联网规模的数据上进行训练，获得了广泛的能力。但Sora不同于传统的语言模型，它是一种扩散型变换器模型（Diffusion Transformer）。这意味着Sora能够通过逐步消除视频中的噪声，从一开始看似静态噪声的视频出发，逐步生成清晰的视频内容。与此同时，Sora还具备扩展视频长度的能力，使得已生成的视频能够更加长久地延续。通过预见多帧内容，Sora成功克服了确保视频主体即便暂时消失也能保持一致性的难题。
Sora采用了Transformer架构，借鉴了GPT模型的成功。它将视频和图像分解为小的数据单元——补丁，每个补丁相当于GPT中的一个词语，从而实现了对视觉数据的统一处理。通过这种方式，Sora能够在更广泛的视觉数据上进行训练，覆盖了不同的时长、分辨率和画面比例，从而实现了前所未有的扩展性能。
除了借鉴GPT模型，Sora还利用了DALL·E的研究成果。它利用了DALL·E 3的重新标注技术，为视觉训练数据生成高度描述性的说明文字，从而使模型能够更加忠实地根据用户的文本指示生成视频。不仅如此，Sora还能够将现有的静态图像转化为视频，精确地动画化图像内容，并注意到细小的细节。模型还具备扩展现有视频或补全缺失帧的能力，从而实现了更加全面的视频生成功能。
总的来说，Sora为理解和模拟现实世界奠定了基础，这是实现人工通用智能（AGI）的重要里程碑。其融合了大型语言模型、扩散型变换器模型和重新标注技术等多种技术，实现了对视频生成的颠覆性突破，为未来的人工智能发展带来了新的可能性。

4 我们普通人该怎么做

. 在当今竞争激烈的AI领域，纯通用AI技术的创业确实存在着一定的风险。因为像大型科技公司这样的巨头通常也会涉足通用技术的研发，一旦它们发布类似的产品，对于创业公司可能会带来毁灭性的打击。例如，最近Sora的发布对于刚获得融资的pika公司造成了巨大的冲击，据说一些投资人甚至从睡不安稳到直接睡不着了。
. AI与垂直行业的结合则展现出了巨大的商业机会。通过深度挖掘一个特定的行业方向，创业公司可以做出一些在特定领域深度发展的事情。大型科技公司通常不会涉足这些细分小赛道，因此抓住一个细分市场对于创业公司来说也能取得不错的成绩。举例来说，结合Sora技术来开展小说推文服务就是一个很好的机会。
. 另外一种创业模式是建立套壳Sora网站，类似于之前套壳GPT-4、Midjourney和其他大型模型的网站。通过这种方式，创业公司可以提供定制化的服务，满足客户的个性化需求。
. 还有一种创业方式是通过销售Sora账号、提供充值、拼车等服务来盈利。这种模式类似于之前代充ChatGPT Plus的做法，通过为用户提供方便的服务来获取收益。
. 利用Sora技术来制作短视频矩阵也是一个不错的创业方向。由于Sora技术的优势，创业公司可以早早地在短视频网站上占据一席之地，从而获取更多的用户和流量。
. 最后，知识付费也是一个潜在的盈利模式。利用Sora技术开展知识付费课程，通过传授专业知识和技能来获取收益，因为信息差本身就是一种价值，而Sora的技术可以帮助创业公司更好地传递知识和信息。

5 几点思考

. 深入思考意味着要追溯信息的来源，因为消化过的知识虽然更易理解，但往往会失去一些原始信息。因此，寻找信息的源头能够带来更深层次的思考和理解。
. 苹果的Vision Pro与Sora的结合将为我们带来一种全新的体验，将现实与虚拟世界融合在一起，预示着元宇宙的到来。这种技术的发展将彻底改变我们对现实和虚拟的认知和体验。
. 视频所包含的信息密度远高于文字，而Sora具有理解视频的能力，如果能够直接为Sora提供所有视频网站和摄像头数据等，那么人工智能通用智能可能会在短时间内实现。
. 虽然我们曾认为国内已经达到了GPT-3.5的水平，距离GPT-4只有一年半的时间，但Sora的出现立即让我们感受到了巨大的差距。而据称OpenAI还有许多尚未发布的新技术，比如GPT-5等，预示着人工智能领域的持续进步和创新。
. 随着AI的发展，有规律、重复性强的工作将会被自动化取代。因此，我们需要转变教育方式，不再局限于应试教育，而是更注重培养孩子的创造力，因为人类的创意和创造力是无法替代的宝贵财富。
. 在这个快速变化的世界中，抓住不变的东西是至关重要的。所有的需求都可以归结为人性的需求，因此在变革中保持对人性的关注和理解是至关重要的。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

gpt