最近与 Sora 有关的新闻内容层出不穷,短时间被大量的“颠覆”、“不存在了”,“炸裂”刷屏后,但是好像没看到讲透 Sora 技术代表的未来图景是什么的文章,这里我想分享下去年 4 月份在 Substack 上读到的一篇文章,作者视角新颖,洞察深刻,虽然讲的是 Midjourney,但是放在 Sora 技术话题方面仍然适用,于是决定全文翻译并分享给大家,同时会在末尾推荐国内几篇和 Sora 话题相关的高质量内容。
全文翻译如下
Midjourney 正在崛起,有望成为下一个 Netflix(甚至挑战 YouTube)。理解这一趋势有助于我们揭开生成式 AI 的神秘面纱。
Midjourney 的背后是一支由 11 人组成的自筹资金团队,他们正朝着成为下一个 Netflix 的目标迈进。他们拥有成功所需的一切要素:增长、数据、用户以及一个高辨识度的品牌。
那么,一个主要依赖提示词来生成图像的 AI 绘图平台,该如何与 Netflix 竞争呢?
首先,我们对生成式 AI 有一个误解:它不仅仅是创造旧媒体内容的工具,它本身就是一种「新媒体」。
当你第一次尝试 Midjourney,可能会不知道要请求什么,生成的图像也许并不完全符合你的期望,这可能会让你有些失望。但别急,很快你就会上瘾,不断地尝试新的提示词。
比如,如果你想生成一只会飞的狗,可以从发送「dogs that can fly」这样的提示词开始:
不久,你就会变成「提示词工程师」,不断丰富你的提示词库:
a golden retriever catching a frisbee in mid-air, Central Park, New York City, action photography, texture, film grain, intricate hasselblad dslr RAW, sunset(纽约市中央公园,一只金毛猎犬在半空中捕捉飞盘,动作摄影,纹理,胶片颗粒,复杂的哈苏数码 RAW,日落)
当 Midjourney 接收到提示词并开始生成图像时,首先会呈现一个模糊的视图(这是 AI 从纯噪声到图像演变的过程):
完成后,系统默认会返回四张图像(你可以选择放大细节或创建变体):
最终结果:
完美吗?可能不是…… Midjourney 生成图像的过程似乎并非一蹴而就。所以……你会不断优化提示词,重试,创造更多变体。
这种不断尝试改进的交互才是关键。所谓的用户体验,就像你反复观看最爱的电影,每次都能有不同的体验。
想象一下,如果《哈利波特》是由韦斯 · 安德森导演的:
或者是由皮克斯动画工作室制作的:
但……这些只是一些有趣的图像吗?只是一种 AI 生成的粉丝艺术吗?
当然,我们也可以探讨更深层次的东西。人们很容易被 AI 生成的图像吸引,所以那些关于女王或教皇的创意图像可以在社交网络上迅速传播。
但这恰恰凸显了媒体范式转变带来的挑战:我们看到的都是熟悉的事物。在这种情况下,我们关注的是「成品」(图像、视频或音乐),而忽略了创作过程本身就是一种「新媒体行动」。
想象一下:
所以,你看得这部电影算是媒体吗?也许是吧…… 因为你仍然可以像往常一样享受它。
那它现在算不算是 Netflix 出品的《黑镜:潘达斯奈基》那样的「互动电影」呢?某种程度上也算,只不过替代剧情是由其他用户「提示」的。
但剥离开表象,你可以将自己生成的提示词转化为另一种东西:一种媒体,它是一种消费体验,部分是由你可以与之对话的 AI 实现的。
AI 激发了一种全新的媒体形态,它不仅提供内容,还包括了富有创造性的“智能”对话服务。
在前文所述中,AI 展现了两个超越人类认知的特点,甚至可以说已经形成了一种关于 AI 的神话(至少在我看来):
你的提示词不只是与 AI 系统进行简单的互动
你输入的提示词以及对生成结果的反馈,实际上是与系统中所有用户的数据相结合,包括那些最初为 AI 提供训练数据并持续贡献的 LLMs。
设想一下,每天有数千亿个数据点被整合进训练模型,然后不断被优化和强化。你今天输入的提示词生成的狗狗图像,可能明天就会有所改进(或者呈现出不同的风格)。
AI 系统的本质是涌现的,充满了不可预测性。
在 Midjourney 中,当你输入提示词,那些从模糊到清晰的图像生成过程,实际上是一个庞大概率生成器的一部分。尽管 Midjourney 可以通过调整权重、对抗网络和持续训练来优化生成结果,但其核心仍然是一个随机生成器。
一旦图像生成,你还可以对其进行微调,比如将狗狗替换为猫咪,或者进行更细致的调整。但在默认情况下,生成式 AI 似乎已经具备了某种自主意识。
实际上,在系统的最深层次,即使是 AI 工程师也无法完全理解其运作机制。
这两点对于理解 AI 作为一种新媒体的本质至关重要。它们意味着:
AI 带来了一个有趣的悖论:它既是传统媒体的制作工具,同时也是媒体本身的一种新形式。
AI 作为媒体,其发展过程在某些方面与历史上的媒体变革有着相似之处:
然而,AI 的独特之处在于,它是首个能够“回溯”并影响以往媒体的媒体形式。电视并没有改变广播的制作方式,流媒体也不是为了制作广播电视而设计的。
但 AI 不同,它既是电影制作人、作家、摄影师和音乐家的工具(甚至可能完全取代他们),也是一种全新的媒体形式。
因此,许多关于 AI 的报道都集中在它如何生成社交媒体上的图像、在 Amazon 上出售的书籍或游戏中的 3D 元素。
但别忘了,AI 本身就是一种媒体。
基于这些,我们可以开始预测未来的发展。其他人也在想象由 AI 生成的未来:
Midjourney 正朝着成为 AI 媒体时代的 Netflix 迈进,这背后的核心理念非常简单:内容为王。
与那些只关注技术工具开发的公司不同,例如 Stability AI 提供了 Midjourney 的基础技术支持,而 OpenAI 则专注于模型训练、工具和 API 的开发,Midjourney 更注重内容的质量和用户体验的提升。
正如历史上电视机、收音机或 VHS 磁带的制造商可能在初期赚得盆满钵满,但最终胜出的是那些拥有电影公司和知识产权的持有者。Midjourney 显然已经认识到了这一点,并且正在积极地构建自己的内容生态。
Midjourney 打造的“观看频道”已经初具规模,拥有百万级别的频道,形成了一个初级的“广播”平台。这个平台还引入了类似于 Netflix 的“点赞”功能,即“rank pairs”,让用户可以对内容进行评价和排序。
尽管 Midjourney 目前还处于发展初期,但其不仅仅是一个技术工具,它正在逐渐成为一个社区平台、社交网络,甚至是一个具有广播功能的公司。这种多元化的发展策略,预示着 Midjourney 在 AI 媒体时代的巨大潜力。
在幕后,Midjourney 正在培养其独特的优势。如果将 AI 交互视为一种新兴媒体,那么制作热门内容就显得至关重要。
以下是对 Midjourney 运作方式的简要说明,至少触及了一个层面(我会避免深入讨论 AI 训练的细节):
想象一下,如果你是一个电视网络,你不仅能获得收视率数据,还能了解观众的观看历史。或者以 TikTok 为例,你不仅知道用户在看什么,还能深入了解他们的偏好和意图。
Midjourney 不仅提升了对提示词的响应能力,还能通过分析用户偏好来创造内容,这让它拥有了深刻的洞察力。虽然这在 AI 领域并不新鲜,但像 Midjourney 这样规模化的平台正在积累越来越丰富的用户洞察,这些洞察还能反馈到系统中。
当你发出请求后,生成式 AI 会从随机噪声开始,逐步调整像素点以生成符合你提示的图像。Checkpoint 技术可以在关键时刻“保存”进度,然后从最有可能产生高质量图像的点继续生成。
例如,如果你想生成一幅带有船只的油画,你可以训练模型找到最佳生成步骤,再结合大量用户反馈,以快速且高质量地完成图像。
Midjourney 正在构建一个庞大的 Checkpoint 模板库,包括不同主题的模板。想象一下,如果你拥有最佳的“喜剧剧集”创作模板,那会是怎样的情景。
Midjourney 的真正魅力在于它正在构建的庞大美学引擎。它不直接决定风格和类型,而是通过规模效应,在创作者社区和系统之间形成闭环,实现一种群体智慧,生成真正符合用户需求和审美的内容。
从这个角度来看,Midjourney 更像是 HBO 而非 Netflix。HBO 以其高质量内容而闻名,Midjourney 也追求类似的定位,尽管这些内容的美学特质是由代码而非传统影视工作室定义的。
以《继承之战》最终季首集的观众人数作为参照,我们可以对 Midjourney 的影响力进行评估:
目前,Midjourney 每天创造超过 27.5 万张图像(最高估计),官网每月浏览量超过 400 万次,Discord 服务器上有近 1500 万活跃成员。
虽然这与 Instagram 每天上传的 1 亿张照片相比还有差距,但我们可以将其视为一个庞大的内容创作焦点小组。
为了成为“下一个 Netflix”,Midjourney 需要从媒体的演变中学习,并牢记:技术固然重要,但无缝的用户体验和令人赞叹的内容才是取胜的关键。
如果 Midjourney:
旧媒体可能会倾向于固守自己的领地。
YouTube 可能会调整策略,引入 AI 工具来生成视频内容,甚至 Netflix 也可能会播放完全由 AI 生成的节目。
但正如历史所示,新一代的创新者总会打破旧有的思维模式、界面设计、风格类型和叙事规则。
Midjourney 拥有足够新颖的视角、庞大的规模和宏伟的愿景,意识到在 AI 时代,它完全有可能成为下一个 Netflix。
「Sora = Magvit + DiT + NaViT + Video Caption,技术上没有太多的创新,但工程上做了大量的工作。Sora 这套框架的优化目标是找训练数据的分布,而不是数据的最小描述长度。所以 Sora team 对博客的标题起的是物理世界的模拟器,不是物理世界规律的发现者。」
「当前的 Unreal Engine(虚幻引擎)等游戏引擎通过复杂的物理公式来模拟现实世界的运作,这些公式涵盖了力学、光学、声音等多个方面,以确保游戏世界的真实性和互动性。这些模拟是基于人类对物理世界规律的理解,并且是在人类认知范围内可以解释和预测的。相比之下,Sora 这样的技术可能通过机器学习和大数据分析,从海量数据中学习并识别出世界的运作模式(pattern)。这些模式可能是人类难以直观理解的,因为它们可能涉及到非常复杂的数据关联和非线性关系。Sora 的优势在于它能够处理和分析远超人类处理能力的大量信息,并从中提取出有用的模式,这些模式可以用来预测未来事件或优化决策过程。」
3.截止目前,OpenAI 官网,OpenAI 官方 X 账号,OpenAI 官方 Tiktok 账号总共发布的 108 个视频和提示词汇总(后台回复 Sora 获取)
「大家可以忽视所有的自媒体文章和 KOL 解读,逐个去感受下 Sora 生成的视频和真实世界的视频、游戏引擎渲染视频以及 CG 特效的区别,重点是观察一些违反物理常识的细节,很有意思,可以直观感受下 Sora 当下的能力边界」
Sora生成视频
[1]
【老奇】阴差阳错 撼动世界的游戏引擎: https://www.bilibili.com/video/BV1Hk4y1q7Rz