
hello,朋友们,我是绛烨。
今天来说一说一个新的东西:世界模型,或许我们应该称它空间智能。
谈起世界模型,第一眼想起来的是李飞飞之前提出的”空间智能“这个概念。
离普通人还是太过遥远了。
但是说起各种3D场景打怪游戏,可能就不陌生了。
你就理解为,他们把游戏场景甚至我们所处世界的这种素材,拿去训练出来的模型,乍一看跟游戏/真实世界一模一样。
这个相比视频生成模型来说,消耗的算力就不是一星半点了,需要一边生成、一边渲染出来,达到实时身处3D空间的效果。
非常吃算力,非常考验团队实力,就我目前了解到的,市面上做空间智能(3D世界)这个模型的,有李飞飞的World Labs、腾讯混元3D世界模型、以及昨天晚上发布的Google Genie3 世界模型这几家比较成熟的(尽管有几家还在搞期货)。
World Labs 空间智能模型是李飞飞创办的World Labs推出的,通过一张图片生成一个逼真、可交互的3D世界。

他们把这个叫做空间智能,意义上就是3D空间,但是我觉得,增加了人类的交互之后,有了时间线,3D空间+时间线=4D空间,会更加贴切一点。

现在使用箭头键或 WASD 移动,使用鼠标单击并拖动以环顾四周:

场景生成后,通过虚拟相机在浏览器中实时渲染。精确控制虚拟相机可以实现艺术化的摄影效果。
可以模拟浅景深,其中只有距离相机一定距离的物体才能聚焦:

还可以模拟推拉变焦,同时调整摄像机的位置和视野 :

可视化 3D 场景的最简单方法是使用深度图, 其中每个像素根据其与相机的距离着色:

世界生成功能以全新方式体验标志性艺术作品。

根据梵高、霍珀、修拉和康定斯基等人的挚爱作品生成了世界。
3D 世界生成可以与其他 AI 工具自然地协同工作。这使得创作者能够利用他们已知的工具来创造新的体验。


已经有很多艺术家使用World Labs应用在他们的创意流程里面,不管是去制作短片,还是结合多个工具进行场景切换等,都呈现出不同的效果。
Eric Solorio 使用World Labs 填补他的创意工作流程中的空白,使得在场景中安排角色并引导精确的摄像机运动变得容易。
Brittani Natali 在他的三部短片中唤起观众不同的情绪,使用的工作流程将 World Labs 的技术与 Midjourney、Runway、Suno、ElevenLabs、Blender 和 CapCut 等工具相结合。
但是话又说回来,这玩意tmd是个期货,还得等一段时间ao。
根据官方的描述,Genie 3 是一个通用世界模型,可以生成多样化交互式环境

Google DeepMind十年来致力于世界模型的研发,这条旅程并不顺利。
刚开始他们在实时的战略游戏环境中来训练智能体,猜猜看是哪款游戏?

他们使用了暴雪娱乐打造的《星际争霸 II》游戏来训练智能体,以虚构的科幻世界为背景,制作了 AlphaStar。

图:AlphaStar 智能体在与 MaNa 的第二场比赛中的可视化图
Genie 3 相较于前两代世界模型,允许实时交互,其一致性和真实感也得到了提升。

体验水和照明等自然现象以及复杂的环境相互作用。
提示: 一名直升机飞行员小心翼翼地飞越带有小瀑布的海岸悬崖。

创造充满活力的生态系统,从动物行为到复杂的植物生命。
提示: 沿着冰川湖畔奔跑,探索森林中的岔路,穿越潺潺的山间溪流。置身于美丽的雪山和松林之中。丰富的野生动物让旅程充满乐趣。

发挥想象力,创造奇妙的场景和富有表现力的动画人物。
提示: 一个梦幻般的广角镜头捕捉了一片郁郁葱葱、沐浴在柔和暮色中的魔法森林。玩家控制一只巨大的萤火虫飞过参天大树,茂密的枝叶在头顶形成浓密的树冠,过滤着阳光,在森林地面投下斑驳的光影。枝繁叶茂之间,点缀着几座迷人的树屋,每座都散发着温暖诱人的光芒。这些树屋大小不一,设计各异,有的像奇异的城堡,有的像舒适的小屋。发光的窗户和微型阳台等微小的细节更增添了它们的魅力。一条蜿蜒的小路在灌木丛下若隐若现,引领观者的目光深入这片魔法森林。整体场景唤起了一种奇妙、宁静的感觉,以及童年梦境中的魔力。

超越地理和时间的界限去探索地方和过去的时代。
提示: 真实世界中的阿尔卑斯山区环境。地形以陡峭的岩石峭壁和充满碎石和碎屑的狭窄峡谷为特色。岩石主要呈灰白色,片片绿色植被依附在崖壁上。峡谷顶部视野开阔,茂密的常绿森林和草地交相辉映。整体主题是崎岖的自然之美和极端地形。

Genie 3 的环境在几分钟内仍能保持基本一致,视觉记忆甚至可以追溯到一分钟前。

可提示的世界事件使得改变生成的世界成为可能,例如改变天气条件或引入新的物体和角色,从而增强导航控制的体验。

选择一个世界设定,然后,选择一个事件,Genie 3 会创建它。
并且,我觉得最大的突破,在于Genie3 能够发送导航操作来为具身智能实现目标,好比机器人可以像人一样沉浸式的打VR游戏了。

一直以来,机器人靠摄像头、雷达等外部传感器来对世界进行感知,但是他们对这个真实直接都没有啥概念,没有记忆、没有场景建模,谈不上智能。

未来AGI的世界,具身智能机器人会有一个这样的仿真模型,根据所见即所得,创建出它自己看到的世界,根据环境交互来让机器人实现自主操作。
也不用现在靠遥控器来操作机器人了。
当然,目前Genie3也存在一些问题
混元3D世界模型可能是目前全球唯一一个可以实际体验、发布并开源的世界模型。

体验地址:https://3d.hunyuan.tencent.com/sceneTo3D

图:360°全景图

图:漫游场景
根据官方的描述,这是业界首个开源可沉浸漫游、可交互、可仿真的世界生成模型,为游戏开发、VR、数字内容创作等领域带来了无限可能。

腾讯混元 3D 世界模型 1.0:
项目:https://3d-models.hunyuan.tencent.com/world/
体验地址:https://3d.hunyuan.tencent.com/sceneTo3D
Hugging Face 模型地址:https://huggingface.co/tencent/HunyuanWorld-1
Github 项目地址:https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0
腾讯已经陆陆续续开源了多个模型,并且在LMArena Vision全球大模型权威榜单中获得国内榜首。

体验完腾讯这个,交互空间还是差一点,但是生成的3D空间比较真实可控。
对比横评完这三家的世界模型,我知道,留给人类的时间不多了。
不是杞人忧天,也不是说制造焦虑。
但是空间智能/世界模型带给各行业的机会,会越来越多。
游戏行业会极大的降低成本,使用模型来进行概念设计等等。
还有文旅行业、文创等,艺术将会重塑,逐渐地,人会走进艺术家们所塑造的他们那个世界。
一个虚幻、充满美好的世界。
更有机会的或许是具身智能吧,谁也说不准。
感谢你的观看。
我创建了一个AI新知圈,为了更好的为需要AI的群友们提供服务,特别的设置了付费门槛。
随着AI的兴起,你也可能会成为AI大神,所以是互相交流的过程,需求/资源对接等等。
这是我推出的第一个AI编程系列:Claude code学习手册。
我做了一个Claude code手册,专门给CC用户扫盲的,其实很多人还是停留在用使用cursor的方法去使用Claude code,CC的操作方法非常多。

初级CC(基本操作): 包括Claude code 概述、环境搭建与安装、基本操作和命令、实际操作流程与案例
中级CC(高级功能与技巧): 包括Claude Code GitHub Actions(代码库)、子Agent(你的开发团队)、 Claude Code Hooks(触发事件)、模型上下文协议 (MCP)(工具)、Claude Code SDK(带一下,需要编程能力)
高级CC(企业组织使用、多租户、监控运维等): 包括企业级优化部署、故障排除与支持、项目实战(待补充)
适合哪些人?
如果你对这个感兴趣,可以直接扫码加我。
点击关注下方账号,你将获得更多关于AI的前沿信息。