首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >通用世界模型Genie 3发布,《星际争霸 II》游戏赢麻了

通用世界模型Genie 3发布,《星际争霸 II》游戏赢麻了

作者头像
AIGC新知
发布2025-08-08 13:15:04
发布2025-08-08 13:15:04
3150
举报
文章被收录于专栏:AIGC新知AIGC新知

hello,朋友们,我是绛烨。

今天来说一说一个新的东西:世界模型,或许我们应该称它空间智能。

谈起世界模型,第一眼想起来的是李飞飞之前提出的”空间智能“这个概念。

离普通人还是太过遥远了。

但是说起各种3D场景打怪游戏,可能就不陌生了。

你就理解为,他们把游戏场景甚至我们所处世界的这种素材,拿去训练出来的模型,乍一看跟游戏/真实世界一模一样。

这个相比视频生成模型来说,消耗的算力就不是一星半点了,需要一边生成、一边渲染出来,达到实时身处3D空间的效果。

非常吃算力,非常考验团队实力,就我目前了解到的,市面上做空间智能(3D世界)这个模型的,有李飞飞的World Labs、腾讯混元3D世界模型、以及昨天晚上发布的Google Genie3 世界模型这几家比较成熟的(尽管有几家还在搞期货)。

李飞飞的World Labs

World Labs 空间智能模型是李飞飞创办的World Labs推出的,通过一张图片生成一个逼真、可交互的3D世界。

他们把这个叫做空间智能,意义上就是3D空间,但是我觉得,增加了人类的交互之后,有了时间线,3D空间+时间线=4D空间,会更加贴切一点。

现在使用箭头键或 WASD 移动,使用鼠标单击并拖动以环顾四周:

相机效果

场景生成后,通过虚拟相机在浏览器中实时渲染。精确控制虚拟相机可以实现艺术化的摄影效果。

可以模拟浅景深,其中只有距离相机一定距离的物体才能聚焦:

还可以模拟推拉变焦,同时调整摄像机的位置和视野 :

3D 效果

可视化 3D 场景的最简单方法是使用深度图, 其中每个像素根据其与相机的距离着色:

走进画作

世界生成功能以全新方式体验标志性艺术作品。

根据梵高、霍珀、修拉和康定斯基等人的挚爱作品生成了世界。

创意工作流程

3D 世界生成可以与其他 AI 工具自然地协同工作。这使得创作者能够利用他们已知的工具来创造新的体验。

已经有很多艺术家使用World Labs应用在他们的创意流程里面,不管是去制作短片,还是结合多个工具进行场景切换等,都呈现出不同的效果。

Eric Solorio 使用World Labs 填补他的创意工作流程中的空白,使得在场景中安排角色并引导精确的摄像机运动变得容易。

Brittani Natali 在他的三部短片中唤起观众不同的情绪,使用的工作流程将 World Labs 的技术与 Midjourney、Runway、Suno、ElevenLabs、Blender 和 CapCut 等工具相结合。

但是话又说回来,这玩意tmd是个期货,还得等一段时间ao。

Google Genie3 世界模型

根据官方的描述,Genie 3 是一个通用世界模型,可以生成多样化交互式环境

Google DeepMind十年来致力于世界模型的研发,这条旅程并不顺利。

刚开始他们在实时的战略游戏环境中来训练智能体,猜猜看是哪款游戏?

他们使用了暴雪娱乐打造的《星际争霸 II》游戏来训练智能体,以虚构的科幻世界为背景,制作了 AlphaStar。

图:AlphaStar 智能体在与 MaNa 的第二场比赛中的可视化图

Genie 3 相较于前两代世界模型,允许实时交互,其一致性和真实感也得到了提升。

Genie 3 功能特性

模拟世界的物理特性

体验水和照明等自然现象以及复杂的环境相互作用。

提示: 一名直升机飞行员小心翼翼地飞越带有小瀑布的海岸悬崖。

模拟自然世界

创造充满活力的生态系统,从动物行为到复杂的植物生命。

提示: 沿着冰川湖畔奔跑,探索森林中的岔路,穿越潺潺的山间溪流。置身于美丽的雪山和松林之中。丰富的野生动物让旅程充满乐趣。

动画和小说建模

发挥想象力,创造奇妙的场景和富有表现力的动画人物。

提示: 一个梦幻般的广角镜头捕捉了一片郁郁葱葱、沐浴在柔和暮色中的魔法森林。玩家控制一只巨大的萤火虫飞过参天大树,茂密的枝叶在头顶形成浓密的树冠,过滤着阳光,在森林地面投下斑驳的光影。枝繁叶茂之间,点缀着几座迷人的树屋,每座都散发着温暖诱人的光芒。这些树屋大小不一,设计各异,有的像奇异的城堡,有的像舒适的小屋。发光的窗户和微型阳台等微小的细节更增添了它们的魅力。一条蜿蜒的小路在灌木丛下若隐若现,引领观者的目光深入这片魔法森林。整体场景唤起了一种奇妙、宁静的感觉,以及童年梦境中的魔力。

探索地点和历史背景

超越地理和时间的界限去探索地方和过去的时代。

提示: 真实世界中的阿尔卑斯山区环境。地形以陡峭的岩石峭壁和充满碎石和碎屑的狭窄峡谷为特色。岩石主要呈灰白色,片片绿色植被依附在崖壁上。峡谷顶部视野开阔,茂密的常绿森林和草地交相辉映。整体主题是崎岖的自然之美和极端地形。

长期环境一致性

Genie 3 的环境在几分钟内仍能保持基本一致,视觉记忆甚至可以追溯到一分钟前。

可提示的世界事件

可提示的世界事件使得改变生成的世界成为可能,例如改变天气条件或引入新的物体和角色,从而增强导航控制的体验。

选择一个世界设定,然后,选择一个事件,Genie 3 会创建它。

并且,我觉得最大的突破,在于Genie3 能够发送导航操作来为具身智能实现目标,好比机器人可以像人一样沉浸式的打VR游戏了。

一直以来,机器人靠摄像头、雷达等外部传感器来对世界进行感知,但是他们对这个真实直接都没有啥概念,没有记忆、没有场景建模,谈不上智能。

未来AGI的世界,具身智能机器人会有一个这样的仿真模型,根据所见即所得,创建出它自己看到的世界,根据环境交互来让机器人实现自主操作。

也不用现在靠遥控器来操作机器人了。

当然,目前Genie3也存在一些问题

  • 行动空间有限,目前可直接执行的操作范围目前受到限制,一来是交互时长限制。
  • 与其他代理的交互和模拟。在建模共享环境中,多个独立代理之间的复杂交互仍然是挑战。
  • 准确表示真实世界的位置。Genie3目前无法以完美的地理精度模拟真实世界的位置。
  • 文本渲染。通常只有在输入世界描述中提供时才会生成清晰易读的文本。
  • 交互时长有限。该模型目前支持几分钟的持续交互,但无法支持长达数小时的交互。

腾讯混元3D世界模型

混元3D世界模型可能是目前全球唯一一个可以实际体验、发布并开源的世界模型。

体验地址:https://3d.hunyuan.tencent.com/sceneTo3D

图:360°全景图

图:漫游场景

根据官方的描述,这是业界首个开源可沉浸漫游、可交互、可仿真的世界生成模型,为游戏开发、VR、数字内容创作等领域带来了无限可能。

腾讯混元 3D 世界模型 1.0:

项目:https://3d-models.hunyuan.tencent.com/world/

体验地址:https://3d.hunyuan.tencent.com/sceneTo3D

Hugging Face 模型地址:https://huggingface.co/tencent/HunyuanWorld-1

Github 项目地址:https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0

腾讯已经陆陆续续开源了多个模型,并且在LMArena Vision全球大模型权威榜单中获得国内榜首。

体验完腾讯这个,交互空间还是差一点,但是生成的3D空间比较真实可控。

对比横评完这三家的世界模型,我知道,留给人类的时间不多了。

不是杞人忧天,也不是说制造焦虑。

但是空间智能/世界模型带给各行业的机会,会越来越多。

游戏行业会极大的降低成本,使用模型来进行概念设计等等。

还有文旅行业、文创等,艺术将会重塑,逐渐地,人会走进艺术家们所塑造的他们那个世界。

一个虚幻、充满美好的世界。

更有机会的或许是具身智能吧,谁也说不准。

感谢你的观看。

写在最后

我创建了一个AI新知圈,为了更好的为需要AI的群友们提供服务,特别的设置了付费门槛。

随着AI的兴起,你也可能会成为AI大神,所以是互相交流的过程,需求/资源对接等等。

这是我推出的第一个AI编程系列:Claude code学习手册。

我做了一个Claude code手册,专门给CC用户扫盲的,其实很多人还是停留在用使用cursor的方法去使用Claude code,CC的操作方法非常多。

初级CC(基本操作): 包括Claude code 概述、环境搭建与安装、基本操作和命令、实际操作流程与案例

中级CC(高级功能与技巧): 包括Claude Code GitHub Actions(代码库)、子Agent(你的开发团队)、 Claude Code Hooks(触发事件)、模型上下文协议 (MCP)(工具)、Claude Code SDK(带一下,需要编程能力)

高级CC(企业组织使用、多租户、监控运维等): 包括企业级优化部署、故障排除与支持、项目实战(待补充)

适合哪些人?

  • AI产品经理,想用CC开发AI产品的
  • 初中级程序员,非常友好
  • AI爱好者,可能有点难度(需要懂一点Linux等)
  • 其他文科转码

如果你对这个感兴趣,可以直接扫码加我。

点击关注下方账号,你将获得更多关于AI的前沿信息。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-08-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC新知 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 李飞飞的World Labs
    • 相机效果
    • 3D 效果
    • 走进画作
    • 创意工作流程
  • Google Genie3 世界模型
    • Genie 3 功能特性
      • 模拟世界的物理特性
      • 模拟自然世界
      • 动画和小说建模
      • 探索地点和历史背景
      • 长期环境一致性
      • 可提示的世界事件
  • 腾讯混元3D世界模型
    • 写在最后
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档