首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >腾讯混元发布业界首个原生 3D 重建漫游模型,登顶世界模型能力榜首

腾讯混元发布业界首个原生 3D 重建漫游模型,登顶世界模型能力榜首

原创
作者头像
疯狂的KK
发布2025-09-03 09:21:04
发布2025-09-03 09:21:04
8690
举报
文章被收录于专栏:AI绘画AI绘画

2025 年 9 月 2 日,腾讯混元团队正式推出世界模型系列最新力作 ——HunyuanWorld-Voyager(混元 Voyager)。作为业界首个支持原生 3D 重建的超长漫游世界模型,其在斯坦福大学李飞飞团队主导的 WorldScore 基准测试中以 77.62 分的综合成绩问鼎榜首,刷新了视频生成与 3D 场景建模的技术天花板。

一、突破传统框架:从平面视频到原生 3D 场景的跨越

传统视频生成模型受制于空间一致性局限,难以构建可交互的立体场景;而直接 3D 生成又面临训练数据稀缺与内存效率低下的挑战。混元 Voyager 创新性地将场景深度预测融入视频生成流程,通过 “相机可控 + 3D 记忆” 双轨技术,实现从初始视图到自由漫游的全链路升级:

  • 相机轨迹精确控制:用户可通过键盘 / 摇杆指定相机运动路径,模型基于深度估计与空间投影,生成视角连贯的 RGB-D 视频(含深度信息点云),解决传统方案中场景突变、物体错位等问题。
  • 世界缓存闭环系统:利用 1.0 模型生成的 3D 点云作为初始缓存,结合实时更新的视频帧投影,形成 “生成 - 缓存 - 优化” 的闭环,使漫游范围突破传统限制,同时保证几何一致性。
  • 3D 无损导出能力:无需依赖 COLMAP 等外部工具,直接将生成视频转换为 3D 点云格式,兼容主流 CG 管线,大幅降低 3D 内容生产门槛。

二、技术架构革新:双流控制与深度融合的空间智能

混元 Voyager 的核心优势源于三层技术突破:

  1. 双流神经网络架构 采用 “控制模块 + 单流模块” 的混合设计:控制模块(fs)处理相机轨迹、文本提示等条件输入,单流模块(f×Ns)负责特征提取,通过多尺度特征融合保证场景细节与运动逻辑的一致性。
  2. 深度信息驱动生成 在扩散模型中引入深度预测分支,使模型在生成 RGB 图像的同时输出像素级深度图,为 3D 重建提供几何基础。对比实验显示,Voyager 的深度估计精度较传统方案提升 23%,点云重建误差降低 18%。
  3. 动态特征投影机制 通过 “几何投影 - 特征对齐” 双向映射,将不同视角的场景特征统一到世界坐标系下,解决长距离漫游中的场景断裂问题。该机制使模型在 800 米超长场景生成中保持物体形态一致性,较竞品提升 41%。

三、性能碾压:WorldScore 榜单上的全方位领先

在 WorldScore 基准测试中,混元 Voyager 以绝对优势超越所有开源方案:

  • 综合能力:77.62 分(次优模型 WonderWorld 为 72.69 分),在相机控制(85.95 分)、物体对齐(68.92 分)、3D 光度一致性(85.99 分)等核心指标上均居首位。
  • 视频重建质量:PSNR 值达 18.751,SSIM 0.715,LPIPS 仅 0.277,较第二名 FlexWorld 分别提升 3.1%、3.2% 和 1.4%,生成画面更接近真实场景。
  • 长距离漫游表现:在 800 米场景测试中,场景连贯性得分 84.89 分,较 Genie3 等可交互视频模型提升 35%,证明其在开放世界生成中的技术优势。

四、开源生态加速:从技术创新到产业赋能

作为混元 3D 世界模型系列的最新成员,Voyager 延续了腾讯混元的开源战略:

  • 全链路能力开放:模型代码、技术报告已在 GitHub 与 Hugging Face 开源,配套提供从单场景生成到多视角重建的完整工作流,开发者可直接调用 API 实现 3D 内容生产。
  • 硬件适配优化:继 7 月开源的 1.0 版本与 8 月推出的 Lite 版后,Voyager 进一步优化显存占用,支持消费级显卡(如 RTX 4070)部署,推动 3D 生成技术向中小团队普及。
  • 产业场景落地:目前该模型已在腾讯游戏引擎、虚拟现实内容平台等场景试点应用,未来将拓展至建筑可视化、工业仿真、教育实训等领域,预计降低 3D 内容生产成本 40% 以上。

五、未来展望:空间智能开启元宇宙基建新篇

混元 Voyager 的发布标志着 AI 世界模型从 “视频生成” 向 “空间建模” 的关键跃迁。随着其开源生态的完善,开发者可基于该模型构建动态更新的 3D 数字孪生系统,为元宇宙、自动驾驶仿真等前沿领域提供底层技术支撑。正如腾讯混元团队所言:“当 AI 能够理解并重建物理世界的空间逻辑,人机交互将从二维屏幕走向真正的三维沉浸。”

【项目链接】

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、突破传统框架:从平面视频到原生 3D 场景的跨越
  • 二、技术架构革新:双流控制与深度融合的空间智能
  • 三、性能碾压:WorldScore 榜单上的全方位领先
  • 四、开源生态加速:从技术创新到产业赋能
  • 五、未来展望:空间智能开启元宇宙基建新篇
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档