近日,在 2025 世界人工智能大会(WAIC)上,腾讯发布并开源了的“混元 3D 世界模型 1.0”。
腾讯指出,,一句话或一张图就能生成一个更沉浸式漫游、可交互、可仿真的虚拟世界。例如,输入“一座中世纪城堡,城堡塔楼宏伟壮阔,城堡周围是一座石头雕像,石头铺成的路以及美丽的花朵,卡通风格”,模型就能快速生成包含建筑、地形、植被的完整 3D 场景。
腾讯宣称:“这是业界首个开源的可沉浸漫游、可交互、可仿真的世界生成模型,它为游戏开发、VR、数字内容创作等领域开辟了全新的道路,带来了前所未有的可能性。”
除了 3D 世界模型,腾讯混元还披露了一系列开源计划,涵盖了端侧混合推理语言模型、多模态理解模型、游戏视觉模型等。其中,混元 3D 世界模型 1.0 作为此次发布的亮点之一,融合了全景视觉生成与分层 3D 重建技术,同时支持文字和图片输入,能够生成高质量、风格多样的可漫游 3D 场景。
混元 3D 世界模型 1.0 的核心在于其创新的「语意层次化 3D 场景表征及生成算法」,将复杂的 3D 世界解构为不同的语意层级,实现前景与背景、地面与天空的智能分离。它不仅能够生成视觉效果逼真的整体场景,还能输出标准化的 3D Mesh 资产,这些资产与 Unity、Unreal Engine、Blender 等主流工具完美兼容。用户可以对场景内的元素进行独立编辑或物理仿真,实现 AIGC 技术与传统 CG 工作流的无缝衔接。
与全球领先的开源模型相比,团队自信地指出,混元 3D 世界模型 1.0 在文生世界、图生世界的美学质量和指令遵循能力等关键维度均全面超越当前 SOTA 的开源模型。
除了本次发布即开源的混元 3D 世界模型 1.0,混元还将在月底开源一系列小尺寸模型,包含 0.5B、1.8B、4B、7B 混合推理模型。这些模型更加轻量、易于部署,将进一步推动人工智能技术在各个领域的广泛应用。