首页
学习
活动
专区
圈层
工具
发布

腾讯混元推出面向世界模型的强化学习后训练框架

新京报贝壳财经讯(记者韦英姿)3月10日,腾讯混元3D团队宣布开源业界首个面向世界模型的强化学习后训练框架WorldCompass。腾讯混元3D团队表示,这是此前发布的混元世界模型1.5 官方强化学习扩展模块,能够让世界模型的交互更加准确,体验更好。

腾讯混元3D团队认为,现有的生成式世界模型(WorldPlay等)主要依赖于预训练阶段的像素级监督。这种学习方式,往往导致模型在面对复杂的组合动作指令时“听不懂”,或者在长距离漫游中出现画质崩坏和路径漂移。因此,腾讯混元团队推出了WorldCompass。这是一个专为长时序、交互式世界模型设计的强化学习(RL)后训练框架。通过引入强化学习机制,“引导”模型如何更准确地遵循用户指令探索世界,并保持长时序的视觉一致性。

腾讯混元实验数据表明,WorldCompass能提升 SOTA 开源世界模型(WorldPlay)的交互准确率和视觉保真度,在复杂的组合动作场景下,交互准确率提升了近35%。

校对 刘军

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Obzjh29DS2r6hSgkd1MkX4FQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券