作者:Likun Wang等
解读:AI生成未来

论文链接:https://openreview.net/forum?id=JGkZgEEjiM
本文介绍清华大学李升波教授课题组(iDLab)在NeurIPS 2025发表的《Off-policy Reinforcement Learning with Model-based Exploration Augmentation》。
在在线强化学习中,每个智能体都在做一个看似简单、却极其困难的选择:
“是继续走熟悉、安全的老路,还是去尝试未知、可能更好的新路?”
这就是著名的“探索与利用”难题。如果总是重复已经学会的行为,智能体虽然稳定,却可能永远发现不了更优的方案;但如果一直盲目尝试新动作,又会浪费大量时间,甚至频繁犯错。如何在“稳妥”和“冒险”之间找到平衡,是强化学习中最关键的问题之一。

探索与利用难题
目前,研究者主要通过两种方式来帮助智能体“探索世界”:
如何让智能体不只依赖真实经历,而是学会“提前想象”哪些数据是真正重要的?就像人类会在行动前思考:“如果我走这条路,会不会更好?”
现有的被动探索方法往往局限于模仿现有的数据分布,无法跳出行为策略(Behavior Policy)的覆盖范围 。另一方面,直接使用世界模型生成长轨迹容易因误差累积导致动力学失效,产生不符合物理规律的“幻觉”样本。 针对上述痛点,清华大学李升波老师课题组首次提出了世界模型生成式探索(Modelic Generative Exploration, MoGE)框架。其核心在于:与其随意生成整段数据,或重复模仿过去的经验,不如选择直接寻找那些智能体还没去过、却很重要的潜在关键状态,并用世界模型保证它们真实可信,从而为学习提供更有效的训练样本,从而摆脱行为策略的束缚。

MoGE框架
与其他框架不同,MoGE能够在不修改策略提升的前提下为算法持续提供关键训练样本,能够结合几乎所有的异策略(Off-policy)RL 算法(如 SAC, TD3, DSAC)中,主要包含两大核心组件 :
作为整体模型的重要组成部分,MoGE 不再像以往方法那样直接生成完整的状态转移数据,而是引入了一种扩散模型的条件生成器,专门用于生成强化学习训练中的“初始状态”。 与普通生成模型不同,该生成器并非盲目地模仿已有的数据,而是在人工设计的探索效用函数(Utility Function)引导下进行生成。该效用函数融入了人类先验知识,用于刻画哪些状态更可能对策略学习产生关键作用。通过这种条件引导机制,扩散生成器能够主动聚焦于高价值区域,从而生成真正具有探索意义的关键状态,为智能体提供更高质量的训练样本。 在MoGE中,为了普遍性出发,利用策略熵(Policy Entropy)和 TD 误差作为引导信号,指导生成器在高维空间中搜索那些包含高信息量或高不确定性的“关键状态” 。
为了确保生成的样本符合环境真实的物理规律,MoGE 设计了一个确定性的一步想象世界模型,与状态生成器共用一个隐空间,保证学习一致性和耦合性,该世界模型可以通过预训练进行学习,保证局部转移的准确性。

一步想象世界模型
这种“高价值初始状态生成 + 一步转移样本构造”的机制,使得 MoGE 既具备了脱离经验回访池数据分布的探索广度,又保持了物理动力学的严谨性。在MoGE框架下,不用修改策略函数和价值函数,就能实现探索的增强。

MoGE框架下的强化学习算法更新

实验结果
为了验证MoGE框架对强化学习算法的探索增强能力,我们用DSAC和TD3作为基础方法在 OpenAI Gym 和 DeepMind Control Suite (DMC) 的 10 个高难度连续控制任务中进行了广泛测试,相比于原有的算法,使用MoGE增强探索后的DSAC展现了卓越的样本效率和最终性能,超越了现有的所有探索增强的方法。
MoGE 提出了一种增强强化学习探索的新框架。通过将扩散模型的强大生成能力与世界模型的动力学约束相结合,MoGE 有效解决了高维空间中“去哪探索”和“如何保证真实性”的难题 。 未来,MoGE 还可以进一步扩展到更多类型的算法中,或结合更具表达能力的生成模型,为具身智能(Embodied AI)和复杂机器人控制任务提供更强大的探索引擎 。