在强化学习(RL)中,较慢的网络反而能够更快地学习——当在深度强化学习中优化新解决方案时,如果优化器倾向于先前的解决方案,则会有所帮助。
强化学习是一种日益流行的人工智能序列决策建模方法。RL智能体通过试错学习,反复与环境交互以学习最大化奖励信号的策略。
近年来,RL智能体与深度神经网络结合取得了显著成果。其中最重要的是2015年提出的深度Q网络(DQN)智能体,其在一大批Atari游戏上超越了人类水平。DQN的核心组件是优化器,它调整神经网络参数以最小化DQN目标。通常使用深度学习中的标准优化算法,但这些算法并未考虑解决深度RL时出现的复杂性。
在今年的神经信息处理系统会议(NeurIPS)上,作者与合作者提出了一种新优化器,能更好地处理RL的困难。该优化器采用称为近端更新的简单技术,通过确保神经网络权重平滑缓慢变化来抵御噪声更新。实现方式是,在没有迹象表明会损害智能体的情况下,将网络导向先前的解决方案。
论文中将DQN智能体视为解决一系列优化问题。每次迭代时,新的优化问题基于先前的迭代结果(即上一次迭代产生的网络权重)。该先前迭代在深度RL文献中称为目标网络,是所要倾向的解决方案。
虽然目标网络编码先前的解决方案,但第二个网络(文献中称为在线网络)则寻找新解决方案。该网络通过沿最小化DQN目标的方向每一步更新。最小化DQN目标产生的梯度向量需要足够大以抵消朝向先前解决方案(目标网络)的默认引力。如果在线网络和目标网络接近,近端更新行为会类似于标准DQN更新。但如果两个网络相距较远,近端更新可能与DQN更新显著不同,因为它会鼓励缩小两个网络之间的差距。在公式中,可以调整先前解决方案施加的引力程度,噪声较大的更新需要更高的引力。
虽然近端更新导致神经网络参数变化较慢,但也导致在获取高奖励(RL主要关注量)方面改进更快。论文表明这种改进适用于智能体的中期性能和渐近性能,也适用于带噪声的规划环境以及噪声几乎必然存在的大规模领域学习环境。
为评估学习方法,将近端更新添加到两种标准RL算法:上述DQN算法和更具竞争力的Rainbow算法(结合了RL中多种现有算法改进)。然后在标准55款Atari游戏上测试新算法(称为DQN Pro和Rainbow Pro)。结果图表显示:(1) Pro智能体表现优于对应版本;(2) 基础DQN智能体在与环境交互1.2亿次(帧)后能达到人类水平性能;(3) Rainbow Pro相比原始Rainbow智能体实现40%相对改进。
此外,为确认近端更新确实导致更平滑缓慢的参数变化,测量了连续DQN解决方案之间的范数差异。预期使用近端更新时更新幅度更小。在下图测试的四款不同Atari游戏中证实了这一预期。
总体而言,实证和理论结果支持这一主张:在深度RL中优化新解决方案时,优化器倾向于先前解决方案是有益的。更重要的是,深度RL优化中的简单改进可导致智能体性能显著提升。这证明进一步探索深度RL中的优化算法将富有成果。解决方案的源代码已在GitHub上发布。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。