图源:pixabay
原文来源:arXiv
作者:Horia Mania、Aurelia Guy、Benjamin Recht
「雷克世界」编译:嗯~是阿童木呀、EVA
导语:关于无模型强化学习,人们认为在策略的参数空间中基于随机搜索的方法要比那些探索行为空间的方法表现出明显更差的样本复杂性。最近,加州大学伯克利分校的科学家们通过引入一种随机搜索方法打破了人们的这样看法,该算法就是增强型随机搜索算法(ARS),研究实验表明,ARS能够匹配或超过MuJoCo运动任务中最先进的样本效率。
一直以来,人们对无模型强化学习的一个普遍看法是,在策略的参数空间中基于随机搜索的方法要比那些探索行为空间的方法表现出明显更差的样本复杂性。我们通过引入一种随机搜索方法来打破人们的这样看法,即为连续控制问题训练静态的线性策略,在基准MuJoCo运动任务中匹配最先进的样本效率。我们的方法还为线性二次调节器(Linear Quadratic Regulator)的一个具有挑战性的实例找到了一个近乎最优的控制器,当动力学还是未知的时候,线性二次调节器是控制理论中的经典问题。在计算上,我们的随机搜索算法比这些基准测试中最快的、最具竞争力的无模型方法的效率至少高15倍。我们利用这种计算效率来评估我们的方法在数百个随机种子和每个任务中许多不同的超参数配置下的性能表现。我们的模拟强调了这些基准测试任务中性能的高度可变性,这表明常用的样本效率估计并不能充分对强化学习算法的性能进行评估。
无模型强化学习(RL)旨在为控制动力系统提供现成的解决方案,而不需要系统动力学模型。这种方法已经成功地制造出了在视频游戏和围棋等游戏中超越人类玩家的强化学习智能体。虽然这些结果令人印象深刻,但无模型方法在研究演示之外尚未成功部署到控制物理系统中。有几个因素限制了无模型RL方法在控制物理系统中的采用:这些方法需要太多的数据才能达到合理的性能,各式各样的RL方法日益涌现,这使得对于特定任务而言难以选择哪一种方法是最佳的,并且许多候选算法难以实现和部署。
不幸的是,目前RL研究的趋势使这些障碍相互矛盾。在追求样本高效的方法(即需要少量数据的方法)过程中,总的趋势是开发出日益复杂的方法。这种复杂性的增加导致了重现性危机。最近的研究表明,许多RL方法对于超参数、随机种子、甚至是相同算法的不同实现方式的变化都不具有鲁棒性。如果没有进行显著的简化和鲁棒化,具有这种脆弱性的算法无法集成到关键任务控制系统中。
图1:在MuJoCo运动任务中对4个ARS版本的评估。训练曲线在三个随机种子上进行平均,阴影区域显示标准差。ARS V2-t仅显示在基于ARS V2进行改进的任务中
此外,通常的做法是将新的RL方法应用于视频游戏或模拟连续控制问题中,并通过少量独立试验(即少于10个随机种子)测量它们的性能,从而对这些方法进行评估和比较。最通用的连续控制基准是MuJoCo运动任务,其中,类人模型被认为是“能够由最先进的RL技术解决的最具挑战性的连续控制问题之一”。原则上,人们可以使用视频游戏和模拟控制问题对新想法进行测试,但是在向更为复杂的解决方案迈进之前,应该建立简单的基线并进行彻底的评估。
图2:ARS、SAC、DDPG、SQL和TRPO在MuJoCo运动任务上的比较。对于每项任务,我们将显示使用了规定数量的模拟器时间步长后所获得的最大奖励。ARS的值在三个随机种子上取平均值。SAC、DDPG、SQL和TRPO的值是基于Haarnoja等人所提供数据的近似,而他们是在五个随机种子上对这些方法进行评估的
为此,我们的目标是确定能够解决标准基准的最简单的无模型RL方法。最近,科学家们已经提出了简化RL的两种不同的方向。Salimans等人引入了一种名为进化策略(Evolution Strategies,ES)的无梯度(derivative-free)策略优化方法。作者指出,对于若干个RL任务而言,他们的方法可以很容易地并行化,以比其他方法更快地对策略进行训练。虽然Salimans等人提出的方法要比以往所提出的方法简单得多,但它采用了几个复杂的算法元素。作为对无模型RL的第二次简化,Rajeswaran等人已经证明,可以通过自然策略梯度对线性策略进行训练,以在MuJoCo运动任务上获得良好的性能表现,这表明不需要复杂的神经网络策略来解决这些连续控制问题。在这项研究中,我们结合了Salimans等人和Rajeswaran等人的研究思路,获得了一种最简单的无模型RL方法,还有一种用于训练线性策略的无梯度优化算法。我们证明一个简单的随机搜索方法可以匹配或超过MuJoCo运动基准测试中最为先进的样本效率。而且,我们的方法至少比进化策略的效率高15倍,而ES是速度最快的方法。可以这样说,我们的发现与普遍看法相矛盾,即认为依赖于行动空间中探索的策略梯度技术要比基于有限差分的方法具有更高的样本效率。更详细地说,我们的贡献如下:
•我们引入了一种用于解决无梯度优化问题的经典基本随机搜索算法。为了将其应用于连续控制问题,我们使用三个简单的特征以增强基本随机搜索方法。首先,我们根据为计算更新步长而收集的奖励的标准差来缩放每个更新步长;其次,我们通过在线估计它们的均值和标准差对系统的状态进行归一化;第三,我们从更新步长的计算中丢弃了获得最少奖励的方向。我们将这种方法称为增强型随机搜索(Augmented Random Search,ARS)。
图3:在MuJoCo运动任务中,在超过100个随机种子上对ARS进行评估
•我们评估了ARS在基准MuJoCo运动任务上的表现。我们的方法可以学习静态的线性策略,从而在所有MuJoCo任务中获得高额奖励。也就是说,我们的控制行动仅仅是当前状态的线性映射。我们没有使用神经网络,但仍然可以一致性地实现最先进的性能。例如,对于类人模型而言,ARS所发现的线性策略,其平均奖励超过11500,这是以往研究报道中的最高奖励。为了使ARS与相竞争的方法处于同等地位,我们评估了其所需的样本复杂度,以解决在三个随机种子上MuJoCo运动任务问题,而这些随机种子是从一个区间均匀采样得到的。我们将我们方法的测量结果与Haarnoja等人、Rajeswaran等人、Salimans等人、以及Schulman等人所报告的结果相比较,结果表明,ARS能够匹配或超过MuJoCo运动任务中最先进的样本效率。
图4:当应用于LQR问题时,四种方法的比较:(a)对ARS生成控制器、名义上合成程序和LSPI方法找到稳定控制器的频率进行比较。频率是通过100次试验估计得到的
•我们报告了ARS为训练Humanoid-v1任务策略所需的时间和计算资源。我们测量结果发现,所需的时间要达到6000或更多的平均奖励,并且我们的结果是在超过一百个随机种子上测试得到的。在一台拥有48个CPU的机器上,ARS在25/100随机种子上最多花费13分钟,在50/100随机种子最多花费21分钟。而对Humanoid-v1任务策略进行训练以达到相同的奖励阈值,若使用通用的信任域策略优化(Trust Region Policy Optimization ,TRPO)方法在现代化硬件上进行则需要花费大约一天的时间,而使用ES在1440个CPU上并行化训练时需要大约10分钟的时间。因此,我们的方法的计算效率至少比ES最快15倍。
图5:当应用于LQR问题时,四种方法的比较:(b)比较由ARS生成控制器、名义上合成程序和LSPI方法所产生的相对成本。沿着虚线的点表示中值成本,并且阴影区域覆盖100次试验中的第2至第98的百分位
•由于我们的方法比以前的方法更高效,我们能够探索我们的方法在许多随机种子上的方差。 强化学习算法表现出较大的训练方差,因此对少量随机种子的评估不能精确地捕捉它们的性能。Henderson等人和Islam等人已经讨论了测量RL算法在许多随机种子上的性能表现,以及RL方法对超参数选择的敏感性的的重要性。为了更全面地评估我们的方法,我们测量了ARS在100个随机种子的性能,并评估了它对超参数选择的敏感性。虽然ARS成功地为MuJoCo运动任务训练了策略,但在很大一部分时间里,超参数和随机种子是多种多样的,我们注意到它依旧表现出很大的变化,并且我们仍经常发现学习策略不能一致地获得高额奖励。
•为了简化对用于连续控制问题的强化学习算法的评估,我们认为增加更多具有可扩展性和可重现性的基线是非常重要的。我们提出使用线性二次调节器(LQR)作为这样一个基准。我们在超过了一百种的随机种子上对ARS的性能进行了评估,解决这个问题中的一个难题。尽管不像基于模型的方法那样高效,但ARS为所探讨的LQR实例找到了几乎可谓是最优的解决方案。
原文链接:https://arxiv.org/pdf/1803.07055.pdf
领取专属 10元无门槛券
私享最新 技术干货