作者 | Wang 王
编辑 | 杨晓凡
本文介绍了一种新的元-Q学习(Meta-Q-Learning,MQL)算法,这是一种新的用于元强化学习的离线策略算法。元-Q学习主要基于以下3个朴素思想:
首先,作者证明如果允许访问表示过去轨迹的上下文变量,Q学习可与最新的元强化学习算法相媲美;
第二,利用多任务目标最大化跨训练任务的平均回报,是对强化学习策略进行元训练的有效方法;
第三,更新离线策略以不断调整新任务的策略,可循环利用来自元训练重放缓冲区的历史数据。
元-Q学习借鉴了倾向性估计的思想,从而扩充了用于自适应的可用数据量。在标准连续控制基准上的实验表明,与最新的元强化学习算法相比,元-Q学习更具有优势。
论文链接:https://openreview.net/forum?id=SJeD3CEFPH
一.研究背景与研究目标
强化学习(RL)算法在模拟数据上表现出良好的性能。然而,将这种性能赋予真实机器人面临两个主要挑战:(1)机器人的复杂性和脆弱性阻碍了广泛的数据收集;(2)机器人面临的真实环境可能不同于它被训练的模拟环境。这推动了元强化学习的研究,在大量不同环境(如模拟环境)中开发“元训练”算法,旨在适应数据量少的新环境。
图1 元强化学习性能分析
图1显示了两种典型的元强化学习算法在4个标准连续控制基准测试中的性能。将两种典型的元强化学习算法MAML(Finn等人于2017年提出)和PEARL(Rakelly等人于2019年提出)与一种称为TD3(Fujimoto等人在2018年提出)的一般Q学习算法的验证任务平均回报率进行了比较。其中TD3被修改为包含一个上下文变量(TD3-context),该变量表示任务的轨迹。即使没有任何元训练和对新任务的适应性,TD3-context也能与这些复杂算法竞争。这是论文的第一个贡献:证明没有必要为了在现有的基准测试中表现良好而使用元训练策略。
第二个贡献是建立在上述结果基础上,提出一种称为“元-Q学习”的离线策略元强化学习算法。元强化学习使用简单的元训练步骤:经过离线策略更新,最大限度地利用所有元训练任务的平均回报。
其中是对从任务获得的转换进行评估的目标。例如,单步时序差分(TD)误差将设置为。这个目标称之为多任务目标,是最简单的元训练形式。
为了使策略适应新任务,MQL从元训练重放缓冲区中采样与新任务中类似的转换。这会扩充可用于自适应的数据量,但由于潜在的较大偏差,很难做到这一点。使用倾向性估计文献中的技术来执行此调整,而MQL的离线策略更新对执行此调整至关重要。MQL解决了自适应阶段问题。
其中是元训练回放缓冲区,倾向性得分是属于对的转换的几率,是和D_之间的有效样本大小,这是新任务与元训练任务相似性的度量。第一项计算新任务的离线策略更新,第二项对旧数据执行加权的离线策略更新,而第三项是自动适应近端项,以防止策略在适配期间恶化。
二.基本理论知识介绍
本节介绍符号并形式化元强化学习问题。在第2.2节中,讨论了估计两个概率分布之间重要性比的技术,考虑下式所示的马尔可夫决策过程(MDP)。
其中表示状态,表示动作,动态由参数化,其中每个k对应于不同的任务,分布表示初始状态分布,表示动态噪声。给定一个确定的策略,在无限时间范围内折扣的未来奖励的动作-价值函数如下式所示。
假设不同的任务具有相同的状态和动作空间,并且它们的动态和奖励函数可能不同。给定一个任务,标准强化学习形式化解决了以下问题。
用以下公式表示与任务和策略有关的所有状态、动作和奖励的数据集。
通常将称为“任务”。用于求解(5)的确定性策略梯度(DPG)算法(Silver 等人,2014)通过最小化贝尔曼误差和通过求解耦合优化问题使该近似最大化的最优策略,学习一个参数化逼近到最优价值函数。
单步时序差分误差按下式定义。
这里保持对的完全依赖性。DPG或其基于深度网络的变体DDPG(Lillicrap等人,2015)是一种离线策略算法,这意味着(6)中的期望值是使用不需要由正在优化的策略()生成的数据来计算的,该数据可以来自其他一些策略。
2.1 元强化学习(META-RL)
Meta-RL是一种学习归纳偏差的技术,它通过加大训练任务量加速新任务的学习。形式上,元训练集中任务的元训练涉及学习策略。
其中是取决于特定方法的元训练损失。基于梯度的元强化学习,以Finn等人的MAML(2017)为例,将下式中的步长
设为;是式(5)非Meta-RL的目标。在这种情况下,是任务在对任务的策略进行一次(或通常是多次)更新之后获得的目标。这背后的想法是,即使策略不能在中的所有任务上都很好地执行,它也可以在新任务上快速更新,以获得性能良好的策略。可以使用与元训练时间相同的过程来完成此操作,即通过使用策略作为初始化来最大化或通过其他某种适应过程来完成。Meta-RL中的元训练方法和适应方法与一般的元学习可以互不相同。
2.2 LOGISTIC回归估计倾向得分
考虑标准监督学习:给定两个分布(比如,train)和(比如,test),估计一个模型的预测如何变化。这是通过重要性抽样正式完成的:
其中是数据的真实标签,是模型的预测,是每个数据(x,y)的损失。重要性比,也称为倾向得分,是两个数据密度的Radon-Nikodym导数,用于度量来自分布p对分布q的样本x的概率。实际上不知道密度q(x)和p(x),因此需要使用从q得出一些有限数据和p得出的一些有限数据来估计。对于k≤m,将设置为中数据的标签,将设置为中的数据标签,并通过求解下式将逻辑分类器拟合到合并的2m个样本上。
标准化有效样本量()
与相关的量是归一化有效样本量(),将其定义为从目标分布p(x)获得样本的相对数量,该样本所需的性能估计量(例如方差)等于重要性抽样估计量(10)。不知道密度q(x)和p(x)就无法计算,但是有很多方法可以估计。蒙特卡洛文献中的一个流行方法如下式所示。
其中是一些有限的批量数据。观察如果两个分布q和p接近,则接近1;如果它们相距很远,则接近0。
三.元强化学习
本节描述了MQL算法,首先描述了MQL的元训练过程,包括第3.1节中关于多任务训练的讨论。第3.2节描述了自适应过程。
3.1 元训练
MQL使用多任务目标进行元训练。如果在(8)式中做如下设置,令
则参数使得它们在元训练集的所有任务上最大化平均回报。使用称为TD3的离线策略算法作为构建块,并求解下式问题。
其中TD(·)在(7)中已定义。正如TD3中的标准做法,使用由和参数化的两个动作值函数,并取它们的最小值来计算(7)中的目标。这种被称为“双Q学习”的技巧减少了过度估计的偏差。强调一下,(14)式是(8)式所述步骤的一个特例。以下注释说明了为什么MQL使用多任务目标,而不是例如在现有的基于梯度的Meta-RL算法中使用的元训练目标。
注释1 比较m步MAML目标(9)和使用(14)的多任务目标的临界点。可以在参数0周围执行泰勒级数展开,以获得下式。
注意所有临界点有又有。特别地,策略既是多任务目标(15)的局部极大值,也是MAML的局部极大值。此外,注意(16)中的也是梯度损失。
这提供了一种新的解释,即MAML被损失领域中无法满足单个任务的区域所吸引:大的参数将远离的局部最大值。参数和控制欠拟合,梯度阶数越大,拟合效果越差。这说明基于梯度的元学习的适应速度是以对任务的欠拟合为代价的。
3.1.1设计背景
Meta-RL中任务的标识可以看作是底层部分可观测MDP的隐藏变量。关于状态、动作和奖励的整个轨迹的最优策略。因此设计了一个依赖于的递归上下文变量。将zt设置为门循环单元(GRU by Choet al.(2014))模型的时间t处的隐藏状态。MQL中的所有策略和价值函数都受上下文的约束,实现为和。任何其他递归模型都可以用来设计上下文;使用GRU是因为它在丰富的表示和计算复杂性之间提供了很好的折衷。
注释2(MQL使用确定性上下文,而非不变置换)。目标是在设计上下文时简化。MQL中的上下文变量是使用现成的模型(如GRU)构建的,并且不是置换不变的。事实上,时间的方向为智能体提供了关于任务动态的关键信息,例如,在Half-Cheetah环境中向前跑和向后跑可以说是相同的状态轨迹,但顺序不同。此外,Meta-RL中的上下文变量是轨迹的确定函数。RL算法非常复杂,而且很难复现。当前基于它们的元强化技术进一步加剧了这种复杂性。作者证明一个简单的上下文变量已足够,这是一个重要的贡献。
3.2 适应新任务
接下来讨论了将元训练策略应用于一个新的数据较少的任务Dnew的自适应过程。MQL将(2)中引入的自适应目标优化为两个步骤。
1、普通的离线策略适应:第一步是使用新数据更新策略;
二次惩罚使参数接近。在这一步骤中,离线策略学习至关重要,因为它具有样本效率,在求解(18)时将0初始化为。
2、修正了策略更新的重要性比率:MQL的第二步利用元训练重放缓冲区。
元训练任务与是不相交的,但由于它们预计来自相同的任务分布,元训练期间收集的转换可能会被利用来适应策略。这在两个方面是很难做到的。首先,元训练转换不是来自。第二,即使对于来自同一任务的转换,由于额外的极化误差而更新策略也是非常重要的,价值函数在以前从未选择的状态上错误率高。使用倾向得分来重新衡量转换是Fujimoto等人(2018a)在此背景下使用的条件生成模型的一个简单版本。
MQL在元训练重放缓冲区的一小批转换和从步骤1中新任务收集的转换上匹配逻辑分类器。上下文变量是这个分类器的特征。logistic分类器估计重要性比,并可用于重新衡量元训练重放缓冲区中的数据,以作出更新。
再次包含一个二次惩罚,它使新参数接近于。估计重要性比需要在几个样本上解决一个凸优化问题(通常,200个来自新任务,200-400个来自元训练任务)。这个分类器允许MQL利用大量过去的数据。实际上,我们使用(19)比(18)执行多达100倍的权重更新。
四.实验
本节介绍了MQL的实验结果。首先讨论了第4.1节中的设置,并提供了详细的基准。接下来是第4.2节中的实验结果和消融实验。
4.1 设置
任务和算法:
参与对比的算法有:(1)普通TD3(Fujimoto等人,2018a)未对新任务进行任何改进;(2)TD3上下文:TD3具有基于GRU的上下文,第3.1.1节无任何改进;(3)MQL:TD3具有上下文并使用第3.2节中的过程适应新任务。这三种变体都使用元训练的多任务目标(15)。本文利用Adam(Kingma&Ba,2014)对所有损失函数进行优化。
评估:当前的元强化学习基准缺乏系统的评估程序。对于每个环境,Rakelly等人(2019)构建了一组固定的元训练任务()和一组与元训练集不相交的任务验证集。为了能够与公布的实证结果进行直接比较,密切遵循Rakelly等人(2019)的评估准则来创建这些任务。还使用与这些作者完全相同的评估协议,例如,新任务的200个时间步长的数据,或评估幕数。用5个随机种子计算的统计数据报告验证任务的未折扣回报。
图2:TD3和TD3上下文的平均未折扣回报率与来自4个元强化学习环境的验证任务的PEARL相比。智能体无法了解策略是否仅限于状态。相比之下,其他一切都保持不变,如果TD3能够访问上下文,那么回报会高得多。请注意,尽管没有对验证任务执行任何调整,但TD3上下文与PEARL相当。
4.2 结果
图2中的第一个结果,显示了在没有任何适应性的情况下的带上下文的普通离线策略学习与最先进的元强化学习算法相媲美。使用TD3的标准实现,并使用多任务目标(15)对元训练任务进行训练。访问上下文的策略可以很容易地推广到验证任务,并获得与更复杂的元强化学习算法相当的性能。
图3:连续控制环境下MQL(橙色)的平均未折扣回报率与现有元强化学习算法的比较。比较了现有的四种算法,即MAML(绿色)、RL2(红色)、PROMP(紫色)和PEARL(蓝色)。在除Walker-2D-Params和Ant-Goal-2D之外的所有环境中,MQL在样本复杂度和最终返回方面都优于或与现有算法相媲美。
接下来,将根据所有环境中现有的Meta-RL基准来评估MOL。结果如图3所示,对于除了Walker-2D-Params和Ant-Goal-2D之外的所有环境,MQL都可以在验证任务上获得类似或更好的回报。在大多数情况下,特别是对于具有挑战性的类人Direc-2D环境,MQL比现有算法收敛得更快。MAML和ProMP需要大约1亿个时间步长才能收敛到收益,这要比MOL和PEARL等离线策略性算法的收益差得多。比较图2中Ant-Goal-2D环境和图3中相同环境的TD3上下文的训练曲线:前者显示随着元训练的进行,性能显著下降;图3中没有这种下降,这可以归因于MQL的适应阶段。
此外,作者们还进行了多项对照试验,验证了取值对模型表现的影响。
五.总结
本文提出的算法MQL基于三个简单的思想。
首先,基于上下文变量的Q学习足以在当前的元强化学习基准面前具有竞争力。
其次,最大化训练任务的平均回报是一种有效的元学习技术。MQL的元训练阶段比现有算法简单得多,但它的性能与现有算法相当。这表明需要在诸如深度网络这样的丰富函数近似的背景下重新思考元学习。
第三,如果想用很少的数据来适应新的任务,那么就必须利用所有可用的途径。MQL使用倾向性估计技术从元训练重放缓冲区回收数据。这些数据基本上易获取,却被其他算法完全忽略了。这一思想可以潜在地用于RL以外的问题,如少样本和零样本图像分类。
最后,本文揭示了Meta-RL中基准环境的本质。事实上,即使是没有元训练且没有任何适应性的普通Q学习,也能与最先进的算法相竞争,这表明(1)即使当前元强化学习基准中的训练和验证任务之间没有重叠,但它们彼此非常相似;(2)当前基准可能不足以评估Meta-RL算法。这两点都表明,需要投入资源,为元强化学习创建更好的基准问题,从而推动新算法的创新。
ICLR 2020 系列论文解读:
1、论文集
2、Oral
3、Spotlight
4、Poster
领取专属 10元无门槛券
私享最新 技术干货