本文翻译自自Deepmind Blog
https://www.deepmind.com/publications/active-offline-policy-selection
https://github.com/deepmind/active_ops
排版:OpenDeepRL
近年来,强化学习 (RL) 在解决现实生活中的问题方面取得了巨大进展——离线 RL 使其更加实用。我们现在可以从一个预先记录的数据集中训练许多算法,而不是与环境直接交互。然而,当我们评估手头的策略时,我们失去了离线 RL 在数据效率方面的实际优势。
例如,在训练机器人操纵器时,机器人资源通常是有限的,与在线 RL 相比,通过离线 RL 在单个数据集上训练许多策略为我们提供了很大的数据效率优势。评估每个策略是一个昂贵的过程,需要与机器人进行数千次交互。当我们选择最好的算法、超参数和一些训练步骤时,问题很快就会变得棘手。
为了使 RL 更适用于机器人等实际应用,我们建议使用智能评估程序来选择部署策略,称为主动离线策略选择 (A-OPS)。在 A-OPS 中,我们利用预先记录的数据集并允许与真实环境进行有限的交互以提高选择质量。
主动离线策略选择 在给定预先记录的数据集和与环境的有限交互的情况下从一组策略中选择最佳策略。
为了最大限度地减少与真实环境的交互,我们实现了三个关键功能:
FQE 分数与在 sim2real 和离线 RL 设置中训练的策略的基本事实性能非常一致。
策略的回报使用高斯过程联合建模,其中观察包括 FQE 分数和机器人新收集的少量情节回报。在评估一个策略之后,我们获得了关于所有策略的知识,因为它们的分布通过策略对之间的内核相互关联。内核假设,如果策略采取类似的行动——例如将机器人抓手向类似的方向移动——它们往往会有类似的回报。
我们使用 OPE 分数和情景回报将潜在策略性能建模为高斯过程。
策略之间的相似性是通过这些政策产生的行动之间的距离来建模的。
我们在多个领域的多个环境中演示了此过程:dm-control、Atari、模拟和真实机器人。使用 A-OPS 可以迅速减少遗憾,并且通过适度数量的策略评估,我们确定了最佳策略。
在现实世界的机器人实验中,A-OPS 有助于比其他基线更快地识别出非常好的策略。在 20 个保单中找到一个后悔接近零的保单所花费的时间与使用当前程序评估两个保单所花费的时间相同。
PDF链接:https://arxiv.org/pdf/2106.10251.pdf
代码链接:https://github.com/deepmind/active_ops