Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >学界 | DeepMind提出比DQN更优的算法DQfD:可以从真实世界演示中进行强化学习

学界 | DeepMind提出比DQN更优的算法DQfD:可以从真实世界演示中进行强化学习

作者头像
机器之心
发布于 2018-05-07 07:16:53
发布于 2018-05-07 07:16:53
1.7K0
举报
文章被收录于专栏:机器之心机器之心

选自arXiv

作者:Todd Hester等

机器之心编译

参与:吴攀

2013 年,DeepMind 在 NIPS 发表的论文提出了深度 Q 网络(DQN,Deep Q-Network),实现了完全从纯图像输入来学习来玩 Atari 游戏的成果。之后其又在 Nature 上发文介绍了改进版的 DQN,引起了广泛的关注,将深度强化学习推到了深度学习的热门研究前沿。近日,DeepMind 再次发文介绍了一种名叫「学习演示的深度 Q 学习(DQfD:Deep Q-learning from Demonstrations)」的更强大的算法,其表现水平和学习速度都优于之前的 DQN。机器之心在本文中对该研究进行了编译介绍,其中重点介绍了该算法的原理和部分结果。论文原文请点击文末「阅读原文」查阅。

深度强化学习(RL)在困难的控制问题上已经实现了一些众人瞩目的成功。但是,这些算法通常需要海量的数据才能达到合理的表现水平。实际上,它们在学习过程中的表现非常糟糕。对于模拟器来说,这可能还能接受,但这严重地限制了深度强化学习在许多真实世界任务上的应用——在真实世界任务中,智能体(agent)必须要在真实环境中学习。在这篇论文中,我们研究了一种智能体可以从系统之前的控制中获取数据的设置方法。我们提出了一种名叫「学习演示的深度 Q 学习(DQfD:Deep Q-learning from Demonstrations)」的算法,该算法可以利用这种数据来实现学习过程的大幅提速,即使只有相对较少的演示数据也可以。DQfD 的工作方式是将时间差分更新(temporal difference update)和演示者(demonstrator)的动作的大边际分类(large-margin classification)结合起来。我们表明 DQfD 在 42 种 Atari 游戏中的 40 种上都有比深度 Q 网络(DQN)更好的初始表现,而且其在这 42 种 Atari 游戏中的 27 种上都得到了更优的平均奖励。我们还表明即使给出的演示数据很差,DQfD 也能学得比 DQN 更快。

3 学习演示的深度 Q 学习(DQfD:Deep Q-learning from Demonstrations)

在许多真实世界的强化学习设置中,我们可以获取其之前的控制者操作该系统的数据,但我们无法获得一个该系统的准确模拟器。因此,在一个智能体被应用到真实系统之前,我们想要智能体能尽可能地从演示数据中学习。这个预训练阶段的目标是学习使用一个价值函数(value function)来模拟该演示者(demonstrator),该价值函数满足贝尔曼方程(Bellman equation),因此当该智能体开始与其环境交互时,其就可以通过时间差分(TD:temporal difference)更新的方式被更新。在这个预训练阶段,该智能体会从演示数据中采样 mini-batch,并通过应用三种损失来更新该网络,它们分别是:双重 Q 学习损失(double Q-learning loss)、监督式大边际分类损失(supervised large margin classification loss)和在网络的权重和偏置上的 L2 正则化损失(L2 regularization loss)。其中监督式损失被用于对该演示者的动作的分类,而 Q 学习损失能确保该网络满足贝尔曼方程,且可被用作是 TD 学习的起点。

要让这样的预训练有效,该监督式损失是至关重要的。因为演示数据必然仅覆盖了一小部分状态空间(state space),没有涵盖所有的可能动作,所以许多「状态-动作」不会被包含进来,也没有数据将它们落实到真实的值上。如果我们打算仅使用 Q 学习更新来训练该网络以得到下一个状态的最大值,那么该网络就会向着这些未落实的变量的最高值更新,这样该网络就会通过该 Q 函数来传播这些值。加入一个大边际分类损失能将这些从未见过的动作的值落实成合理的值,使得由价值函数引起的贪婪策略(greedy policy)可以模拟其演示者(Piot et al., 2014a):

其中 aE 是该专家演示者在状态 s 时所采取的动作,l(s, aE, a) 是一个边际函数(当 a=aE 时,其值为 0;其它情况则为正值)。这个损失会迫使其它动作的值至少比演示者的值低一个边界(margin)。如果该算法仅使用这种监督式损失进行预训练,那么就没有什么可以约束这些连续状态之间的值,而该 Q 网络就无不能满足贝尔曼方程,但这又是使用 TD 学习来在线提升策略所需的。

我们也增加了应用于该网络的权重和偏置的 L2 正则化损失以帮助防止其过拟合于相对较小的演示数据集。

用于更新该网络的整体损失是这三种损失的结合:

λ 参数控制这些损失的权重。

一旦预训练阶段完成,理想情况下该智能体就已经学会了一个合理的策略,使其可以可靠地运行在真实系统上。在下一阶段,该智能体开始在系统上运行,收集自己生成的数据,并将其加入到其智能体重放缓存(agent replay buffer)

数据被加入到该智能体重放缓存,直到加满,然后该智能体开始覆写该缓存中的旧数据。与此同时,该演示数据仍然被维持在一个分离的演示重放缓存(demonstration replay buffer)

中,并保持不变。每个 minibatch 包含 n 个样本,其中部分演示数据由下面的参数定义:

对于自己生成的数据,仅会应用双重 Q 学习损失,而对于演示数据,监督和双重 Q 学习损失都会应用。

整体而言,学习演示的深度 Q 学习(DQfD)在以下 5 个方面与 DQN 不同(具体参阅 4.2.2 节)

  • 预训练:在开始与环境进行任何交互之前,DQfD 首先开始在演示数据上单独训练,预训练过程会将 Q 学习损失和监督式损失结合起来,这样就使得代理可以模拟演示者,同时还能让价值函数为 TD 学习做好准备。
  • 监督式损失:除了 TD 损失之外,还应用了一个大边际损失来推动该演示者的动作的值超越其它动作的值(Piot et al., 2014a)。
  • L2 正则化损失:该算法也在网络的权重加上了 L2 正则化损失以防止在演示数据上的过拟合。
  • 分离的数据集:演示数据存储在 Ddemo 且永远不会被覆写,而自己生成的数据存储在 Dreplay 且经常被覆写。
  • 受控的数据采样:每一个 minibatch 中演示数据与自我生成数据的相对比例通过上述公式进行控制。

4 实验结果

图 1:当给出了 1000 次转换的最佳或 ǫ-greedy 演示时,所有三种算法在 Catch 游戏上的在线奖励。甚至当该演示数据有 10% 的随机动作时,DQfD 也能表现得差不多好。

表 1:该算法测试过的 Atari 游戏以及人类在该游戏上实现的最佳和最差的扥,后面还给出了试验和转换的次数。

表 2:每个算法在全部 42 种 100 万 Atari 游戏帧上进行 200 次迭代后得到的平均在线奖励

图 2:三种算法在 Hero 游戏上的在线奖励。许多游戏都有和这个游戏类似的结果,其中 DQfD 的起始表现接近模仿策略(imitation policy),然后继续提升

图 3:三种算法在 Pong 游戏上的在线奖励。尽管人类演示者在他们的演示中没有赢下任何一场游戏,但 DQfD 仍然在前面 58 次迭代中优于 DQN

论文链接:https://arxiv.org/abs/1704.03732

本文为机器之心编译,转载请联系本公众号获得授权。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-04-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
从Q学习到DDPG,一文简述多种强化学习算法
选自towardsdatascience 作者:Steeve Huang 机器之心编译 参与:Edison Ke、路雪 本文简要介绍了强化学习及其重要概念和术语,并着重介绍了 Q-Learning 算法、SARSA、DQN 和 DDPG 算法。 强化学习(RL)指的是一种机器学习方法,其中智能体在下一个时间步中收到延迟的奖励(对前一步动作的评估)。这种方法主要用于雅达利(Atari)、马里奥(Mario)等游戏中,表现与人类相当,甚至超过人类。最近,随着与神经网络的结合,这种算法不断发展,已经能够解决更
企鹅号小编
2018/02/05
1.7K0
从Q学习到DDPG,一文简述多种强化学习算法
论文结果难复现?本文教你完美实现深度强化学习算法DQN
选自arXiv 作者:Melrose Roderick等 机器之心编译 论文的复现一直是很多研究者和开发者关注的重点,近日有研究者详细论述了他们在复现深度 Q 网络所踩过的坑与训练技巧。本论文不仅重点标注了实现过程中的终止条件和优化算法等关键点,同时还讨论了实现的性能改进方案。机器之心简要介绍了该论文,更详细的实现细节请查看原论文。 过去几年来,深度强化学习逐渐流行,因为它在有超大状态空间(state-spaces)的领域上要比先前的方法有更好的表现。DQN 几乎在所有的游戏上超越了之前的强化学习方法,并在
机器之心
2018/05/10
1.6K0
强化学习算法解析:深度 Q 网络(Deep Q - Network,DQN)
强化学习(Reinforcement Learning, RL)是机器学习领域的重要分支,它研究如何让智能体(Agent)通过与环境的交互来学习最优的行为策略。在强化学习中,智能体的目标是最大化长期累积奖励,而环境则根据智能体的行为给出反馈。Q-learning 是强化学习中一种经典的算法,它通过学习状态 - 行动对(State-Action Pair)的 Q 值来指导智能体的行为。然而,传统的 Q-learning 算法在面对状态空间巨大的场景时(如游戏、机器人控制等)存在明显的局限性,因为直接存储和更新所有状态 - 行动对的 Q 值在计算和存储上是不可行的。
jack.yang
2025/04/17
1K0
强化学习算法解析:深度 Q 网络(Deep Q - Network,DQN)
【RL Base】强化学习核心算法:深度Q网络(DQN)算法
深度Q网络(DQN)是深度强化学习的核心算法之一,由Google DeepMind在2015年的论文《Playing Atari with Deep Reinforcement Learning》中提出。DQN通过结合深度学习和强化学习,利用神经网络近似Q值函数,在高维、连续状态空间的环境中表现出了强大的能力。
不去幼儿园
2024/12/03
4280
【RL Base】强化学习核心算法:深度Q网络(DQN)算法
强化学习:DQN与Double DQN讨论
强化学习逐渐引起公众的注意要归功于谷歌的DeepMind公司。DeepMind公司最初是由Demis Hassabis, Shane Legg和Mustafa Suleyman于2010年创立的。创始人Hassabis有三重身份:游戏开发者,神经科学家以及人工智能创业者。Hassabis游戏开发者的身份使人不难理解DeepMind在Nature上发表的第一篇论文是以雅达利(atari)游戏为背景的。同时,Hassabis又是国际象棋高手,他在挑战完简单的雅达利游戏后再挑战深奥的围棋游戏也就不难理解了。这就有了AlphaGo和李世石的2016之战,以及他在Nature发表的第二篇论文。一战成名之后,深度强化学习再次博得世人的眼球。当然,DeepMind的成功离不开近几年取得突破进展的深度学习技术。本节主要讲解DQN,也就是DeepMind发表在Nature上的第一篇论文,名字是Human-level Control throughDeep Reinforcement Learning。
博文视点Broadview
2020/06/11
1.4K0
强化学习:DQN与Double DQN讨论
深度强化学习——从DQN到DDPG
大家好,我是架构君,一个会写代码吟诗的架构师。今天说一说深度强化学习——从DQN到DDPG,希望能够帮助大家进步!!!
Java架构师必看
2022/07/06
1.4K0
深度强化学习——从DQN到DDPG
IEEE预发:DeepMind主攻的深度强化学习3大核心算法及7大挑战
【新智元导读】深度强化学习将有助于革新AI领域,它是朝向构建对视觉世界拥有更高级理解的自主系统迈出的一步。本文将涵盖深度强化学习的核心算法,包括深度Q网络、置信区域策略优化和异步优势actor-critic算法(A3C)。同时,重点介绍深度强化学习领域的几个研究方向。 本文预计在IEEE信号处理杂志“图像理解深度学习”专刊发表。作者Kai Arulkumaran是伦敦帝国理工大学的博士生,Marc Peter Deisenroth是伦敦帝国理工大学的讲师,Miles Brundage是亚利桑那州立大学博士
新智元
2018/03/22
1.3K0
IEEE预发:DeepMind主攻的深度强化学习3大核心算法及7大挑战
一图尽展视频游戏AI技术,DQN无愧众算法之鼻祖
如今,将人工智能技术应用到游戏中已经是一个成熟的研究领域,有许多会议和专门的期刊对此进行讨论。来自哥本哈根大学和纽约大学的几位研究人员近期发布的一篇综述文章中,梳理并回顾了视频游戏深度学习领域的最新进展,详细介绍了各种游戏研究平台及相关深度学习方法的演化历史,同时讨论了重要的开放性挑战。据作者介绍,其撰写该论文旨在从不同类型游戏的视角来回顾这个研究领域,指出它们对深度学习的挑战,以及如何利用深度学习来玩这些游戏。
机器之心
2019/03/12
7340
一图尽展视频游戏AI技术,DQN无愧众算法之鼻祖
强化学习方法小结
上面这个公式就是Bellman方程的基本形态。从公式上看,当前状态的价值和下一步的价值以及当前的反馈Reward有关。它表明价值函数(Value Function)是可以通过迭代来进行计算的!!!
marsggbo
2020/06/12
7290
【强化学习】Double DQN(Double Deep Q-Network)算法
强化学习中的深度Q网络(DQN)是一种将深度学习与Q学习结合的算法,它通过神经网络逼近Q函数以解决复杂的高维状态问题。然而,DQN存在过估计问题(Overestimation Bias),即在更新Q值时,由于同时使用同一个网络选择动作和计算目标Q值,可能导致Q值的估计偏高。
不去幼儿园
2025/01/08
2K0
【强化学习】Double DQN(Double Deep Q-Network)算法
《Scikit-Learn与TensorFlow机器学习实用指南》 第16章 强化学习(下)
在二十世纪初,数学家 Andrey Markov 研究了没有记忆的随机过程,称为马尔可夫链。这样的过程具有固定数量的状态,并且在每个步骤中随机地从一个状态演化到另一个状态。它从状态S演变为状态S'的概率是固定的,它只依赖于(S, S')对,而不是依赖于过去的状态(系统没有记忆)。
SeanCheney
2018/12/17
6090
《Scikit-Learn与TensorFlow机器学习实用指南》 第16章 强化学习(下)
塔秘 | DeepMind到底是如何教AI玩游戏的?
导读 DeepMind到底是如何教AI玩游戏的?这篇在Medium上获得1700个赞的文章,把里面的原理讲清楚了。 谷歌的DeepMind是世界一流的AI研究团队,其研发的AlphaGo在2016年备
灯塔大数据
2018/04/04
2.6K0
塔秘 | DeepMind到底是如何教AI玩游戏的?
深度强化学习综述(上)
人工智能中的很多应用问题需要算法在每个时刻做出决策并执行动作。对于围棋,每一步需要决定在棋盘的哪个位置放置棋子,以最大可能的战胜对手;对于自动驾驶算法,需要根据路况来确定当前的行驶策略以保证安全的行驶到目的地;对于机械手,要驱动手臂运动以抓取到设定的目标物体。这类问题有一个共同的特点:要根据当前的条件作出决策和动作,以达到某一预期目标。解决这类问题的机器学习算法称为强化学习(reinforcement learning,RL)。虽然传统的强化学习理论在过去几十年中得到了不断的完善,但还是难以解决现实世界中的复杂问题。
SIGAI学习与实践平台
2018/12/10
1.2K0
深度强化学习综述(上)
强化学习入门
强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
用户2794661
2022/05/30
1.2K0
强化学习入门
马尔科夫假设:t+1时刻的状态只和t时刻有关,跟t以前没有关系,在棋类游戏中很明显。
小小杨
2021/10/13
1.1K0
实战深度强化学习DQN-理论和实践
1、Q-learning回顾 Q-learning 的 算法过程如下图所示: 在Q-learning中,我们维护一张Q值表,表的维数为:状态数S * 动作数A,表中每个数代表在当前状态S下可以采用动作
石晓文
2018/04/11
2.9K0
实战深度强化学习DQN-理论和实践
写给开发同学的 AI 强化学习入门指南
作者:bear 该篇文章是我学习过程的一些归纳总结,希望对大家有所帮助。 最近因为 AI 大火,搞的我也对 AI 突然也很感兴趣,于是开启了 AI 的学习之旅。其实我也没学过机器学习,对 AI 基本上一窍不通,但是好在身处在这个信息爆炸的时代,去网上随便一搜发现大把的学习资料。 像这个链接里面:https://github.com/ty4z2008/Qix/blob/master/dl.md 就有很多资料,但是这相当于大海捞针。在学习之前我们先明确自己的目的是什么,如题这篇文章是入门强化学习,那么就需要定义
腾讯技术工程官方号
2023/04/29
1.6K0
写给开发同学的 AI 强化学习入门指南
学界 | 邓力等人提出BBQ网络:将深度强化学习用于对话系统
选自arXiv 作者:Zachary Lipton等 机器之心编译 参与:Panda 强化学习是近年来最受关注的人工智能研究方向之一,相关的研究成果也层出不穷,有的甚至引起了全世界的广泛讨论。近日,卡内基梅隆大学、微软研究院、谷歌和 Citadel 等机构在 arXiv 上联合发表了一篇研究论文,提出了一种将深度强化学习应用于对话系统的新技术:BBQ 网络。本论文已被 AAAI 2018 大会接收。论文第一作者为 Zachary Lipton,另外 Citadel 首席人工智能官邓力也是该论文的作者之一,以
机器之心
2018/05/10
8750
强化学习算法总结(一)——从零到DQN变体
中对应价值最大的动作的Q值进行更新,注意这里只是更新,并不会真的执行这个价值最大的动作。这里的更新策略(评估策略)与我们的行为策略(
CristianoC
2021/04/16
2.7K0
强化学习算法总结(一)——从零到DQN变体
深度 | 超越DQN和A3C:深度强化学习领域近期新进展概览
我觉得,深度强化学习最让人喜欢的一点是它确实实在难以有效,这一点不同于监督学习。用神经网络来解决一个计算机视觉问题可能能达到 80% 的效果;而如果用神经网络来处理强化学习问题,你可能就只能眼睁睁地看着它失败——而且你每次尝试时遭受的失败都各不相同。
机器之心
2018/12/06
7480
深度 | 超越DQN和A3C:深度强化学习领域近期新进展概览
推荐阅读
相关推荐
从Q学习到DDPG,一文简述多种强化学习算法
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档