Loading [MathJax]/jax/output/CommonHTML/fonts/TeX/AMS-Regular.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Playing Atari with Deep Reinforcement Learning

Playing Atari with Deep Reinforcement Learning

作者头像
口仆
发布于 2020-08-20 03:40:19
发布于 2020-08-20 03:40:19
1.5K0
举报

本文是对 DQN 原始论文 Playing Atari with Deep Reinforcement Learning 的详细解读。

1 背景

强化学习(RL)领域,直接从高维的原始输入(例如图像和声音)中学习以控制代理(agents)是一个比较大的挑战。大部分成功的 RL 算法都依赖于人工提取的特征结合线性的值函数或策略表示,因此系统的表现很大程度上取决于特征提取的质量。近年来,深度学习(DL)的发展使得我们可以直接从复杂的原始输入中捕获特征,而无需手工提取。然而,深度学习和强化学习又存在着一些差别,导致难以直接将深度神经网络应用于 RL:

  • DL 通常基于大量的人工标注训练数据进行训练,而 RL 则是基于可能存在延时的奖励进行学习,很难通过标准的网络结构将输入直接与奖励进行关联
  • 大部分 DL 算法都假定数据样本之间相互独立,而 RL 则一般应用于高度相关的状态序列
  • 在 RL 中当算法学习到新的行为后,数据分布可能发生改变,而 DL 通常假设数据分布是不变

这篇论文提出了一种卷积神经网络(CNN)以解决上述挑战,在复杂的 RL 环境中直接通过视频数据生成控制策略。该网络基于 Q-learning 算法的变种进行训练,通过随机梯度下降来更新权重。为了缓解数据相关性以及分布的不稳定性,作者使用了一种经验回放机制(experience replay mechanism)来随机采样之前的状态转移,以平滑训练数据的分布。

该方法被用于多款 Atari 2600 游戏的训练,其输入为 60Hz 的

210×160

RGB 视频流。原文旨在通过单个网络来学习尽可能多的游戏,即不提供游戏特定的信息以及手工设计的特征,使用完全和人类玩家同等的视频信号动作集以及奖励来训练代理,且网络的结构与超参数在训练不同的游戏时保持不变。结果表明,该网络在总共七款游戏中有六款的表现超越了之前的 RL 算法,且在其中三款中击败了专业的人类玩家。下图展示了用于训练的五款游戏的截图。

2 理论基础

在本研究中,代理基于一系列的动作、观察与奖励和环境

E

(即 Atari 模拟器)进行交互。在每一个时间步,代理从合法的游戏动作集

A={1,,K}

中选择一个动作

at

,模拟器接收到该动作并修改其内在状态,反映到游戏得分上。一般情况下,环境

E

可能是随机生成的,代理无法观察到模拟器的内部状态,只能观察到来自模拟器的图像

,其是一个表示当前屏幕的原始像素值向量。此外,代理接收到一个奖励

表示游戏得分的变化。一般情况下,游戏得分可能依赖于整个先前的动作与观察序列,一个动作的反馈可能在很多时间步之后才会体现。

由于代理只能观测到当前屏幕的图像,无法获取模拟器的内部状态,即该任务是部分观测的,因此我们考虑基于当前时间

前的整个动作与观察序列

来学习策略。模拟器中的所有序列都假定可以在有限时间步内终止。基于上述假设,我们可以将整个过程理解为一个有限马尔可夫决策过程(MDP),其中每个时间点对应的序列为一个状态

,这样就将原始任务转化为一个可以使用标准强化学习算法的 MDP 场景。

代理的目标是通过与模拟器的交互来选择动作,使得未来的奖励最大化。这里假定未来奖励会随着时间步而衰减,衰减因子为

,则在

时刻未来的奖励和为:

我们定义最优动作-价值函数

为在观测到某个序列

并执行动作

后,通过后续的任意策略所能达到的奖励最大期望:

其中

是一个策略,将状态(这里指序列)映射为动作(或动作的分布)。最优动作-价值函数满足贝尔曼等式

即目标期望由即时奖励和下一个时间步的折扣奖励的最大期望组成。很多强化学习算法的基本思想即使用贝尔曼等式进行迭代更新来估计动作-价值函数,直到收敛至最优值。在实践中,这种基于值迭代的方法并不好用,因为动作-价值函数是针对每个序列分别计算的,不具有推广性,难以应对复杂情况(如状态连续)。一种常用的解决方法是使用一个函数近似器来估计动作-价值函数:

在强化学习社区一般使用线性函数近似器,有时也可以使用诸如神经网络的非线性近似。本研究中使用了一个权重为

的神经网络函数近似器,称为 Q-网络。Q-网络通过在每一次迭代

最小化损失函数

进行训练:

其中

为当前迭代

的目标,

是一个关于序列

和动作

的概率分布,我们称之为行为分布(behaviour distribution)。来自上一次迭代的参数

在优化损失函数

时保持不变,用于计算当前迭代下的最优价值函数。注意在 Q-网络中目标值是依赖于网络权重的,而普通监督学习中目标值(标签)通常是在学习开始前确定好的。将损失函数关于权重求导可得到如下梯度:

相比较直接计算上述梯度中的期望,为了计算效率我们可以通过随机梯度下降来优化损失函数。每次分别基于行为分布

和模拟器

采样单个样本作为期望,用来更新权重(注意在实际算法中为基于经验回放的小批量更新)。这种做法类似于经典的 Q-learning 算法。

本研究提出的方法是 model-free 的,即直接基于来自模拟器

的样本执行学习任务,并不需要对

进行精细地估计(建模)。本方法同样是 off-policy 的,每次迭代时基于贪婪法

(注意这里实际上用的应该是

,因为还没有进行梯度更新)生成样本进行学习(该策略与上一步进行梯度下降时的最优策略并不相同,因为参数被更新了),通过行为分布来保证对状态空间的有效探索。在实践中,行为分布通常基于

贪婪法得到:以

的概率遵循贪婪法,以

的概率选择一个随机动作。

3 相关工作

在给出算法的详细步骤之前,作者先介绍了几项相关工作。首先是 TD-gammon,它是一个通过强化学习游玩西洋双陆棋的程序,其使用了一个 model-free 的类似于 Q-learning 的强化学习方法,通过多层感知机来估计值函数

,但策略的学习方式是 on-policy 的。作者指出,由于非线性函数近似器结合 Q-learning (本质即 off-policy 学习)可能会导致 Q-网络的发散,因此当前大部分工作采用的都是线性函数近似器;而随着深度学习的出现,梯度时序差分方法被证明可以一定程度上缓解 Q-learning 的发散性问题,但还没有研究将其真正用于非线性控制。

另一项工作是神经拟合 Q-学习(NFQ),其与本文中提出的方法较为相似,使用 RPROP 算法更新 Q-网络中的参数,以优化

式中的损失函数。不过其使用了批量更新,计算复杂度较高,而本问中则使用了随机梯度下降,每次迭代只使用单个样本。此外,NFQ 在面向视觉输入的任务时需要先使用深度自编码器学习一个任务的低维表示,再将其输入 NFQ 进行学习;而本文中的方法则直接端到端地应用强化学习,直接从视觉输入中学习策略。此外,早在 1993 年,就有一名研究者在其博士论文中将 Q-learning 和神经网络以及经验重放机制进行了结合,不过当时其使用的神经网络结构较为简单,且输入依旧为低维状态而非原始视觉输入(也许这才是真正的起源?)。

4 深度强化学习

4.1 算法解读

与之前的类似方法相比,本研究使用了一种称为经验回放(experience replay)的技术,将代理在每一个时间步的体验

存放在数据集

中,通过多个回合积累为一个回放记忆(replay memory)。在算法的内循环中,我们将 Q-learning 更新应用于从存储的记忆中随机采样的小批量经验样本

。在执行完经验回放后,代理循

贪婪策略选择并执行一个动作。由于标准神经网络难以处理不定长的输入,所以本研究通过一个函数

先将序列状态映射为一个固定长度的表示,再作为 Q-函数的输入。完整的算法称为深度 Q-learning,如下图所示:

算法的详细步骤为:首先初始化容量为

的回放记忆

,以及随机权重的动作价值函数

;然后执行回合迭代(外循环,共

个回合),在每个回合中,先初始化序列

,并将其预处理为定长

;再执行时间步迭代(内循环,共

步),在每一步中,先基于

策略选择动作

(随机动作或当前最优动作),然后在模拟器中执行

观察奖励

和图像

;设置

并执行预处理

;将当前时间步中得到的转移

存储到

中;基于

随机采样小批量的转移

;根据

是否为终止状态,设置

为:

根据

式基于损失函数

执行梯度下降,更新网络参数。执行上述过程直到达到收敛条件或循环结束。

与标准 Q-learning 相比,本研究提出的方法具有如下几点优势:首先,每一步中获得的经验都可能用于多次权重更新,这样可以提升数据的利用率;其次,由于样本间的强相关性,直接从连续样本中学习是低效的。随机化样本可以打破这种相关性,减少更新的方差;最后,对于 on-policy 式的学习来说,当前的参数决定了下一次训练所需的数据样本,由于执行当前动作后训练的分布会发生变化,因此延用当前策略可能会导致局部最优、参数发散等异常情况的发生;经验回放机制基于多个先前的状态对行为分布进行平均,可以平滑学习过程,避免参数的振荡和发散。同时由于使用了经验回放,梯度更新时的参数(状态)和用于生成样本的参数(状态)并不相同,因此自然需要使用 类似 Q-learning 的 off-policy 方法。

在实践中,本算法只在回放记忆中存储最近的

次回放,在执行更新时从

中均匀采样。这种方式存在着一定的局限性,因为其没有区分出比较重要的转移,只是单纯地用最近产生的转移覆盖之前的转移(受存储空间

的限制)。类似地,均匀采样也为回放记忆中的所有转移赋予了同等的重要性。在之后的研究中,可以对采样方法进行改进,关注能够学习到更多东西的转移。

4.2 预处理和模型结构

原始的 Atari 图像为

像素,每个像素可选颜色为 128 种。为了减小计算复杂度,本文加入了一个简单的预处理步骤以减少输入的维度。原始图像首先被转化为灰度图像,然后降采样为

像素大小。最后由于本研究使用的 2D 卷积 GPU 实现要求输入为正方形,所以再将图像裁剪为

大小,作为最终的输入表示。在本研究的试验中,算法中函数

将一个状态序列的最后 4 帧进行上述预处理,并堆叠在一起作为 Q-函数的输入。

关于网络的结构,之前的一些研究将历史状态和动作一起作为网络的输入,这种结构的缺点在于对每一个动作都需要单独进行一次前向传播。本研究中使用的网络结构对于每个可能的动作都提供一个单独的输出(因此动作不能连续),只有状态被作为网络的输入。网络的输出对应输入状态的每一个可能动作的预测 Q 值。这种结构的优点在于其能够仅通过一次前向传播就计算出一个给定状态的所有可能动作的 Q 值。网络的整体结构如下图所示(图片来自另一篇论文):

上述结构对于所有七款游戏都相同,神经网络的输入为

映射的

的图像,第一层隐藏层为卷积层,包含 16 个

的卷积核,步长为 4,激活函数为 ReLU,对应输出为

;第二层隐藏层也为卷积层,包含 32 个

的卷积核,步长为 2,激活函数为 ReLU,对应输出为

;最后一层隐藏层为全连接层,包含 256 个整流单元,输出为

;最终输出层同样为全连接层,输出一个包含每个合法动作 Q 值的向量。参与实验的游戏的合法动作数量为 4 到 18 个不等。本文中使用的卷积神经网络被称为深度 Q 网络(DQN)。

5 实验

原文的实验共涉及七款游戏,分别是 Beam Rider、Breakout、Enduro、Pong、Q*bert、Seaquest 和 Space Invaders。如之前所述,为了证明模型的鲁棒性,所有游戏使用相同的网络结构、学习算法和超参数设置。与真实游戏反馈相比,实验的唯一不同在于对游戏的奖励进行了修改。由于不同游戏的实际奖励得分差异较大,为了便于训练,将所有的正向奖励置为 1,负向奖励置为 -1,不变则为 0。这种裁剪可以帮助减少训练误差,让不同的游戏可以使用相同的学习率,提升最终的表现。

实验中使用的具体算法和超参数设置如下:

  • 学习率调整:RMSProp 算法
  • 小批量大小: 32

策略:前 1,000,000 帧画面中

线性地从 1 到 0.1 下降;之后保持 0.1(测试时使用 0.05)

  • 训练总时长:10,000,000 帧画面
  • 回放记忆:最近的 1,000,000 帧画面

此外,实验中还使用了一个简单的 frame-skipping 技巧。代理只会在每

帧进行观察并选择动作,而不是每一帧,在跳过的帧中重复最近一次选择的动作。由于简单运行模拟器比控制代理选择动作的计算量小很多,所以这一技术可以帮助代理在不显著增加运行时间的前提下玩更多次的游戏。原文中,对于除 Space Invaders 之外的游戏设置了

,由于该游戏设置为 4 会导致激光无法识别,所以设置

5.1 训练和稳定性

在监督学习中,我们可以通过模型在训练集和验证集上的表现对其进行评估。然而在强化学习中,在训练中并没有一个很好的评估标准。本研究首先计算了不同训练回合下代理所获得的总奖励,但发现总奖励的变化趋势波动较大,这可能是因为一个策略权重的微小改变会导致策略所访问状态分布的较大变化。下图中左边两张给出了在两个不同游戏中的平均总奖励随训练回合的变化(平均是指分游戏统计),展示效果不是很理想。第二种评估方式则是基于策略的动作价值函数 Q,其估计了代理在遵循当前策略下所能得到的未来折扣奖励。实践证明该指标要比第一种更加稳定。具体来说,首先在训练开始前执行随机策略,采集一个固定的状态集合,然后跟踪不同训练回合时这些状态对应的最大预测 Q 值(从所有可能的动作中选)的平均值。下图中右边两张展示了平均预测 Q 值的平滑上升趋势,其他五个游戏也展示了类似的平滑曲线,在训练过程中也没有出现任何不收敛的问题。虽然缺乏理论证明,但是本文提出的方法能够使用强化学习信号和随机梯度下降来训练大型的神经网络,并保证收敛。

5.2 价值函数可视化

下图给出了在游戏 Seaquest 中学习到的价值函数的可视化展示,三个点分别对应右边的三张画面。可以看到当一个新敌人(绿色的鱼)出现在屏幕中时,预测的价值明显上升(点 A);而当鱼雷快要攻击到敌人时,价值进一步上升达到峰值(点 B);当敌人消失后,价值则快速下降至原来的水平。该图表明本文提出的方法能够学习到价值函数如何在复杂的事件序列中进行演变。

5.3 主要评估

在本节中,作者首先将 DQN 和之前的一些 RL 方法进行了对比,如下表的前五行所示。表中的数值为以

策略执行固定步骤后的平均总奖励(执行多个回合取平均)。除去随机策略和人工玩家,共对比了两种方法:SarsaContingency。这两种方法都在手工提取特征的同时,将画面中的不同颜色进行分离并标注。人工玩家的奖励为玩游戏两小时后获得的奖励的中位数。下表的后三行比较了 DQN 和两种进化策略搜索方法:HNeat BestHNeat Pixel。HNeat Best 基于人工标注的目标检测算法,输出屏幕上物体的类型和位置;HNeat Pixel 则使用 8 个特别的颜色表示 Atari 游戏中的特定物体类型。这两种方法依赖于找到一个确定的状态序列,不会存在随机扰动,因此对比的是单个回合下的最佳表现。

总的来看,我们的方法在 Breakout、Enduro 和 Pong 这三款游戏上击败了人类玩家;在 Beam Rider 上和人类玩家表现接近。而差距较大的三款游戏需要网络基于更长的时间范围寻找策略,因此挑战性更大。

6 结论

本文可以说是将深度学习应用于强化学习领域的开山之作,其在 Atari 2600 游戏上展示了深度学习仅基于原始图像即能够掌握复杂控制策略的能力。本研究提出的方法也可以理解为一种在线 Q-learning 的变种,融合了随机小批量更新经验回放以便于深度网络的训练。在无需额外调整结构和超参数的前提下,本方法在七款游戏中的六款达到了 SOTA 的结果。

后记:在 Human-level control through deep reinforcement learning 中,作者对本文中的算法进行了改进,创建了另一个 Q-网络,其参数只会定期更新,并不会参与完整的迭代。这种方式可以缓解 Q-值的不稳定问题,在 49 个 Atari 游戏中取得了比本文更好的效果。

- To Be Continued -

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-08-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 口仆 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
独家 | 使用Python的OpenAI Gym对Deep Q-Learning的实操介绍(附学习资源)
即使你不喜欢玩游戏,深度强化学习也很重要。只用看当前使用深度强化学习进行研究的各种功能就知道了:
数据派THU
2019/05/21
1.4K0
DeepMind到底是如何教AI玩游戏的?这篇在Medium上获得1700个赞的文章,把里面的原理讲清楚了
一篇顶十篇!想入门强化学习,专心研读这篇对DeepMind经典论文的解析就够了 作者 | Aman Agarwal 编译 | Shawn 编辑 | 鸽子、焦燕 DeepMind到底是如何教AI玩游戏的?这篇在Medium上获得1700个赞的文章,把里面的原理讲清楚了。 谷歌的DeepMind是世界一流的AI研究团队,其研发的AlphaGo在2016年备受瞩目的人机大战中击败了韩国围棋冠军李世石(Lee Sedol),一战成名。AlphaGo背后的关键技术就是深度强化学习(Deep Reinforcem
AI科技大本营
2018/04/26
1.6K0
DeepMind到底是如何教AI玩游戏的?这篇在Medium上获得1700个赞的文章,把里面的原理讲清楚了
塔秘 | DeepMind到底是如何教AI玩游戏的?
导读 DeepMind到底是如何教AI玩游戏的?这篇在Medium上获得1700个赞的文章,把里面的原理讲清楚了。 谷歌的DeepMind是世界一流的AI研究团队,其研发的AlphaGo在2016年备
灯塔大数据
2018/04/04
2.5K0
塔秘 | DeepMind到底是如何教AI玩游戏的?
小白系列(6)| Q-Learning vs. Deep Q-Learning vs. Deep Q-Network
原文:小白系列(6)| Q-Learning vs. Deep Q-Learning vs. Deep Q-Network
一点人工一点智能
2023/09/07
7140
小白系列(6)| Q-Learning vs. Deep Q-Learning vs. Deep Q-Network
Hands on Reinforcement Learning 07 Deep Q Network
在第 5 章讲解的 Q-learning 算法中,我们以矩阵的方式建立了一张存储每个状态下所有动作值的表格。表格中的每一个动作价值
一只野生彩色铅笔
2023/04/07
7230
Hands on Reinforcement Learning 07 Deep Q Network
论文趣读:人工智能里程碑?回顾2015年登上Nature的DQN(全文翻译+批注)
文章:Mnih V , Kavukcuoglu K , Silver D , et al. Playing Atari with Deep Reinforcement Learning[J]. Computer Science, 2013. DeepMind链接:(https://deepmind.com/research/publications/playing-atari-deep-reinforcement-learning)
Piper蛋窝
2020/11/19
1.8K0
论文趣读:人工智能里程碑?回顾2015年登上Nature的DQN(全文翻译+批注)
【综述翻译】Deep Learning for Video Game Playing
原文来源:https://arxiv.org/pdf/1708.07902.pdf
深度强化学习实验室
2020/12/16
1.1K0
【综述翻译】Deep Learning for Video Game Playing
深度强化学习智能交通 (I) :深度强化学习概述
随着城市化进程的加快和自动技术的最新发展,交通研究逐渐向智能化方向发展,称为智能交通系统(ITS)。人工智能(AI)试图用最少的人工干预来控制系统。智能交通系统与人工智能的结合为21世纪的交通研究提供了有效的解决方案。ITS 的主要目标是为参与者提供安全、有效和可靠的交通系统。为此,优化交通信号控制(TSC)、自动车辆控制、交通流控制等是研究的重点。
数据科学人工智能
2022/03/31
1.8K0
深度强化学习智能交通 (I) :深度强化学习概述
从强化学习Reinforcement Learning到DQN(Deep Q-learning Network)学习笔记
本篇博客大概会记录强化学习RL的基础知识,基本方法,以及如何推导到DQN,和关于DeepMind的Playing Atari with Deep Reinforcement Learning(DQN学习打砖块游戏)这篇论文的一些理解,后续改进方向,还有一些具体实现。若有理解不当,恳请指出!
大鹅
2021/06/16
7500
强化学习算法解析:深度 Q 网络(Deep Q - Network,DQN)
强化学习(Reinforcement Learning, RL)是机器学习领域的重要分支,它研究如何让智能体(Agent)通过与环境的交互来学习最优的行为策略。在强化学习中,智能体的目标是最大化长期累积奖励,而环境则根据智能体的行为给出反馈。Q-learning 是强化学习中一种经典的算法,它通过学习状态 - 行动对(State-Action Pair)的 Q 值来指导智能体的行为。然而,传统的 Q-learning 算法在面对状态空间巨大的场景时(如游戏、机器人控制等)存在明显的局限性,因为直接存储和更新所有状态 - 行动对的 Q 值在计算和存储上是不可行的。
jack.yang
2025/04/17
3780
强化学习算法解析:深度 Q 网络(Deep Q - Network,DQN)
深度 | David Silver全面解读深度强化学习:从基础概念到AlphaGo
机器之心原创 作者:Duke Lee 参与:马亚雄、吴攀、吴沁桐、Arac Wu 强化学习在与之相关的研究者中变得越来越流行,尤其是在 DeepMind 被 Google 收购以及 DeepMind 团队在之后的 AlphaGo 上大获成功之后。在本文中,我要回顾一下 David Silver 的演讲。David Silver 目前任职于 Google DeepMind 团队。他的演讲可以帮助我们获得对强化学习(RL)和深度强化学习(Deep RL)的基本理解,这不是一件特别难的事。 David Silve
机器之心
2018/05/07
1K0
深度 | David Silver全面解读深度强化学习:从基础概念到AlphaGo
使用Panda-Gym的机器臂模拟进行Deep Q-learning强化学习
强化学习(RL)是一种机器学习方法,它允许代理通过试错来学习如何在环境中表现。行为主体因采取行动导致预期结果而获得奖励,因采取行动导致预期结果而受到惩罚。随着时间的推移,代理学会采取行动,使其预期回报最大化。
deephub
2023/10/31
5740
使用Panda-Gym的机器臂模拟进行Deep Q-learning强化学习
Deep Q-Learning 简介:一起玩 Doom
上一次,我们了解了 Q-Learning:一种生成 Q-table 的算法,代理使用它来找到在给定状态下采取的最佳动作。
小锋学长生活大爆炸
2021/06/11
7600
Deep Q-Learning 简介:一起玩 Doom
从Q学习到DDPG,一文简述多种强化学习算法
选自towardsdatascience 作者:Steeve Huang 机器之心编译 参与:Edison Ke、路雪 本文简要介绍了强化学习及其重要概念和术语,并着重介绍了 Q-Learning 算法、SARSA、DQN 和 DDPG 算法。 强化学习(RL)指的是一种机器学习方法,其中智能体在下一个时间步中收到延迟的奖励(对前一步动作的评估)。这种方法主要用于雅达利(Atari)、马里奥(Mario)等游戏中,表现与人类相当,甚至超过人类。最近,随着与神经网络的结合,这种算法不断发展,已经能够解决更
企鹅号小编
2018/02/05
1.7K0
从Q学习到DDPG,一文简述多种强化学习算法
DeepMind都拿不下的游戏,刚刚被OpenAI玩出历史最高分
【新智元导读】《蒙特祖玛的复仇》被公认为是Atari中最难的游戏之一,是AI的一大挑战。今天,OpenAI宣布他们的AI仅通过一次人类演示,就在蒙特祖玛的复仇游戏中获得了74500分的成绩,比以往公布的任何结果都要好。而且,这次的成果使用了PPO算法,这正是不久前OpenAI在Dota2 5v5中战胜人类的AI的算法。
新智元
2018/07/31
3250
DeepMind都拿不下的游戏,刚刚被OpenAI玩出历史最高分
强化学习如何入门?看这篇文章就够了
对于大脑的工作原理,我们知之甚少,但是我们知道大脑能通过反复尝试来学习知识。我们做出合适选择时会得到奖励,做出不切当选择时会受到惩罚,这也是我们来适应环境的方式。如今,我们可以利用强大的计算能力,在软件中对这个具体过程进行建模,这就是强化学习。
量子位
2018/07/20
1.1K0
【强化学习】Double DQN(Double Deep Q-Network)算法
强化学习中的深度Q网络(DQN)是一种将深度学习与Q学习结合的算法,它通过神经网络逼近Q函数以解决复杂的高维状态问题。然而,DQN存在过估计问题(Overestimation Bias),即在更新Q值时,由于同时使用同一个网络选择动作和计算目标Q值,可能导致Q值的估计偏高。
不去幼儿园
2025/01/08
1.4K0
【强化学习】Double DQN(Double Deep Q-Network)算法
分享总结 | 叶志豪:介绍强化学习及其在 NLP 上的应用
雷锋网 AI 研习社按:当 AlphaGO 横扫之后,越来越多的学者意识到强化学习在人工智能领域所扮演的重要角色。同时随着深度学习的发展,应用深度学习,很多自然语言的传统难题得到突破。另外,引用 David Silver 的一句话:深度学习 (DL)+ 强化学习 (RL) = 人工智能 (AI)。
AI研习社
2018/07/26
1.6K0
分享总结 | 叶志豪:介绍强化学习及其在 NLP 上的应用
Q-learning与深度Q网络(DQN)
Q-learning 是一种经典的强化学习算法,属于基于值的方法。它的核心思想是通过学习一个状态-动作值函数(Q函数),来帮助智能体在不同状态下选择最佳的动作。Q-learning是一种无模型的强化学习方法,这意味着它不需要了解环境的动态或转移概率,而是通过与环境的交互逐步更新Q值来学习最优策略。
LucianaiB
2025/01/27
1380
强化学习-Reinforcement learning | RL
强化学习算法的思路非常简单,以游戏为例,如果在游戏中采取某种策略可以取得较高的得分,那么就进一步「强化」这种策略,以期继续取得较好的结果。这种策略与日常生活中的各种「绩效奖励」非常类似。我们平时也常常用这样的策略来提高自己的游戏水平。
easyAI
2019/12/18
1.2K0
强化学习-Reinforcement learning | RL
推荐阅读
相关推荐
独家 | 使用Python的OpenAI Gym对Deep Q-Learning的实操介绍(附学习资源)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档