Loading [MathJax]/extensions/TeX/AMSmath.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >深度强化学习智能交通 (I) :深度强化学习概述

深度强化学习智能交通 (I) :深度强化学习概述

作者头像
数据科学人工智能
发布于 2022-03-31 10:40:28
发布于 2022-03-31 10:40:28
1.8K0
举报

这是arxiv上最新发表的一篇前沿交叉综述报告。主要讨论了如何使用深度强化学习方法解决智能交通系统问题,特别是智能信号灯控制问题。本公众号将分4次发布本综述报告的翻译,仅供大家参考学习。

系列预告

  • 深度强化学习智能交通 (I) :深度强化学习概述
  • 深度强化学习智能交通 (II) :交通信号灯控制表示为 Deep RL 问题
  • 深度强化学习智能交通 (III) :Deep RL 在交通信号灯控制中的应用
  • 深度强化学习智能交通 (IV) :自动驾驶、能源管理与道路控制

0 介绍

随着城市化进程的加快和自动技术的最新发展,交通研究逐渐向智能化方向发展,称为智能交通系统(ITS)。人工智能(AI)试图用最少的人工干预来控制系统。智能交通系统与人工智能的结合为21世纪的交通研究提供了有效的解决方案。ITS 的主要目标是为参与者提供安全、有效和可靠的交通系统。为此,优化交通信号控制(TSC)、自动车辆控制、交通流控制等是研究的重点。

未来的交通系统预计将包括完全自动,如自动交通管理和自动驾驶。即使是现在,半自动驾驶汽车也占据了道路,而且在不久的将来,自动水平可能会提高。政府希望在这方面拥有自动权的原因有很多,例如为司机节省时间,为环境节约能源,以及为所有参与者提供安全保障。通过使用自动控制系统,可以更有效地控制协调和连接的交通系统,可以节省出行时间。当车辆在交通上花费更多时间时,油耗会增加,这会对环境和经济产生影响。人类干预被尽量减少的另一个原因是人类行为的不可预测性。预计自动驾驶将减少交通事故,提高交通运输质量。基于上述原因,智能交通系统对自动控制的各个方面都有很高的要求。一种流行的方法是使用基于经验的学习模型,类似于人类的学习。

城市地区人口的增长导致了交通量的增加,2018年,平均一个美国司机每年的拥堵代价为 97 小时和1348美元[1]。因此,利用自适应模块控制交通信号灯是智能交通系统(ITS)的一个研究热点。通过交通信号设计一个自适应的交通管理系统是减少交通拥挤的有效途径。优化红绿灯的最佳方法对研究人员来说仍然是一个悬而未决的问题,但是一个有希望的优化 TSC 的方法是使用基于学习的人工智能技术。

机器学习的模式主要有三种。有监督学习根据训练中提供的输出标签做出决策。无监督学习基于模式发现,不需要预先知道输出标签。第三种机器学习范式是强化学习(RL),它以马尔可夫决策过程(MDP)为基础,以奖励或惩罚为准则,采取序列化的行动。RL 与深度学习相结合,被称为 deep RL,是目前控制系统中最先进的学习框架。RL 可以解决复杂的控制问题,而深度学习有助于从复杂的数据集中逼近高度非线性函数。

近年来,针对不同的应用领域,提出了许多基于深度 RL 的求解方法。基于 RL 的控制机制在交通管理系统和自动驾驶应用中的应用越来越受到人们的关注。综述与 deep RL 相关的所有数据驱动的 ITS 研究,并在一篇论文中讨论这些应用,是为 ITS 研究人员提供关于 deep RL 的信息,以及 deep RL 研究人员提供关于 ITS 的信息。

本文综述了针对智能交通系统提出的 deep RL 应用,主要是针对 交通信号灯控制的 deep RL 应用。讨论了不同于文献中的的 RL 方法。基于传统 RL 技术的 TSC 解决方案在 deep RL 发明之前就已经被研究过。因此,对于智能交通系统,传统的 RL 方法对于启发我们提出 deep RL 的方法也至关重要,特别是智能信号灯控制。由于交通断面模型主要是连通的和分布式的,因此多智能体动态控制技术在基于RL的 ITS 应用中起着关键的作用。

Deep RL 是最成功的人工智能模型之一,也是最接近人类学习模式的机器学习范式。它结合了深层神经网络和强化学习,使得函数逼近更为有效和稳定,特别是对于高维和无限状态问题。本节介绍了传统 RL 的理论背景以及在 ITS 应用中实现的主要深度 RL 算法。

1 强化学习

强化学习是一种通用的学习工具。在强化学习中,智能体与环境进行交互,在没有任何先验知识的情况下,通过最大化一个数值定义的奖励(或者最小化惩罚)来学习如何在环境中表现。在每一个时间步

采取一个行动后, RL 智能体会从环境中得到一个度量其行动效果的反馈。根据这个反馈(奖励或惩罚),智能体迭代地更新其行动策略直到达到最优控制策略。

RL 从环境的经验中学习,利用的是一种与人类学习类似的不断试错反复尝试(trial-and-error)的学习模式[11]。RL 中基本的探索利用权衡在新的行动和已有行动之间建立平衡。从计算的视角,RL 利用一种数据驱动的方法迭代的计算近似方案来逼近最优控制策略。因此,它也被称为近似动态规划(approximate dynamic programming)[11],是动态规划(DP)中的一类序列优化问题。

在一般的 RL 模型中,智能体由一个算法控制,在每一个时间步 观察到系统状态 ,采取行动 后,从系统/环境得到奖励 。在当前策略 下采取行动后,系统转移到下一个状态 。每一次交互后,RL 智能体更新它拥有的环境的知识。图1显示了强化学习过程的示意图。

图1 强化学习的控制环路

1.1 马尔可夫决策过程

强化学习方法可以形式化为马尔可夫决策过程(MDP),MDP 是序列决策算法的一般数学框架。MDP 可以表示成一下五元组:

  • 状态集合
  • 行动集合
  • 转移函数 ,将时间 时的状态行动对映射为下一个状态 的分布,
  • 奖励函数 代表智能体在状态 下采取行动 后,系统转移到状态 时所获得的奖励。
  • 折扣因子 表示对未来奖励的折扣,取值为0到1之间。

基本的马尔科夫性质告诉我们,给定当前的状态 ,系统的下一个状态 与之前的状态 独立。在交通系统等控制系统中,MDP 模型通常是回合制(episodic)的,系统在每一回合有一个明确的终止点,基于终止时间 或终止状态 。MDP 智能体的目标是寻找最佳策略 ,最大化累计奖励期望 ,其中累计折扣奖励为

折扣因子 反映的是未来奖励的重要性。选择大的 代表智能体的行动对未来奖励有较大依赖性。小的 则代表智能体的行动更关心实时的奖励

通常,RL 智能体表现为两种形式:(i) 已知或者学习状态 的转移概率 ,称为基于模型的强化学习;(ii) 通过探索环境而不直接学习转移模型,称为无模型强化学习。无模型的强化学习算法可以进一步分为两种类型:基于价值的方法和基于策略的方法。在基于价值的强化学习中,智能体的每一步迭代更新将状态行动对映射为一个值的价值函数。在基于策略的方法中,策略在每一步迭代中直接通过策略梯度来更新[11]。下面我们详细地介绍基于价值和基于策略的强化学习方法。

1.2 基于价值的强化学习

价值函数决定了智能体处于某一个状态的好坏。在某个策略 下智能体处于状态 时的价值(即期望奖励)为

最优价值函数 描述了在所有的策略中价值函数的最大值,即

考虑行动的影响,状态行动价值函数,也称为质量函数(Q函数),通常用来反映一个状态行动对的期望奖励

最优行动价值函数的计算方法与最优状态价值函数蕾西,通过在每一个状态下,最大化期望奖励来实现。最优状态值函数和最优行动值函数的关系为

Q函数 通过选择最大化Q值的行动,能够得到最优策略 :

基于以上定义,有两种主要的基于价值的强化学习算法:Q-learning[12] 和 SARSA[13],分别为 on-policy 和 off-policy 强化学习算法。在这两个算法中,状态行动对的价值(Q值)都以Q表的形式存储,通过利用贝尔曼方程的递归本质和马尔可夫性质来学习:

在实践中,通常使用一个学习率 来优化价值函数的估计:

其中 的时间差分目标值(TD target)。TD 步数大小是一个待确定的参数,决定了在计算新的对 的实时估计 时使用多少经验步数。假设 TD 步数为 ,则奖励 步以后的Q值 确定了 。现在可以很明确地看到 Q-learning 和 SARSA 在这个过程中的不同。Q-learning 是一个 off-policy 模型,行动是通过最大化 Q 值来获得的。而 SARSA 是一个 on-policy 模型,智能体的行动是通过从 Q 函数中得到的策略来更新的。

Q-learning 算法使用贪心算法来更新其Q值,SARSA 算法使用同样的策略来更新Q值和采取行动。为了鼓励探索,Q-learning 算法和 SARSA 算法都使用 -贪心策略来采取行动。在 -贪心策略中,以 的概率随机选取行动,以 的概率根据 Q 表来选取最优行动.

在 Q-learning 和 SARSA 中,最大的时间差分步数,通常记为 代表回合的结束,对应一种完全经验技术称为 蒙特卡洛 RL。在蒙特卡洛 RL 中,每一个回合只在回合的结束时更新一次 Q 值。 技术则进一步推广了 TD 学习,它用一个衰减系数 对回合中所有步数的目标值进行平均[11]。

1.3 基于策略的强化学习

基于策略的 RL 将策略 当作是状态行动对上的分布,其中 为参数。策略参数 通过最大化某个目标函数 (例如期望奖励 )来进行更新。基于策略的方法在具有无限维动作空间或高维问题的连续控制问题上的性能通常优于基于值的方法,因为策略不需要在一个大的连续空间中探索所有状态并将它们存储在表中。尽管有一些有效的无梯度方法用于优化非 RL 方法中的策略[14],但是基于梯度的方法在所有类型的 RL 算法中都更有用。

这里我们简要地讨论基于策略梯度的强化学习算法,它们通过目标函数 对于参数 的梯度(称为策略梯度)来选择行动。在著名的策略梯度算法 REINFORCE 中[15],目标函数是期望奖励,使用对数技巧 后,策略梯度可以写成

由于直接计算全梯度不高效,REINFORCE 使用随机梯度下降技术来对梯度近似近似。它使用时间 下的奖励 来作为 的估计,在每一步蒙特卡洛迭代中执行以下更新:

θθ+αθlogπθRt,(12)

其中α 为学习率。θθlogπθ 方向上以权重Rt 进行更新,即如果近似的策略梯度对应一个高的奖励Rt , 则更新参数时,梯度方向是加强(reinforced)的。

蒙特卡洛策略梯度的一个问题是其高方差。为了在策略梯度估计中较小方差,Actor-Critic 算法使用状态价值函数 作为一个基准(baseline)。在策略梯度中,使用优势函数 代替 :

优势函数是正负决定了更新的方向:朝着比平均值高/低的奖励相同/相反的方向前进。我们将在讨论深度强化学习时进一步讨论 Actor-Critic 算法。

1.4 多智能体强化学习

现实世界中的许多问题都需要多个智能体之间的交互来最大化学习性能。多智能体学习是一项具有挑战性的任务,因为每个智能体都应该考虑其他智能体的行为,以达到全局最优解。增加智能体的数量也会增加状态和行动的维度,因此智能体之间的任务分解是大型控制系统可扩展的方法。

多智能体 RL 中高维系统(状态和行动)存在两个主要问题:智能体的稳定性和对环境的适应性[17]。当各智能体在不考虑近邻智能体的情况下对其行动进行优化时,整个系统的最优学习将变得非平稳。在多智能体 RL 系统中,有几种方法可以解决这个问题,如分布式学习、合作学习和竞争学习[17]。

2 深度强化学习

在高维的状态空间,传统的 RL 算法不能有效地为每一个状态计算价值函数和策略函数。虽然在 RL 中有一些线性函数逼近的方法被提出来解决大的状态空间问题,它们的能力还是有限。在高维和复杂系统中,传统的 RL 方法无法学习环境的有信息的特征来进行高效的函数逼近。然而,这个问题可以使用基于深度学习的逼近器很容易地解决。可以训练一个深层神经网络来学习最优策略或价值函数。在大的状态空间,不同的神经网络结构,例如卷积神经网络(CNN)和循环神经网络(RNN)都被用来训练强化学习算法[18]。

深度学习的主要思想是从数据中提取有用的模式。深度学习模型是从人类神经系统的多层结构中获得启发。如今,深度学习在计算机视觉语音识别自然语言处理和强化学习等诸多领域得到了广泛的应用。

2.1 深度 Q 网络

基于价值的 RL 算法通过填充 Q 表来学习 Q 函数,对于状态空间很大和连续行动问题,逐个访问所有的状态和行动的方法非常低效。一个主要的解决这一问题的方法为深度 Q 网络(DQN),即通过深层神经网络来近似 Q 函数。最初的 DQN 将原始图片输入当作状态,从中使用卷积神经网络估计 Q 值。将神经网络的参数记为 ,则 Q 函数的近似为 。神经网络的输出为根据公式(6)从一个离散的近似行动值中选取的最优行动。

文献[19]的主要贡献是提出了两种新颖的技术稳定深层神经网络中的学习:目标网络和经验回放。最初的 DQN 算法在一系列经典的 Atari 视频游戏上超过了人类的水平。完整的包含经验回放和目标网络的 DQN 算法见算法1。

目标网络:DQN 中稳定学习的主要方法是目标网络。DQN 中包含两个单独的神经网络:近似 Q 函数的主网络和给出 TD 目标值以更新主网络的目标网络。在训练阶段,在每一个行动后更新主网络的参数 ,而目标网络的参数 则经过一个固定的时间段后再更新。不再每一次迭代更新目标网络是为了调整主网络的更新以保持价值函数可控。如果两个网络同时更新,由于目标网络的反馈回路,主网的变化会被放大,导致网络不稳定。与公式(9)类似,1步时间差分目标 为:

其中 为目标网络。

经验回放:DQN 提出了另外一种不同的特性叫做经验回放(experience replay),在回放存储中存放最近的经验 。训练神经网络时从回放存储中均匀地采样样本。在 DQN 中使用经验回放主要有两个原因。首先,由于 RL 智能体在连续的样本中容易产生时间相关性,因此通过随机抽样防止智能体陷入最近的轨迹。其次,DQN 可以通过在小批量样本中训练来代替在全部观察中训练,来提高训练效率。在固定大小存储的经验回放中,只存储最近的 个样本,更早的样本会用新的样本来取代。同样的技术在其他深度强化学习算法中也被使用[20,21]。

优先经验回放:经验回放从存储中均匀采样,然而对于学习来说,有些样本比其他样本更重要。一种新的方法对于重要的行动给予优先,从而在 DQN 算法中改变了采样的分布[22]。优先经验回放的总体思想是采用比例优先或者排序优先的方法来使 TD 误差 大的样本采样到的概率会更大。经验样本根据设置的概率来进行采样。

2.2 Double Dueling DQN

DQN 是传统的 Q-learning 算法的改进版本。由于都只有一个 Q 函数估计器,DQN 和 Q-learning 都会高估某些行动。文献[23]的作者提出使用双网络,用一个主网络进行行动选择,用一个目标网络来对行动进行评价。使用和传统的表格 double Q-learning 算法相同的损失最小化方法[24]。Double DQN 使用主网络来选择行动,目标网络来评价行动,而不是使用目标网络来选择 Q 值(参考公式(14))。为了更好地估计Q值,行动选择与目标网络解耦:

DQN 的另一个改进是每一个行动使用一个竞争网络架构来估计状态价值函数 和使用优势函数 [25]。这两个网络组合的输出是通过聚合层的离散行动集的 Q 值。通过这种方式竞争 DQN 学习到重要状态的价值而不用去考虑不同行动的影响,因为状态价值 是一个行动无关的估计。

以上这两种 doubling 和 dueling DQN 模型在使用优先经验回放时在离散行动的深度强化学习中取得了当前最好的性能。

2.3 Actor Critic 方法

Actor-critic 强化学习模型介于基于策略的算法和基于价值的算法之间,因为需要维护两个估计:使用 Q-value 估计的 Actor 和使用状态价值函数估计的 Critic,如图2所示。Actor 基于策略来控制智能体的行为,而 Critic 基于价值函数来对采取的行动进行评价。最新的研究也使用深度强化学习方法来提出 Actor-critic 模型的变种[20,21,26],在这些模型中 Actor 和 Critic 都是基于深层神经网络。

图2 Actor Critic 控制环路

只有一个网络的传统 DQN 适合于低维离散行动空间的问题。最近,一个 Actor-critic 算法 DDPG (deep deterministic policy gradient)被提出来,用于解决高维连续控制问题。DDPG 在状态空间使用确定性的策略梯度方法,而不是同时在状态空间和行动空间都使用随机梯度下降[20]。DDPG 与传统的 DQN 的一个不同是它使用一个新的软性的目标更新模型执行频繁的软性更新。

2.4 异步方法

硬件系统的进展使得强化学习研究人员能够使用多个 CPU 或 GPU 进行并行计算来加快学习速度。首次在 DQN上测试的并行模型提高了智能体的性能,训练时间更短且收敛性更好。例如,文献[27]中提出的异步多 Actor 学习模型在连续和离散行动空间问题上都获得了高性能。多 Actor 学习使得 RL 智能体能够在不同的探索率下对环境进行探索。此外,异步更新不再需要回放存储,学习器在一个预先定义的更新周期 下能够利用多个试验累计的梯度。A3C (Asynchronous Advantage Actor-Critic),一种先进的深度强化学习算法,可以在多个并行处理器上异步地更新策略和价值网络。在更新周期 内,每一个网络分别进行更新,共享的主网络则根据 来进行更新。A3C 的同步和简化算法称为 A2C (Advantage Actor-Critic)。

3 Deep RL 小结

在这一部分中,我们讨论了深度 RL 的背景,包括基于策略和基于价值的 RL 模型。在讨论ITS中deep RL应用的细节之前,值得一提的是,某些 deep RL算法是根据应用域的规格,在不同的应用程序中首选。虽然开发新的深度RL技术是一个活跃的研究领域,但基于Q学习的DQN和 基于 actor-critic 的DDPG 算法仍然是基于 RL 的 ITS 控制的主流。

对于高维状态空间,deep RL 方法优于传统 RL方法。在行动空间方面,基于策略的 deep RL方法比基于值的 deep RL 方法更适合于连续行动空间。对于离散行动空间,其控制器通常使用 DQN 及其变体,因为与基于策略的方法相比,它们的结构更简单。

一般来说,基于 Q 学习的 DQN 模型通常用于具有有限状态空间和行动空间的较不复杂系统,而基于策略或 actor-critic 的算法主要用于大型复杂系统,包括多智能体控制系统。在许多情况下,设计者可以在设置问题时在离散和连续状态空间和行动空间之间进行选择。例如,在 TSC 中,一些作者将连续行动定义为延长绿灯的时间,而另一些作者将离散行动空间定义为选择绿灯方向。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-05-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据科学人工智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
深度强化学习智能交通 (I) :深度强化学习概述
随着城市化进程的加快和自动技术的最新发展,交通研究逐渐向智能化方向发展,称为智能交通系统(ITS)。人工智能(AI)试图用最少的人工干预来控制系统。智能交通系统与人工智能的结合为21世纪的交通研究提供了有效的解决方案。ITS 的主要目标是为参与者提供安全、有效和可靠的交通系统。为此,优化交通信号控制(TSC)、自主车辆控制、交通流控制等是研究的重点。
数据酷客
2020/05/09
1.9K0
深度强化学习智能交通 (I) :深度强化学习概述
深度强化学习智能交通 (III) :Deep RL 在交通信号灯控制中的应用
这是arxiv上最新发表的一篇前沿交叉综述报告。主要讨论了如何使用深度强化学习方法解决智能交通系统问题,特别是智能信号灯控制问题。本公众号将分4次发布本综述报告的翻译,仅供大家参考学习。获取英文原论文请在本公众号回复关键词"强化学习智能交通"。
数据科学人工智能
2022/03/31
3.2K0
深度强化学习智能交通 (III) :Deep RL 在交通信号灯控制中的应用
机器学习——强化学习与深度强化学习
近年来,强化学习(Reinforcement Learning, RL)在多个领域取得了巨大的进展。从早期简单的迷宫导航问题到今天 AlphaGo 击败围棋世界冠军,强化学习的潜力得到了充分展现。而随着深度学习的引入,深度强化学习(Deep Reinforcement Learning, DRL)更是将这一技术推向了前所未有的高度。本篇文章将深入探讨强化学习与深度强化学习的基本原理、常见算法以及应用场景,旨在为读者提供一个详尽的学习路线图。
hope kc
2024/10/09
2.1K0
深度强化学习智能交通 (IV) : 自动驾驶、能源管理与道路控制
在 ITS 的其他应用中引入了几种有用的 deep RL 机制。智能交通系统中 AI 的一个主要应用领域是自动驾驶,其中深度强化学习在该领域起到了非常关键的作用。Deep RL 方法能够应用到自主控制问题的多个方面,包括匝道计量、车道变换、速度加减速和交叉口通行等(见表四)。
数据科学人工智能
2022/03/31
1.7K0
深度强化学习智能交通 (IV) : 自动驾驶、能源管理与道路控制
深度强化学习——从DQN到DDPG
大家好,我是架构君,一个会写代码吟诗的架构师。今天说一说深度强化学习——从DQN到DDPG,希望能够帮助大家进步!!!
Java架构师必看
2022/07/06
1.4K0
深度强化学习——从DQN到DDPG
详解经典强化学习算法,搞定“阿尔法狗”下围棋
👆点击“博文视点Broadview”,获取更多书讯 想必你一定听说过“阿尔法狗”下围棋的故事,没错,它用的就是强化学习领域的算法。 强化学习作为人工智能的一个子领域,受到越来越多的关注,其产生的决策智能被视为走向通用人工智能的最可行方法之一。 但纷繁复杂的概念以及层出不穷的算法容易给学习者造成极大的困扰。 本文旨在用简洁的语言梳理强化学习的概念以及算法,为读者呈现强化学习的轮廓和涵盖内容。 下面总结了一些经典的强化学习算法(图1),并从多个角度对强化学习算法进行分类,其中包括: (1)基于模型(Mode
博文视点Broadview
2023/05/06
1.3K0
详解经典强化学习算法,搞定“阿尔法狗”下围棋
【强化学习】深入理解:基于价值(Value)VS 基于策略(Policy)
强化学习(Reinforcement Learning,RL) 大致可以分为两类:基于价值的算法 和 基于策略的算法、基于Actor-Critic(混合)以及基于模型的。这几类算法分别侧重于不同的学习方法和策略更新方式。
不去幼儿园
2025/04/22
2990
【强化学习】深入理解:基于价值(Value)VS 基于策略(Policy)
多智能体强化学习算法【二】【MADDPG、QMIX、MAPPO】
    本章介绍OpenAI 2017发表在NIPS 上的一篇文章,《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》。主要是将AC算法进行了一系列改进,使其能够适用于传统RL算法无法处理的复杂多智能体场景。
汀丶人工智能
2022/12/21
2.7K0
多智能体强化学习算法【二】【MADDPG、QMIX、MAPPO】
强化学习从入门到放弃
重要概念 强化学习(REinforcement Learning)(个人理解):在设定的规则下,通过训练让机器学习完成特定的任务。 强化学习的目的是学习一个策略,即一个从状态到最优行为的映射。 强化学习的目标是最大化总回报,而不是立即回报。 强化学习的主体:智能体和环境。 机器/智能体(Agent):The learner and decision-maker 环境(Environment)The thing agent interacts with, comprising everything outsi
企鹅号小编
2018/02/27
1.2K0
强化学习从入门到放弃
从Q学习到DDPG,一文简述多种强化学习算法
选自towardsdatascience 作者:Steeve Huang 机器之心编译 参与:Edison Ke、路雪 本文简要介绍了强化学习及其重要概念和术语,并着重介绍了 Q-Learning 算法、SARSA、DQN 和 DDPG 算法。 强化学习(RL)指的是一种机器学习方法,其中智能体在下一个时间步中收到延迟的奖励(对前一步动作的评估)。这种方法主要用于雅达利(Atari)、马里奥(Mario)等游戏中,表现与人类相当,甚至超过人类。最近,随着与神经网络的结合,这种算法不断发展,已经能够解决更
企鹅号小编
2018/02/05
1.7K0
从Q学习到DDPG,一文简述多种强化学习算法
强化学习入门
强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
用户2794661
2022/05/30
1.2K0
澳门大学讲座教授陈俊龙:从深度强化学习到宽度强化学习 - 结构,算法,机遇及挑战
AI 科技评论按:2018 年 5 月 31 日-6 月 1 日,中国自动化学会在中国科学院自动化研究所成功举办第 5 期智能自动化学科前沿讲习班,主题为「深度与宽度强化学习」。
AI科技评论
2018/07/27
8120
澳门大学讲座教授陈俊龙:从深度强化学习到宽度强化学习 - 结构,算法,机遇及挑战
文末开奖 | 深度强化学习专栏(七):深度强化学习算法
【磐创AI导读】:本篇文章是深度强化学习专栏的第三篇,讲了第四节无模型的强化学习方法,希望对大家有所帮助。查看上篇关于本专栏的介绍:深度强化学习(DRL)专栏开篇。想要获取更多的机器学习、深度学习资源,欢迎大家点击上方蓝字关注我们的公众号:磐创AI。
磐创AI
2019/11/15
9400
文末开奖 | 深度强化学习专栏(七):深度强化学习算法
我将开始更新 强化学习
很久没有更新文章,从现在开始我将逐步恢复更新。在接下来的日子,我将系统更新强化学习文章,在期间,也会插播一些读博做科研的一些日常总结。
double
2023/08/08
2180
我将开始更新 强化学习
几行代码轻松实现,Tensorlayer 2.0推出深度强化学习基准库
近日,为了让工业界能更好地使用前沿强化学习算法,Tensorlayer 强化学习团队发布了专门面向工业界的整套强化学习基线算法库---RLzoo。(TensorLayer 是基于 TensorFlow 的延伸库,用于对基本的神经网络构建和多样的神经网络应用进行更好的支持,未来将支持更多底层计算引擎。)
机器之心
2019/11/11
8070
几行代码轻松实现,Tensorlayer 2.0推出深度强化学习基准库
【Copy攻城狮日志】强化学习7天打卡营学习笔记
↑开局一张图,故事全靠编。我常常会扪心自问,一个连本行工作都干不好的人,还有时间去捣鼓别的领域,去“学习”别的领域的新知识?然鹅,自诩为“Copy攻城狮”的我,膨胀到像 学一波AI,不求结果,为了兴趣愿意去尝试,哪怕到头来竹篮打水一场空。于是,机缘巧合通过齐老师了解到Baidu的AIStuio以及此次飞浆的实战入门课。国际惯例,免费的午餐实际上并非真正的面试,如同HuaweiCloud的AI训练营推广ModelArts,这次的课也是为了推广飞浆。当然,对于AI小白来说,这些 都是非常不错的工具,里面的学习资源也非常丰富,废话不多说,马上开启Copy之路!
胡琦
2021/09/09
4390
AI helps AI -- 强化学习从入门到入门
推荐文章:《使用Python实现深度学习模型:智能食品配送优化》,作者:【Echo_Wish】。
languageX
2024/11/17
5430
AI helps AI -- 强化学习从入门到入门
使用强化学习训练机械臂完成人类任务
今天在各行业部署的工业机器人大多是在执行重复的任务。基本上是在预定好的轨迹中移动或者放置物体。但事实上,机器人在如今的制造业中处理不同或者复杂任务环境的能是非常有限的。
AI研习社
2019/05/08
1K0
使用强化学习训练机械臂完成人类任务
【一】MADDPG-单智能体|多智能体总结(理论、算法)
连续动作(赛车游戏中方向盘的角度,油门,刹车控制信息,通信中功率控制,可由policy gradient、DDPG、A3C、PPO算法做决策)和离散动作(围棋、贪吃蛇游戏,Alpha Go,可通过算法Q-Learning、DQN、A3C及PPO算法做决策)。
汀丶人工智能
2022/12/01
4.3K0
【一】MADDPG-单智能体|多智能体总结(理论、算法)
强化学习算法解析:深度 Q 网络(Deep Q - Network,DQN)
强化学习(Reinforcement Learning, RL)是机器学习领域的重要分支,它研究如何让智能体(Agent)通过与环境的交互来学习最优的行为策略。在强化学习中,智能体的目标是最大化长期累积奖励,而环境则根据智能体的行为给出反馈。Q-learning 是强化学习中一种经典的算法,它通过学习状态 - 行动对(State-Action Pair)的 Q 值来指导智能体的行为。然而,传统的 Q-learning 算法在面对状态空间巨大的场景时(如游戏、机器人控制等)存在明显的局限性,因为直接存储和更新所有状态 - 行动对的 Q 值在计算和存储上是不可行的。
jack.yang
2025/04/17
3780
强化学习算法解析:深度 Q 网络(Deep Q - Network,DQN)
推荐阅读
相关推荐
深度强化学习智能交通 (I) :深度强化学习概述
更多 >
LV.7
若尘科技有限公司开发
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档