Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >一文看尽系列:分层强化学习(HRL)经典论文全面总结

一文看尽系列:分层强化学习(HRL)经典论文全面总结

作者头像
新智元
发布于 2023-05-22 09:13:19
发布于 2023-05-22 09:13:19
2.5K0
举报
文章被收录于专栏:新智元新智元


新智元报道  

来源:深度强化学习实验室

编辑:SF

【新智元导读】在解决一个复杂问题时,我们往往会将其分解为若干个容易解决的子问题,分而治之,分层的思想正是来源于此。

分层强化算是强化学习领域比较流行的研究方向,每年顶会论文中都有一定比例的分层论文。分层主要解决的是稀疏reward的问题,实际的强化问题往往reward很稀疏,再加上庞大的状态空间和动作空间组合,导致直接硬训往往训不出来,遇到头铁的agent更是如此。

个人理解目前分层的解决手段大体分两种,一种是基于目标的(goal-reach),主要做法是选取一定的goal,使agent向着这些goal训练,可以预见这种方法的难点就是如何选取合适的goal;

另一种方式是多级控制(multi-level control),做法是抽象出不同级别的控制层,上层控制下层,这些抽象层在不同的文章中可能叫法不同,如常见的option、skill、macro action等,这种方式换一种说法也可以叫做时序抽象(temporal abstraction)

包含:Feudal、HAM、MAXQ、Options、Option-Critic、A2OC、H-DRL、h-DQN、FuN、UVFA、HER、HAC、HIRO、Skill Chaining、Information-Constrained Primitives、DIAYN、DADS

1、Feudal

Feudal Reinforcement Learning

比较古老的一篇论文,正如其名字所述,思想来源于封建等级制度,将控制层次分为三个等级,当前层为manager,当前层的上一层为super-manager,当前层的下一层为sub-manager,属于典型的multi-level control。

不同层次的控制遵循两个原则:

(1)reward hiding,即只要满足manager即奖励,不论是否满足super-manager,通俗地说就是你只需要满足你的直属上级;

(2)information hiding,即sub-manager无需知道super-manager给manager定的目标,以及super-manager无需知道manager怎么做的。

论文中给出的是迷宫导航问题,由于文章是92年发的,DRL还远远不成熟,因此都是使用Q-learning表格型解法来做,不同的是算Q的时候要以上级控制器的指令和下级控制器所处的位置为输入,体现层次关系。

这篇文章的意义在于提出了多层次任务划分的思想,为以后的分层研究奠定了基础。

通过Feudal分层解决导航问题

2、HAM

Reinforcement Learning with Hierarchies of Machines

HAM的意思是分层抽象机,核心思想是通过先验知识设计状态机,降低MDP复杂度,再求解简化MDP的最优策略,也是典型的multi-level control。

这里引入了状态机的几种状态:

(1)Action state: 与环境交互;

(2)Call state: 调用其他状态机(与option类似);

(3)Choice state: 非确定地选择当前状态机的下一状态(需要学习的部分);

(4)Stop state: 终止当前状态机,返回到调用的地方。

具体的学习算法也是Q-learning,不同的是将环境状态和状态机状态增广为新的状态空间,来学习使用当前状态机的哪种做法可以获得更好的reward。

本文的局限就是需要人工设计状态机,而这需要大量的先验领域知识,导致状态机设计十分复杂困难,在面对复杂问题时更是如此。

其次本文的算法具有自上而下的call-and-return特点,即调用完一个状态机后就返回调用点,再继续后续的工作。

一个简单的规避障碍的状态机

3、MAXQ

Hierarchical Reinforcement Learning with the MAXQ Value Function Decomposition

本文的思想是对任务进行值函数分解,分解为多个子任务,每个子任务对应一个MDP。QMIX是对不同agent的Q进行分解,本文是对不同子任务进行Q分解,属于multi-level control。

算法公式就是值函数的贝尔曼方程,一层一层向下分解就能写成所有子任务值的迭代和形式,可以把选取某个子任务看成传统的选择与环境互动的动作。优化方法和一般的Q-learning是一样的。

本文的局限是如何分解任务也是需要下一番功夫的,问题越难越不好分解,同时,本文的方法也具有call-and-return特点。

使用MAXQ的出租车接客任务分解

4、Options

Between MDPs and semi-MDPs:A framework for temporal abstraction in reinforcement learning

本文是Sutton在1999年发表的,最大贡献就是提出了option的概念,并将temporal abstraction的思想和MDP与SMDP相结合,目前option是分层领域最主流的方法之一,十分值得阅读原文。

这里不做具体的分析了,可以结合后面option-critic那篇文章的阅读笔记看。option相关的方法也属于multi-level control。

5、Option-Critic

The Option-Critic Architecture

本文将option的概念和AC框架相结合,使option方法应用于HRL成为可能,文中严格推导了相关的策略梯度定理,十分推荐仔细阅读并跟着原文推一遍,对理解MDP有很大帮助。下面是之前发的本文的读后笔记。

https://zhuanlan.zhihu.com/p/217811126

6、A2OC

When Waiting is not an Option : Learning Options with a Deliberation Cost

这是option-critic的作者在之后又发的一篇option相关文章,主要思想是认为option的频繁切换会影响运行效果和效率,于是在option-critic的中断函数的策略更新中增加一个惩罚值,适当地降低option的切换频率。

这个结论其实在option-critic的实验部分就已经提到了,理解上也很直观,很显然,然而经过一番包装也成了一篇改进文章。文中吃豆人实验的效果非常好,可以看出加了惩罚后,agent只在适当的拐弯处才切换option。

吃豆人实验

7、H-DRL

A Deep Hierarchical Approach to Lifelong Learning in Minecraft

本文以Minecraft作为实验环境,主打终身学习和策略蒸馏,因为Minecraft里有很多开放式的任务,十分适合skill相关的学习任务。

文中提出了一种Deep skill network,就是一个能应对不同skill或task的综合网络,给出了两种实现形式,

一种是针对每种skill或task,单独训练各自的DQN网络,用哪个就调哪个;

另一种是几种skill或task共用一部分神经网络的隐层,再各自引出不同的输出头,通过策略蒸馏的方式使这个综合的大网络能更有普适性且易于部署使用。

当然本算法不只支持skill的调用,也同时支持直接使用原始的action,不同的是调原始action的时候,只和环境互动一个step,调skill的时候会根据相应skill的需要和环境连续互动n个step。

本文的分层结构属于multi-level control,创新在将分层和策略蒸馏、终身学习等概念相结合,局限是其中某些skill可能需要预训练。

H-DRL的分层结构

8、h-DQN

Hierarchical Deep Reinforcement Learning : Integrating Temporal Abstraction andIntrinsic Motivation

Montezuma's Revenge应该是atari小游戏中最臭名昭著的了,在原始的DQNpaper中这个游戏在DQN下完全训不出来,得分为0,可见目前的强化学习在面对这种复杂的非反应式的闯关游戏时还是捉襟见肘,本文主要针对这个游戏环境做了相关的工作。

本文将分层的层次划分为meta controller和controller,meta controller负责给出一个要达到的目标,接受的是环境反馈的稀疏的extrinsic reward,controller负责目标的具体实现,接受自定义的稠密的intrinsic reward。

既然有目标,那么首要的问题就是如何选取目标,本文的做法是选取游戏画面中某些重要物体的图像作为目标,随state一起传入神经网络,当然这些目标图像都是人工选择好的。这也是本文的局限,就是针对Montezuma's Revenge这个环境做了不少工程化工作,很难有推广意义。

本文以某些goal为训练目标,因此属于goal-reach的范畴。

Montezumas Revenge

9、FuN

FeUdal Networks for Hierarchical Reinforcement Learning

之前介绍过Feudal,本文就是将Feudal的思想DRL化,将层次结构分为manager和worker,通过前面这些文章的总结,可以知道上层的控制器有两种控制选择:

一种是选择不同的下层控制器来执行,比如option就是这种做法;另一种就是选取合适的goal来让下层控制器实现,上面的h-DQN就是这种。

本文的做法是第二种,但创新在这个goal是自动生成的。文中将神经网络的隐层state作为goal,赋予这个隐变量的语义就是当前state在低维空间中所要改变的方向。

worker的reward就顺理成章地变为前后两个step下state向量的变化方向与这个象征正确变化方向的goal的余弦相似度。

本文创新在goal实现了自动选取并赋予了很合理的语义解释。这里有一篇很好的分析可以一看。https://zhuanlan.zhihu.com/p/46928498

FuN网络结构

10、UVFA

Universal Value Function Approximators

本文提出了一种统一的值函数,在原始的值函数 

 、 

 基础上增加了goal作为输入变成 

 ,这样值函数就变成在某一状态(或状态动作)某一目标下的价值。

将给定状态和目标映射成对应的状态目标值的方法是,分别将状态和目标过自己的神经网络,拟合出对应的隐变量,然后将两个隐变量通过某种方式结合成一个标量就产生了对应的值,文中采用的方法是向量内积。

在拟合指定状态和目标的隐变量时需要使用监督学习的方法,因此必然需要label,文中使用一种Hord of demons的方式可以产生不同目标对应的状态目标值,然后通过低秩分解的方式将其分解为状态对应的隐变量和目标对应的隐变量,于是label就有了。

因此,整个UVFA的算法流程就是,通过某种方法获取各个状态目标对应的价值,然后通过低秩分解将这个值拆解为状态对应的部分和目标对应的部分作为label,再利用监督学习学习状态和目标对应隐变量的函数拟合。

这样以后就可以通过任意状态和目标直接拟合出对应的隐变量,最后通过向量内积整合成一个状态目标值,起到泛化作用。

本文提出的统一值函数概念具有迁移意义,同时属于goal-reach范畴,但局限是文中提到比较困难的仍是goal如何选取,但本文并不打算讨论这个问题,因为本文的重点是提供这种考虑目标在内的广义值函数的概念,于是只是简单地选择某些state作为goal,可见goal如何合理选取将是这类分层问题的最大困难。

统一值函数拟合架构

11、HER

Hindsight Experience Replay

这一篇是建立在UVFA基础上的,hindsight是事后诸葛亮的意思,点明了本文算法的核心思想。本文解决的是reward稀疏和goal选取困难的问题,方法另辟蹊径,读完让人眼前一亮。

由于reward稀疏,必然会导致很多条完整的transition都无法达到预设的goal,于是产生了很多失败的transition,虽然没法用于预设goal的训练,但我们可以对于每一条transition都去计算一下假如换做其他目标的话,该transition会变成什么样。

举例来说,假如有一条transition,其最后一个step并没有达到预设的goal,那么这一步将不会获得正的reward或者获得负的reward,但如果把goal改为已经达到的这个最后一步的state,那么这一步将获得正的reward或0reward,不止这一步,整条transition的goal都应修改为这个state,这就是hindsight的含义,通俗地说就是“既然无法达到那个目标,那就把已经达到的当作目标吧”。

这么做合理的原因就在于,不管goal设置的是什么,都不会影响系统动力学,在相同的state下采取相同的action会达到相同的next state,因此你可以将这条已经产生的轨迹的goal重设为任何值。通过这种方式,在保留失败transition的基础上,样本池里的样本数量相对于以往会得到相应的扩充。

文中共提出了4种goal的重新选取方法:

(1)每次只选择这一条轨迹的最后一个状态对应的目标作为新目标;

(2)每次随机随机选择k个在这个轨迹上并且在这个transition之后的状态作为新目标;

(3)每次选择k个在这个轨迹上的状态作为新目标;

(4)每次在所有出现过的状态里面选择k个状态作为新目标(不同episode)。

每种选择方法造成的样本扩展倍数不同,文中表示(2)的效果最好。

由于继承自UVFA,因此本文的方法属于goal-reach范畴,可以有效解决reward稀疏的问题,但是goal仍为一般的state,存在一定的局限性,不过这篇文章的点子还是让我感到很新奇。

12、HAC

Learning Multi-Level Hierachies with Hindsight

这一篇继承自HER,HRL中一般分多个层次进行控制,上下层同时训练的时候会出现non-stationary的问题,也就是下层的policy改变时会影响上层的transition,因此可能原来能达到某个goal,但现在达不到了,对学习造成很大影响。

本文提出的做法是,假设下层的policy已经是最优,就不会因为下层policy的变化而影响上层,那么如何使还没有达到最优的下层policy看上去最优呢?通过HER来实现。

本文提出三种transition:

(1)hindsight action transition,对于非最低层来说action就是选goal,或者说是选state,因此action space就是state space,如果上层设定的goal下层没达到,那就将已达到的state作为goal,相当于对上层的action做了hindsight,这样基于下层已经最优的假象进行上层的训练,从而暂时忽略掉下层policy的变化,这部分是对action的调整;

(2)hindsight goal transition,这个就是原始的HER所干的事情,是对goal的调整,解决reward稀疏的问题;

(3)subgoal testing transition,在上述两种调整下,agent用于更新的transition都是可到达的一些state,对于一些较远的目标,可能无法实现,因此以一定概率进行测试下层policy能否实现当前goal,当goal无法被下层完成时,即给出不切实际的遥远goal时,给以惩罚。

本文与UVFA和HER一脉相承,都属于goal-reach。

13、HIRO

Data-Efficient Hierarchical Reinforcement Learning

HIRO的全称是HIerarchical Reinforcement learning with Off-policy correction,本文关注off-policy下high/low level non-stationary的问题,off-policy本来就十分不稳定,很多算法采用很多技术才减弱了不稳定性,除此之外在HRL下也有它特有的不稳定性,就是上下层策略的不稳定性,HAC中是通过HER来解决这个问题的。

这篇文章的分层方式和FuN十分类似,都是上层产生goal,这个goal的语义是期望达到的状态与当前状态的残差,下层接受goal进行下层的控制。

上层每隔c步输出一次,下层每步都输出,产生的样本放入样本池,这就导致在训练上层策略时,由于下层策略可能已经改变,不再是当初存这条样本时的样子,相同的goal下对应的c步action序列和相应的的累积reward和当初存下来的不匹配,于是产生了non-stationary的问题。

为了解决这个问题,文中提出一个做法,即固定已经产生的样本的奖励不变,但是去寻找在当前条件下给一个怎样的goal可以最大可能产生以前下层策略的c步动作序列和累积奖励,这看起来有一点最大似然的意思。

文中给出一个近似公式,但也无法求解,于是通过采样从10个备选的goal中选一个能让下式最大的,其中两个特殊的是原始的goal

 和 

 ,另外8个通过以

为中心的高斯分布采出来。

HIRO算法结构

14、Skill Chaining

Skill Discovery in Continuous Reinforcement Learning Domains using Skill Chaining

Option Discovery Using Deep Skill Chaining

这两篇属于skill discovery范畴,但本质还是分层,第二篇在第一篇基础上使用DRL来解决。这篇提出的创新点就是以往的option需要指定其数量,option的数量是一个超参,而这里无需指定数量,agent会自动学到需要多少option。

自动学习option数量通过skill chaining来实现,skill chaining的思想就是,先确定在goal附近能通过某些途径达到goal的option,将其加入一个集合,再将这个option的initial set作为下一个需要学习的option的terminate state,这样不断从后往前推直到遇到全局的初始state,这样所有option连起来就形成了一条skill chain,可以解决goal的问题。

虽然这些option是首尾相接的,但实际agent还是通过学习来决定选取哪一个option,并不是确定的选相连的下一个option。

本文有一个局限就是最开始需要找到一个或几个能达到goal的成功轨迹,然后才能有后续的工作,在openreview上我看有一个盲评评审也提到了这个问题。不过基于skill chaining的分层研究目前还不是太多,看来还是有很多工作可以在这上面做。

15、Information-Constrained Primitives

Reinforcement Learning with Competitive Ensembles of Information-Constrained Primitives

一般的HRL都会分为两层,上层控制器通观全局决定下层控制器如何行动,但因为得啥状态都看,因此很不好学,于是这篇文章干脆将上层的控制器取消,只学习各个子策略,子策略自己决定从状态中获取多少信息来进行自己的行动,这样就去中心化了。

这里的思想基于信息论中的信息瓶颈概念,子策略能从更关注的状态中获取更多的信息,因此能从环境状态中获取更多信息的策略更应该被选择。同时由于信息有限,需要对策略进行regularization以使用尽可能少的信息。

这样就导致策略之间会相互竞争,并由于信息量的限制,使自己只关注自己专注的领域,实现不用上层控制器也能分工完成任务。

下面式子是需要最大化的目标函数,

第一项代表策略获得的reward,与需要从当前state中获取信息的量成正比,信息量通过策略生成的隐变量与标准高斯分布的KL散度来衡量,这一项代表策略间的竞争;

第二项是正则项,就是前面的KL散度,使当前策略不要无限制地从state中攫取信息;

第三项是entropy的正则项,使各策略不要坍塌到一个策略上,保证多样性。

最近的HRL尤其是skill discovery方面流行使用信息论的内容做创新,例如信息瓶颈、互信息等,以前没怎么接触过信息论,这篇论文看了好几遍才理解,还是需要恶补一下相关理论知识。

16、DIAYN

Diversity Is All You Need: Learning Skills Without A Reward Function

DIAYN的全称是Diversity is All You Need,这篇属于基于互信息的skill discovery,是目前比较火的研究方向,基于互信息的skill discovery的思路一般是基于某些互信息的目标函数学到skill的dynamic,或者说是skill与state的分布,这是无需环境reward支持的,然后将这些学好的skill用到其他应用中,比如作为hierarchical RL的下层policy,这篇文章也是这个思路。

本文主要提出了三个观点:

(1)有用的skill可以用来控制agent访问到某些state,并且不同的skill导向的state不同,使得skill具有可分辨性;

(2)通过state,而不是action,来分辨区分skill;

(3)鼓励探索以保证skill具有足够的多样性,使得不同的skill之间具有可分辨性。因此定义的目标函数也对应了上述三个观点。

将目标函数变形为变分下界,再将优化原目标变为优化下界,同时引入伪reward用于优化policy,最终学到skill和state的推断关系,这是基于互信息的skill discovery的常用做法。具体目标函数的组成可以看这篇分析。

https://zhuanlan.zhihu.com/p/270017839

训练好的skill可以直接作为hierarchical RL的底层策略,在上层再学习一个meta controller用于skill的选择,由此可见,DIAYN通过互信息在无需reward的情况下学习到skill,再通过一个上层策略使用这些skill,这与以往的上下层策略一起通过环境reward训练是不同的思路。与之类似的skill discovery方法都是类似的做法。

17、DADS

Dynamics-Aware Unsupervised Discovery of Skills

这是一篇ICLR2020的基于互信息的skill discovery论文,文章通过在没有外界reward支持的无监督学习条件下,通过发现具有可预测性的skill并学习skill的dynamic,获取多个专注不同领域的skill,然后通过模型预测控制(MPC),直接基于已学好的模型做planning。

本文整体的思路和DIAYN一致,都是通过最大化state和skill的互信息来学习skill dynamic,所不同的是本文在使用学到的skill时,采用了planning的做法,而没有像DIAYN一样又学习了一个上层的meta controller来选择调用不同的技能。具体的分析可以看下面链接。https://zhuanlan.zhihu.com/p/270147463

论文原文链接:https://github.com/YangShengqi/paper

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-12-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【干货总结】分层强化学习(HRL)全面总结
来源:https://zhuanlan.zhihu.com/p/267524544
深度强化学习实验室
2020/12/01
4.2K0
【干货总结】分层强化学习(HRL)全面总结
【前沿跟进】Google, OpenAI提出层次强化学习新思路
层次强化学习(HRL)中的自动Skill Discovery思路 文:CreateAMind陈七山 1前言:关于层次强化学习(HRL) 如何解决强化学习在反馈稀疏时的困难,一直是学界重点研究的方向。一种思路是采用层次化的思想 (Hierarchical Reinforcement Learning,简称HRL)。这并不是一个新兴的方向,20年前就有相关论文发表[1][2]。但由于始终没有达到理想的效果,所以最近各大机构如OpenAI, DeepMind, UCB都在进行这方面的研究,NIPS2017也有一个
CreateAMind
2018/07/20
1.1K0
【RL Latest Tech】分层强化学习(Hierarchical RL)
分层强化学习(Hierarchical Reinforcement Learning,HRL)是一类旨在通过引入多层次结构来提高强化学习算法效率的方法。其核心思想是将复杂的任务分解为若干子任务,通过解决这些子任务来最终完成整体目标。以下是关于分层强化学习的详细介绍:
不去幼儿园
2024/12/03
3940
【RL Latest Tech】分层强化学习(Hierarchical RL)
【Hierarchical RL】不允许你不了解分层强化学习(总结篇)
下面这张图片展示了两层结构,上层为管理者(高层策略),下层为工人(低层策略)。管理者选择子目标,表现为分支路径,工人执行动作以实现子目标,动作通过箭头指向远处的最终目标。环境表现为网格世界,管理者从上方监控进度。
不去幼儿园
2024/12/03
1.5K0
【Hierarchical RL】不允许你不了解分层强化学习(总结篇)
【Hierarchical RL】隐空间分层强化学习(HRL-LS )算法
隐空间分层强化学习,Hierarchical Reinforcement Learning with Latent Space (HRL-LS) 是一种分层强化学习(Hierarchical Reinforcement Learning, HRL)算法,旨在通过在隐空间(Latent Space)中进行策略优化,来处理高维复杂任务中的长期依赖问题。该算法提出了一种新的框架,能够同时利用分层结构和潜在变量模型,来提高在复杂环境中的学习效率。
不去幼儿园
2024/12/03
1640
【Hierarchical RL】隐空间分层强化学习(HRL-LS )算法
论文 | 解读72篇DeepMind深度强化学习论文(内有合集下载)
DeepMind,位于英国伦敦,是由人工智能程序师兼神经科学家戴密斯·哈萨比斯(Demis Hassabis)等人联合创立,是前沿的人工智能企业,其将机器学习和系统神经科学的最先进技术结合起来,建立强大的通用学习算法。最初成果主要应用于模拟、电子商务、游戏开发等商业领域。
AI研习社
2019/07/04
2.2K0
论文 | 解读72篇DeepMind深度强化学习论文(内有合集下载)
【RL Latest Tech】分层强化学习:FeUdal Networks算法
FeUdal Networks(FuN)是一种分层强化学习(Hierarchical Reinforcement Learning, HRL)算法,由Google DeepMind团队提出。该算法的灵感来源于层级控制结构,将任务分解为高层目标和低层执行细节,从而提高强化学习在复杂环境中的效率。与传统的强化学习算法不同,FeUdal Networks将学习过程分为不同的层次,每个层次的角色不同,但都为共同完成任务服务。
不去幼儿园
2024/12/03
2250
【RL Latest Tech】分层强化学习:FeUdal Networks算法
17种深度强化学习算法用Pytorch实现
深度强化学习已经在许多领域取得了瞩目的成就,并且仍是各大领域受热捧的方向之一。本文推荐一个包含了 17 种深度强化学习算法实现的 PyTorch 代码库。
代码医生工作室
2019/09/17
2.3K0
17种深度强化学习算法用Pytorch实现
【Hierarchical RL】分层演员-评论家(Hierarchical Actor-Critic )算法
分层演员-评论家,Hierarchical Actor-Critic (HAC) 算法是一种用于分层强化学习(Hierarchical Reinforcement Learning, HRL)的算法,由Levy等人在2019年提出。HAC的目的是通过分层结构,将复杂任务分解为不同的时间尺度的子任务,从而更高效地学习策略。该算法使用了两层的Actor-Critic架构来实现策略和值函数的学习,并通过子任务的分解来降低学习的难度。
不去幼儿园
2024/12/03
2850
【Hierarchical RL】分层演员-评论家(Hierarchical Actor-Critic )算法
【Hierarchical RL】离线策略修正分层强化学习(HIRO)算法
离线策略修正分层强化学习,Hierarchical Reinforcement Learning with Off-Policy Correction (HIRO) 是一种基于分层强化学习的算法,旨在解决长时间跨度和稀疏奖励问题。HIRO 特别引入了离策略(off-policy)校正机制,允许高层策略利用低层策略的经验,而不会因为低层策略的更新而产生偏差。
不去幼儿园
2024/12/03
2500
【Hierarchical RL】离线策略修正分层强化学习(HIRO)算法
【RL Latest Tech】分层强化学习:Option-Critic架构算法
分层强化学习(Hierarchical Reinforcement Learning, HRL)通过将复杂问题分解为更小的子问题,显著提高了强化学习算法在解决高维状态空间和长期目标任务中的效率。Option-Critic架构是分层强化学习中一种非常有影响力的方法,专门用于自动发现和优化子策略(称为“Option”)。它是在经典的Options框架基础上提出的,用来处理分层决策问题,特别是可以在没有明确的子目标定义的情况下自动学习子策略。
不去幼儿园
2024/12/03
3211
【RL Latest Tech】分层强化学习:Option-Critic架构算法
【干货】ICML2018:63篇强化学习论文精华解读!
【新智元导读】机器学习顶会ICML 2018从2473份提交论文中接收了621篇,其中有63余篇强化学习相关论文,作者将这些论文分成了多个类别,并对每篇文章的核心贡献做了精炼的总结,这些文章也是追踪强化学习最前沿技术的绝佳材料,精炼的总结也也便于我们快速查找与自己研究相关的文章。
新智元
2018/08/01
1.1K0
【干货】ICML2018:63篇强化学习论文精华解读!
DIVERSITY IS ALL YOU NEED: 充满睿智的论述
互信息从state action 到 state skill;action到skill就是提升一级抽象
CreateAMind
2019/07/22
6110
DIVERSITY IS ALL YOU NEED: 充满睿智的论述
17种深度强化学习算法用Pytorch实现
深度强化学习已经在许多领域取得了瞩目的成就,并且仍是各大领域受热捧的方向之一。本文推荐一个包含了 17 种深度强化学习算法实现的 PyTorch 代码库。
新智元
2019/09/17
1.9K0
17种深度强化学习算法用Pytorch实现
深入机器学习系列之强化学习
强化学习(reinforcement learning),又称再励学习,评价学习,是一种重要的机器学习方法,在智能控制机器人及分析预测等领域有许多应用。本文将介绍强化学习的相关概念、算法及其应用实例。
数据猿
2019/07/31
1.2K0
深入机器学习系列之强化学习
【Hierarchical RL】动态分层强化学习(DHRL)算法
动态分层强化学习,Dynamic Hierarchical Reinforcement Learning (DHRL) 是一种自适应分层强化学习算法,其目标是根据任务和环境的复杂性动态地构建、修改和利用分层策略。DHRL 不仅仅是预定义层次结构的简单执行,而是允许代理在学习过程中根据需要动态生成和调整分层策略,从而实现更好的任务分解和高效学习。
不去幼儿园
2024/12/03
2220
【Hierarchical RL】动态分层强化学习(DHRL)算法
强化学习如何使用内在动机?
「内在动机」 (Intrinsic Motivation) 这一概念最初是在心理学中提出并发展起来的。由于其在制造开放式学习机器和机器人方面的潜力,这一概念正日益受到认知科学的关注。
机器之心
2020/05/26
8190
强化学习如何使用内在动机?
博客 | 过去10年NIPS顶会强化学习论文(100多篇)汇总(2008-2018年)
本文原载于微信公众号:深度强化学习算法 ,AI研习社经授权转载。欢迎关注 深度学习强化算法 微信公众号、及 AI研习社博客专栏。
AI研习社
2019/05/22
1.4K0
博客 | 过去10年NIPS顶会强化学习论文(100多篇)汇总(2008-2018年)
一文了解强化学习
虽然是周末,也保持充电,今天来看看强化学习,不过不是要用它来玩游戏,而是觉得它在制造业,库存,电商,广告,推荐,金融,医疗等与我们生活息息相关的领域也有很好的应用,当然要了解一下了。 本文结构: 定义 和监督式学习, 非监督式学习的区别 主要算法和类别 应用举例 ---- 1. 定义 强化学习是机器学习的一个重要分支,是多学科多领域交叉的一个产物,它的本质是解决 decision making 问题,即自动进行决策,并且可以做连续决策。 它主要包含四个元素,agent,环境状态,行动,奖励, 强化学习的目标
杨熹
2018/04/03
8340
一文了解强化学习
《 NEXT 技术快报》:机器学习篇
本文探讨了多智能体系统中的协作问题,并提出了一种基于变分推理的框架,用于解决智能体在复杂场景中的协作问题。该框架通过最大化角色分配的熵来训练角色分配模型,从而实现更加高效的协作。同时,该框架具有较好的扩展性,可以应用于不同规模和复杂度的协作问题。在实践中,该框架已经在多个场景中得到了验证,能够有效地提高协作效率和稳定性。
serena
2017/10/13
1.3K0
《 NEXT 技术快报》:机器学习篇
相关推荐
【干货总结】分层强化学习(HRL)全面总结
更多 >
LV.1
这个人很懒,什么都没有留下~
加入讨论
的问答专区 >
1合伙人擅长4个领域
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档