前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >深度强化学习入坑笔记一

深度强化学习入坑笔记一

作者头像
opprash
修改2020-01-14 17:56:32
8380
修改2020-01-14 17:56:32
举报
文章被收录于专栏:大数据和机器学习

强化学习的定位

总的来说,强化学习属于机器学习的一种,我们都知道机器学习分为有监督与学习和无监督学习,有监督学习通过大量有标记的数据来训练,所以有监督训练是黑白分明的,啥意思呢?一个训练数据你给了他什么标签,它就属于哪一种,无监督学习就是通过一大批未知数据来进行训练得到一个盒子,然后你属于一个未知数据进去预测,看看会输出结果,它属于一种对先验样本的复现过程,而强化学习呢,没有一个明确的规定说你这个行动是绝对的对或者错,只有好与不好之分,好的话给你奖励(Reward),越好的话奖励越高,坏的话给你惩罚(-Reward),越坏的话惩罚越痛,它不是那么的黑白分明,是有灰度的存在。所以我更认同强化学习与监督式学习以及非监督式学习一起组成了机器学习的观点(如图),

强化学习的位置
强化学习的位置

强化学习的相关概念

强化学习(rl)的几个概念:state(状态),Environment(环境),Agent(智能体),Action(动作),reword(奖励)。

1.state:

1)和state相对于的一个概念是history,它包含到时间t为止所能观察到的变量信息,如observation,action,reword,它可以说是接下来发生的所有事情的根基了,诸如agent的action亦或是environment的observation和reward。然后呢,State就被定义为一个对于History的函数:St= f (Ht),他们中间有某种对应关系,因为State也是对环境里边相关信息的一个观察和集成,也正是这些信息决定了接下来所发生的一切。

2)State其实细化可分为三种:第一种是Environment State,是真正的环境所包含的信息,Agent一般情况下是看不到或凭agent自身能力不能完全地获取其信息的。即便环境信息整个是可见的,也许还会包含很多无关信息。第二种是Agent State,指Agent用来选择下一个行动的信息源,也是我们算法进行所需要的那些信息,我个人理解是Agent自己对Environment State的解读与翻译,它可能不完整,但我们的确是指望着这些信息来做决定的。第三种是Information State,又称为Markov state,包含了History中所有的有用信息。感觉这只是个客观的概念,并没有和前两种State形成并列关系,只是一个性质。它的核心思想是“在现在情况已知的情况下,过去的事件对于预测未来没什么卵用”,也就相当于是现在的这个状态已经包含了预测未来所有的有用的信息,一旦你获取了现在的有用信息,那么之前的那些信息都可以扔掉了!这就是Markov的特性,这里我们说Environment state是Markov,History也是Markov

2.environmenty(两种)

1)第一种是完全可观测环境(Fully Observable Environment),顾名思义,是指agent可以完全观测到环境状态的情形,此时Agent State = Environment State = Information State,这是一个很理想化的情况,现实中很多复杂问题是不具备这个条件的。同时根据定义,此时的环境状态是一个Markov Decision Process(MDP)

2)第二种是部分可观测环境(Partially Observable Environment),这种情况是相对于上边的情形来说的,即Agent不能完整的获取环境信息状态,所以此时Agent State ≠ Environment State。而此时的环境状态称为部分可观测MDP。所以此时想要解决问题的话Agent必须自己对环境进行解读,自己去探索。

3.Agent:主要涉及到三个组成要素:策略(Policy),价值函数(Value Function)和模型(Model),但要注意这三要素不一定要同时具备

1)Policy:是Agent的行为指南,是一个从状态(s)到行动(a)的映射,可以分为确定性策略(Deterministic policy)和随机性策略(Stochastic policy),前者是指在某一特定状态确定对应着某一个行为a = π(s),后者是指在某一状态下,对应不同行动有不同的概率,即π(a|s)=P[At = a | St = s ],可以根据实际情况来决定具体采用哪种策略。

2)Value Function:价值函数是对未来总Reward的一个预测,即如果我进入这个状态或者我采取这个行动的话能有多大的甜头或者风险。继而在做了计算以后选择更好的action。

3)Model:模型是指Agent通过对环境状态的个人解读所构建出来的一个认知框架,它可以用来预测环境接下来会有什么表现,比如,如果我采取某个特定行动那么下一个状态是什么,亦或是如果这样做所获得的奖励是多少。不过模型这个东西有些情况下是没有的。所以这就可以将Agent在连续决策(sequential decision making )行动中所遇到的问题划分为两种,即Learning problem 和 Planning problem。对于前者,没有环境的模型,Agent 只能通过和环境来互动来逐步提升它的策略。对于后者,环境模型已经有了,所以你怎么走会产生什么样的结果都是确定的了,这时候只要通过模型来计算那种行动最好从而提升自己策略就好。

4)有关Agent的分类,从采取的方法上可以分为Value Based,Policy Based 和ActorCritic。第一种顾名思义就是基于价值函数的探索方式,第二种就是基于策略的探索方式,第三种就是前二者合体。另外,从是否含有模型上Agent又可分为Model Free 和Model Based。

4.reword

首先它是一个标量,是一个好坏的度量指标,然后Agent 的终极目标就是尽可能的最大化整个过程的累计奖励(cumulative reward),所以很多时候要把目光放长远一点,不要捡个芝麻丢个西瓜,要明白曲线救国也不是不可以的。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
作者已关闭评论
0 条评论
热度
最新
推荐阅读
目录
  • 强化学习的定位
  • 强化学习的相关概念
    • 1.state:
      • 2.environmenty(两种)
        • 3.Agent:主要涉及到三个组成要素:策略(Policy),价值函数(Value Function)和模型(Model),但要注意这三要素不一定要同时具备
          • 4.reword
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档