不到现场,照样看最干货的学术报告!嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。
2018年8月4月,由北京理工大学大数据创新学习中心与中国科学院人工智能联盟标准组联合主办的“2018深度强化学习:理论与应用”学术研讨会,学界与业界顶级专家济济一堂,共同分享深度强化学习领域的研究成果。
以色列理工大学博士许铁以Potential of RNN innavigation & RL in general为主题进行报告,以下分享内容根据嘉宾口头分享整理。Potential of RNN innavigation & RL in general
现在为大家讲解和我自己做的研究有关,以及和大家兴趣有关的题目。刚才几位老师已经分享了很多强化学习的基础内容,我想进一步讲解在这个基础上可以做什么有意思的事情。
如果大家想知道强化学习为什么很重要,这一张图就够了。想像一下我们是人工智能体,我们有强化学习和监督学习可以学习,但干的事情是不一样的。面对一只老虎的时候,如果只有监督学习就会反映出老虎两个字,但如果有强化学习就可以决定逃跑还是战斗,所以这是非常重要的,因为在老虎面前你知道这是老虎是没有意义的,需要决定是不是要逃跑,所以要靠强化学习来决定了你的行为。
前面几位老师讲的算法都可以归结到这张图里面,强化学习有两大门派:一种是动态规划,另一种是Policy Optimization,见到老虎以后是跑还是打,直接学习在情况出现的时候存在概率A和概率B,两种方法相结合就是Active BP,一方面有直接学习的策略,另一方面通过评估函数来获得反馈,这样就知道最终行为收益是好是坏,现在主流的模型都是基于这种方式。
这是Markov决策最经典的图谱,里面包括SC、SA和Reward,优化最多的是Policy,值函数算法是里面应用的最基本的算法,包括Q-Learning和SASA。强化学习主要是用于决策,决策就是找最优的状态,要求我们把每一步的把值函数求出来。对值函数迭代的方法非常多,比如Q-Learning和SASA。
上图是类似的效果图,每个格代表着一个状态,每个格的收益也是不一样的。站在左上角的收益比较高,到边缘的地方收益就变低了,因为看到的角度变小了。我们需要做的是通过迭代把这个求出来。
由于真实世界的值函数状态特别多,比如机器人Alpha-Go是3的361次方,可能出现的状态太多,不能一个一个通过迭代的方法来求,一个比较好的方法就是用机器学习的强项——函数逼近的方法。这些状态之间不是孤立的,两种状态之间是有联系的,往左走往右走变化趋势是一致的,我们通过神经网络把这个函数的形状学出来。这是Deep Q-Learning的思想,通过数据可以模拟函数,有了函数就可以把值函数的问题解决。
2015年发表的关于Alpha-Go的文章就是值函数比较深的神经网络,是结合了CNN强化学习得到Alpha-Go。然而Alpha-Go再强大也不能解决所有问题,比如星际争霸,因为一个画面当中的信息是不足以进行决策的,因为针对决策的信息并没有全部在一个画面当中呈现出来,所有就需要使用其它的方法。
之前的马尔科夫决策附加的条件就是当下的状态含有用来决策的所有信息,比如上图中的走方格问题,骷髅就是有危险的意思,我们希望走到有奖励的地方,但是如果我们处在灰色方格的区域,只能得出相邻的两个方格的情况,就会无法决策正确的行为方法,因为旁边的都是两个白色格,无法得知如何走才能得到奖励。
生物是如何解决这个问题呢?主要有三种方法:一种就是策略梯度的方法,虽然所知状态和信息是不全面的,我们可以利用概率的方法来学习。当不知道该往左走还是该往右走时,随便走出一步,这样有百分之五十的概率得到最后要的奖励,利用直接学习的策略函数也就是Policy Gredient解决掉这个问题。另外一种方法就是引入记忆,一般情况下引入记忆的方法是RNN,现在观测到这个物体的话把信息放在记忆里面,将其作为决策的依据。
RNN的网络结构和前向神经网络差距并不大,只是多了一个矩阵,即当下隐藏的状态再到下一步隐藏状态的连接。这个连接实际上是传递当下的信息到下一刻的过程,这个传递过程中包含了记忆,我们可以把过去的信息往将来不停的迭代,于是神经网络细胞当中就含有过去很多时刻的记忆,其实就是生物的Working Memory。LSTM只是在RNN的基础上多了一记忆细胞层,可以把过去的信息和当下的信息隔离开来,过去的信息直接在Cell运行,当下的决策在Hyper State里面运行。加入RNN以后就把DQN变成了DRQN,然后就可以走一些非常复杂的环境。
上图是一个二维的迷宫,只能是看到周围格的情况,需要我们做的是在很复杂的情况下搜索到目标在哪里,这就是一个导航的问题。左下角的红点就是起始位置,行为就是走到墙上得到输入的信息,然后决定再走到下一个地方,这就模拟了空间搜索的过程,通过以上过程学习时间序列。
打开这个黑箱子再看RNN内部的状态,实际上建立了一个类似空间地图的东西,利用RNN模拟出来整个运动的轨迹,这个轨迹是在RNN神经网络当中可以投影出来的。然而RNN虽然有这种能力,但是还是会有很多情况无法处理,因为空间是很复杂的,这个时候就需要更强大的空间表示记忆的能力。通常的做法是加入监督学习的成分。
强化学习最大的问题是到游戏最终才能得到奖励,而监督学习信号比较多,它可以预测走到哪里了,距离奖励还有多远,因此我们可以通过监督学习增加学习信号。
一篇发表在《Nature》上的论文当中引入了一个更加强有力的工具,就是在监督学习的基础上诱导神经网络在RNN基础上形成了新的结构,即双格细胞,空间当中有非常多的远景,网络细胞本身对空间类似六边形矩阵的位置是敏感的。可以加入我在空间当中存在的六边形的网格,整个六边形的角就比较敏感,通过一定的监督学习方法在另外的网络当中产生出来。有了这个细胞的网络会有更强的在空间当中运行的能力,比如可以在复杂的空间当中抄近路。如果路径发生变化,就会找次优的目标,也就是说有一种动态规划的能力,即具有空间行走的智能。在RNN的基础上加入适当的监督学习,从而产生与生物细胞类似的结构,具有了空间表达能力。
RNN具有对世界建模的能力,可以通过系统信息可以学习事件模型。RNN是在未来非常有潜力的东西,它在免模型和有模型的强化学习当中构建了一个桥梁。
精彩的学术报告背后,是一群优秀的学术人才。都说搞学术的人需要“超凡脱俗”,需要耐得住清贫寂寞,其实……芯君想说:完全不需要这样啊!比如,马上申请2018百度奖学金——是的,百度为每位具有AI才能的“潜力股”学术精英们提供了广阔的平台资源和发展空间,为其提供20万研究资金支持,帮助优秀学子全身心投入科研工作,心无旁骛地进行科学探索。
还等什么,你——未来的学术之星,赶快申请报名吧!
留言 点赞 发个朋友圈我们一起探讨AI落地的最后一公里
如需转载,请后台留言,遵守转载规范
领取专属 10元无门槛券
私享最新 技术干货