首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

世界都是神经网络的

上个月底,Google Brain在arXiv发了一个论文,起了一个很霸气的题目: World Models: https://arxiv.org/abs/1803.10122 然后还起了一个很引人入胜的PR标题: Can agents learn inside of their own dreams?。果不其然,国内一众科技公众号也是深谙其道,名字起得跟原版相比也不遑多让。

不过看到论文里面的另一位大牛Jurgen Schmidhuber,感觉起这样的题目也不足为奇了。不久之前,此公就以一篇One Big Net For Everything 的霸气文章被大家群嘲。(https://www.zhihu.com/question/267873909)

当然能这样起名也是大牛专利,尤其是Jurgen本人作为LSTM之父,却比不上另外几位深度学习的先驱名气,恐怕也是吃了不懂宣传的亏,而且从新闻来看,Jurgen本人也是有一些怨气的,因此现在发文章的风格日渐UC化也可以理解了。但是客观来说,Jurgen和他的学生Graves对于神经网络尤其是RNN还是做出了很大的贡献的,本人的一篇paper就是基于起LSTM+CTC的方法来做Scene Text Recognition。

八卦扯完了,还是回归论文本身。客观来说,这篇文章还是值得细看的,有些地方也是我现在做强化学习碰到的问题,这个在本公众号以前的文章有讲述到:

关于强化学习的局限的一些思考

。从实际上来说,要做一个可用的RL model是有很多的限制的,对于问题本身需要有良好的定义,可以很好的找到Reward function,并且可以把Reward正确的分配给合适的动作(credit assignment problem),这样就要求动作的序列不能太长。同样RL模型也不能太复杂,不然在极低的有效样本率的情况下,模型也很难收敛。因此,之前讨论的模仿学习,分层强化学习都是一些改善强化学习的思路。而这篇文章期望通过把一个RL的模型分拆成一个小的Controller模型 和 一个很大的World模型来解决上述问题,本质上也是属于model-based的强化学习的一个分支。和model-free的方法相比(Q-Learning), model-based的方法希望对环境进行建模,然后再在这个环境中选择最优的策略。

文章中使用了一个VAE (V)对环境的状态输入建模,把状态转化为一个向量z。然后这个向量作为一个RNN (M)的输入从而得到基于时序的z的输出h; 然后再把z+h作为RL control的输入,得到一个action。在这里,V+M 就是文章中所提的World Model, 也就是一个模拟出虚拟环境的模型。而一个很好的基于环境的模型,也可以给RL controller model 更好/准确的reward。因为我们可以基于World Model来对Controller的动作进行roll out,来得到一个很准确的reward。理论上来说,只要World Model很准,这个reward是很精确的,因此我们的Controller只要很简单的模型就可以了。而理论上来说,World Model可以很复杂,只要我们有足够多的样本,我们可以得到一个很精确的World Model。

在文章里使用了高斯混合模型(GMM)来预测下一个状态Zt+1; 因此在RNN上面接了一个MDN(mixture density network)来对 P(Zt+1|Zt, At, ht) 建模。从而我们得到了一个虚拟的环境,基于当前的状态Zt, 和 动作At,以及历史信息ht,得到了下一个状态Zt+1的概率分布。理论上来说,这一步也可以用GAN来搞,说不定可以得到更好的结果。当然,Jurgen本人可能不这么想。

到了这一步,脑洞时刻就出来了。既然我们可以通过Zt, At, ht来得到Zt+1,我们其实可以丢开真实的环境来直接训练我们的强化学习模型。然后,“梦中学习”就这么出来了。不过,论文中只是用了两个简单的实验环境,一个赛车游戏,一个vizdoom, 这两个游戏的环境还是比较简单的因此训练一个V模型来得到embedding的向量z还比较简单。至于在星际的是不是可行,还是存疑的。

但是我感觉本文的很多思路还是可以参考的。如果我们有了这个模型,我们在训练强化学习的时候Reward可以给的更好,可以基于环境直接做仿真。而训练这样的World Model, 如果有足够的数据,不考虑直接取图像信息,而是人工抽取特征,是可以把V模型拿掉或者和RNN结合做成一个监督学习模型,来训练一个输入是(St, At, ht),输出是St+1的模型,其中S是环境的状态。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180409A1RTFI00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券