首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

简单易懂聊强化学习

最近闲来了解了下目前比较火的强度学习,现将其原理用简单易懂的方式总结一下,方便初次接触的人快速了解。

接下来我用一个比较有趣的例子来介绍什么是强化学习,首先我来介绍下纯强化学习,假设你被邀请和你的朋友玩一个你完全不了解的游戏(假设为象棋),你的朋友只简单的向你介绍了棋子移动的规则,如:马走日,象飞田,车走直路,炮翻山,老将不离后花园,但是没有告诉你如何才能赢得棋局,你在不能获得除此之外任何信息的情况下开始玩这个游戏。不出意外,你输掉棋局,然后你一局又一局的挑战朋友,一次又一次的输掉(此处省略一万次),经过无数次的尝试,你渐渐的从失败中总结经验,找到了一些有用的模式,现在,你尽管还是会输掉,但是好像不会像最开始那样很快就over,每局还是能够勉强支撑一段时间,接着,在经历了几个月甚至几年的对弈时间后,你勉强可以战胜你的朋友了。哈哈哈哈,你是不是很傻?但是我告诉你,这个模式是目前大部分强化学习方法的模式哦。我们将这种从头开始学习的方法叫做纯强化学习,目前主要应用在解决棋盘类游戏及机器人的各种问题。

你可能会问纯强化学习有意义么?每个人都有不同的看法,大部分人会觉得意义很大,因为目前在强化学习已经被证明可以解决各种复杂问题。但是我再这里稍微唱个反调(并不代表我觉得没有意义哈),其实那些看似复杂的问题,并没有看上去那么复杂,如象棋、围棋等各类游戏,都具有有限的规则,这对于计算机来说并不是难事。

AlphaGO Zero算是纯强化学习应用的一个里程碑,我们都知道AlphaGO(通过监督学习和强化学习结合的算法)算法程序战胜了人类围棋大师,推起了人工智能的高潮,AlphaGO Zero是通过纯强化学习方法,他完全从没有任何先验知识的情况开始,从游戏过程中的一些奖励信号中学习知识,也就是说它不再从人类经验中学习如何成功,AlphaGO Zero目前应该是一个普适的版本,不仅仅可以用于围棋,应该还可以用于象棋等其他有限规则的场景(个人观点,不对请指正)。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180731G0JMUW00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券