最近闲来了解了下目前比较火的强度学习,现将其原理用简单易懂的方式总结一下,方便初次接触的人快速了解。
接下来我用一个比较有趣的例子来介绍什么是强化学习,首先我来介绍下纯强化学习,假设你被邀请和你的朋友玩一个你完全不了解的游戏(假设为象棋),你的朋友只简单的向你介绍了棋子移动的规则,如:马走日,象飞田,车走直路,炮翻山,老将不离后花园,但是没有告诉你如何才能赢得棋局,你在不能获得除此之外任何信息的情况下开始玩这个游戏。不出意外,你输掉棋局,然后你一局又一局的挑战朋友,一次又一次的输掉(此处省略一万次),经过无数次的尝试,你渐渐的从失败中总结经验,找到了一些有用的模式,现在,你尽管还是会输掉,但是好像不会像最开始那样很快就over,每局还是能够勉强支撑一段时间,接着,在经历了几个月甚至几年的对弈时间后,你勉强可以战胜你的朋友了。哈哈哈哈,你是不是很傻?但是我告诉你,这个模式是目前大部分强化学习方法的模式哦。我们将这种从头开始学习的方法叫做纯强化学习,目前主要应用在解决棋盘类游戏及机器人的各种问题。
你可能会问纯强化学习有意义么?每个人都有不同的看法,大部分人会觉得意义很大,因为目前在强化学习已经被证明可以解决各种复杂问题。但是我再这里稍微唱个反调(并不代表我觉得没有意义哈),其实那些看似复杂的问题,并没有看上去那么复杂,如象棋、围棋等各类游戏,都具有有限的规则,这对于计算机来说并不是难事。
AlphaGO Zero算是纯强化学习应用的一个里程碑,我们都知道AlphaGO(通过监督学习和强化学习结合的算法)算法程序战胜了人类围棋大师,推起了人工智能的高潮,AlphaGO Zero是通过纯强化学习方法,他完全从没有任何先验知识的情况开始,从游戏过程中的一些奖励信号中学习知识,也就是说它不再从人类经验中学习如何成功,AlphaGO Zero目前应该是一个普适的版本,不仅仅可以用于围棋,应该还可以用于象棋等其他有限规则的场景(个人观点,不对请指正)。
领取专属 10元无门槛券
私享最新 技术干货