如果接触过强化学习,那么对这张图片肯定很熟悉,一个被认定为强化学习里面很经典很教科书的例子。当小球掉下来的那一刻,接球板移动,当接到小球时,则给奖励。以此来不断训练。换一个角度想一想,小球从X点,掉落到Y点。X,Y 集合都是有限集,这个有限集合可能很大,量级和整个游戏的面板长宽和上面触发消失的层数以及和最底层的接球板距离有关。总之,这个量级是有限的。强化学习RL 在不断的尝试,惩罚或奖励中。逐步拟合到最正确的伪曲线(这个曲线代表的就是接球板碰到球就有奖励)和真正的理解这个游戏的精髓相差甚远。何以见得?在只改变游戏面板长宽的情况下,拟合模型,模型的训练时间长短会根据游戏面板长宽的变大而变长。也就是说,其实模型是在遍历整个X,Y的集合,这也是为什么要玩这个游戏玩一个晚上甚至玩一天(根据机器性能而定)才能真正达到接球的地步。换句话说,在这么长的时间里,随着游戏进程的发展,球的弹来弹去的过程在不断的覆盖整个有限集,并且在覆盖的过程中由于惩罚和奖励的机制调整,使得接球板和球的位置拟合曲线越加一致。到最后,其实当有限集合覆盖到了百分之80以上时,球刚开始往下面掉时,这个case和下落的曲线 在之前已经出现过,模型会根据奖励重复或者抛弃之前的动作,利用它大量的存储记住了球从哪一个点 下落到的位置,球下落后,接球板的位置,是否有奖励。当这些信息足够大时,就是我们看到的所谓强化学习,一种过拟合的学习。推之到神经网络中,SVM等传统的算法和NN网络的差别就是 当数据量没有达到NN的量级,那么传统算法优于NN网络。为什么了?因为数据量少,测试的数据并没有出现在训练集中,NN网络没记住这种情况的case。那么肯定判断错误。而当数据量是海量时,能收集到的能想象的case都集中起来了,NN网络把这些case的情况都记下来了,而这个时候测试的数据也其实在训练的数据中,由此有如此高的准确率,假设NN模型在某一个问题上的准确率是百分之99,那么另外百分之一的情况一定是训练数据中未曾出现过的case,如果你能找出来的话……..哈哈,人会这么样去学习吗?与其说是人工智能,不如说是N个循环遍历所有的情况,将循环过程中出现的变量和结果都记下来,嗯哼,说死记硬背(超级过拟合)是最合适的。
领取专属 10元无门槛券
私享最新 技术干货