AI起跑线原创文章
海豚小号 欢迎关注
上回说到,人人仰望的学霸Alpha狗,前生竟是游戏小霸王。这回接着说,Alpha狗的牛逼今世是如何炼成的。
Google DeepMind团队首先将围棋游戏网站上保存下来的多达3000万手的玩儿家棋谱输入给Alpha狗。
刚开始的时候,先由人类告诉Alpha狗,对手下了什么样的棋之后下一手该怎么下,但是,多达3000万手的数据要由人类教给Alpha狗,同时还要告诉它哪一手是好棋,哪一手是坏棋,几乎是不可能完成的任务。
哪怕可以,估计也需要花费极其漫长的时间。
这时候,DeepMind团队开始启用神经元网络和深度学习技术。也就是说,用接近于人脑工作机制的方法,让机器自己去学习该如何下下一手棋。
但是,Alpha狗只知道每下一手棋,盘面会发生变化,但并不知道围棋的具体规则。这时候,DeepMind团队就引入了“积分”的想法。在人工智能研究领域,这个积分,叫做“回报”(Reward)。
就好比人类玩电子游戏,打通关了就可以获得积分,多少秒以内打通关了就可以获得额外加分,如果用了某种特别的招数还能获得更高积分……等等,这样,玩家就会不自觉地尽全力去获得高分。
同理,如果给计算机设一道“获得更高积分”的目标后,计算机就会受到激励,去学习获得高分的方法和手段。
比如说,下围棋的话,这个目标就是:最终尽可能比对手获得更多的“地域”,就能获得高分。
即便如此,3000万手的棋谱,在数量上还是不够的。
“深度学习”这个方法在很早的时候就诞生了,但是,在当时,还很难在计算机上实际应用,很大的一个原因就是:需要超越常人想象的极其庞大数量的大数据。在没有互联网和云的时代,要获得这么大量的大数据,是几乎不可能的事情。但随着大数据时代的到来,深度学习的技术应用逐渐成为可能。
可是,3000万手的棋谱,还不够多,要提升Alpha狗的精度,还需要更多的数据。
于是,DeepMind团队想到的是,让计算机之间相互下棋。计算机相互下棋后,就会形成新的“经验值”数据,并被存储下来。
由于相同系统的AI相互下棋,很难创造性地产生新的下法,DeepMind团队就让不同系统的围棋AI相互对弈,或者,让同一系统的但不同版本的围棋AI相互对弈,这样,就产生了比3000万手棋谱更多的下棋经验。
对于这些新产生的经验,再让计算机学习,然后再相互对弈,再产生新的经验……如此反复循环。和人类不同,机器是不知疲倦的,它们可以一直训练下去。
最终,经过3000万“局”的训练和学习,世界级水平的围棋AI——Alpha狗才得以炼成。
苦孩子一个啊。
(关于神经元网络技术和深度学习的起源,我们下回分解。)
-End -
上一篇:惊呆!Alpha狗身世大披露,前生竟是“游戏小霸王”?!
领取专属 10元无门槛券
私享最新 技术干货