AlphaGo 所采用的 DQN 是一种具有广泛适应性的强化学习模型,说白了就是不用修改代码,你让它下围棋它能下围棋,你让它在红白机上玩超级玛丽和太空侵略者,它也不会手生。作为一个基于卷积神经网络、采用了强化学习模型的人工智能,AlphaGo 的学习能力很强,往往新上手一个项目,玩上几局就能获得比世界上最厉害的选手还强的实力。
2014 年,已经被 Google 收购的 DeepMind,用五款雅达利 (Atari) 游戏 Pong、打砖块、太空侵略者、海底救人、Beam Rider 分别测试了自己开发的人工智能的性能,结果发现:在两三盘游戏后,神经网络的操控能力已经远超世界上任何一位已知的游戏高手。
李世石执黑子,AlphaGo 执白子。大约进行了 85 分钟时进入休息阶段。
在此之前,DeepMind 进行过的无数虚拟棋局训练,以及去年击败欧洲围棋冠军樊麾二段的经验让 AlphaGo 已经训练出了顶尖的弈技,极有可能高于世界上任何已知的围棋高手。
围棋的可能性复杂度
2014 年,这家公司曾经在其官网上写道:DeepMind 致力于用研究深度学习的方式去真正了解智慧 (solve intelligence) 。但对于 DeepMind 和 Google 来说,打造 AlphaGo 以及其他人工智能神经网络不是终点。
DeepMind 三位联合创始人
你可以将 AlphaGo 理解为《超验骇客》(Transcendence) 里约翰尼·德普饰演的人工智能,而它所控制的超级计算机,就像影片里被人工智能心控的人类一样,共同为一种蜂群思维 (Hive Mind) 服务。
《超验骇客》中,被人工智能控制的工人马丁。马丁没有所想,但他的所见将会被人工智能直接获取
AlphaGo 是在这个神经网络系统上,专为下围棋 (Go) 而开发出的一个实例。然而,虽然名字已经介绍了它的功能,AlphaGo 背后的神经网络系统却适合用于任何智力竞技类项目。
这个系统的基础名叫卷积神经网络 (Convolutional Neural Network, CNN) ,这是一种过去在大型图像处理上有着优秀表现的神经网络,经常被用于人工智能图像识别,比如 Google 的图片搜索、百度的识图功能都对卷积神经网络有所运用。这也解释了为什么 AlphaGo 是基于卷积神经网络的,毕竟围棋里胜利的原理是:
对弈双方在棋盘网格的交叉点上交替放置黑色和白色的棋子。落子完毕后,棋子不能移动。对弈過程中围地吃子,以所围“地”的大小决定胜负。
AlphaGo Logo / DeepMind
AlphaGo不是一块一块地思考。每手棋,它都要重新评估整个棋盘,这个能力,既来自它强大的计算能力,也在于它看过棋局,是对手的几十上百倍。但对于人类而言,下围棋是一块棋一块棋的累积优势。所以,人类的最佳策略是把握好每一块棋,打得过的地方尽量多赢几目,打不过的地方尽量少丢几目,能够斩对方大龙的机会,绝不放过,用每一块的优势,争取全局的胜利。
一句话概括:人类直接计算的是“胜幅”——这一手棋下去,能赚几目。 而AlphaGo不同,前面说它是全局思考的,所以它直接计算的是“胜率”——这一手棋下去后,最终的赢面概率是多少。只要它觉得这么下可以提高未来的“胜率”,哪怕眼前让对方赚上几目,也就是人类眼里的“臭棋”,也可以接受。
换一种说法:在98%概率赢5万,和99%的概率赢1万元之间,人类选前者,AlphaGo选后者。
记得《棋魂》中有一段对话:“围棋的乐趣在于有对手的存在。”“那棋神不是很寂寞了吗?”“因为这样,所以神教会人类下棋,希望人类能理解他的世界。”
所以无论AI未来究竟将走到哪一步,我们对围棋的文化、围棋世界的探索都将永无止境。
领取专属 10元无门槛券
私享最新 技术干货