药明康德AI/报道
图片来源:Science
导读:周润发在《赌神》中说:“跟我赌是你的不幸。”不知这位“AI赌神”的能力是否可以与发哥匹敌?大家是否还记得 7月这位“AI赌神”的荣耀时刻,它在复杂的无限制德州扑克六人对决中碾压战胜了人类顶级玩家。本周这项研究登上Science封面,游戏AI(Game AI)又迎来一次里程碑式的突破,本文我们将再次回顾“AI赌神”的风采!
在回顾之前,首先需要清楚游戏AI与学术AI(Academic AI)本质上的区别。学术AI的目的是创造一个智能体,该智能体根据环境做出动作,以最大化成功率为目的。例如在图像识别任务中,我们希望AI能够获得尽量高的准确率。而游戏AI并不是要做到最大化成功率,例如在星际争霸的游戏中,我们并不是以胜利为目的来设计AI的,而是以让玩家有一段美妙的游戏体验为目标。
Pluribus“荣耀时刻”
尽管机器学习(machine learning)已经在国际象棋和围棋等棋类游戏、星际争霸2和Dota等游戏中达到了超人的水平,但从某种程度上来说,无限制六人德州扑克代表着更高的难度基准。几十年来,扑克在AI研究的领域一直是个挑战性问题,过去人工智能扑克所取得的成就也仅限于2人游戏,然而传统扑克游戏参与者数往往是大于2的。
图片来源:Science
这位“AI赌神”叫Pluribus,是Facebook与卡耐基梅隆大学(CMU)共同开发所打造的史上最强德州扑克AI,它解决了多人对局环境下的非零和博弈与隐藏信息推理问题(译者注:非零和博弈是一种合作下的博弈,博弈中各方的收益或损失的总和不是零值)。在超过12天、10000手牌的比赛里,Pluribus分别在两种不同的场景下与12名专业顶级玩家进行了对决。场景一:1个AI与5个人类玩家对决;场景二:5个AI与1个人类玩家对决。最终, Pluribus在两个场景中均取得胜利,平均每局能赢 5 美元,与 5 个人类玩家对战一小时就能赢 1000 美元!
Facebook人工智能研究中心科学家、Pluribus联合创始人诺姆•布朗(Noam Brown)表示,Pluribus已经达到了超人类的水平,其能力一段时间内难以被超越。曾六次获得世界扑克系列赛冠军的克里斯·弗格森(Chris Ferguson)也成Pluribus为极其难应付的对手。
那么从1v1到1v5,AI扑克经历了怎样的进步呢?
多策略型Pluribus的诞生过程
早在2015年,一个机器学习系统就在双人德州扑克比赛中击败了人类职业选手,但将人类对手数量增加到5个之后,大大增加了系统复杂性。为了创建一个能够应对这一挑战性问题的人工智能系统,诺姆•布朗与CMU教授图马斯•桑德霍尔姆(Tuomas Sandholm)针对AI部署了一些关键性策略。
图片来源:Facebook
首先,研究团队教Pluribus玩扑克,让它和自己的复制品对弈——这一过程被称为“自我游戏(self-play)”,也称之为“蓝图”(blueprint)策略。这是Pluribus 的核心策略,即通过自我博弈的方式学习,人工智能系统因此能通过试错法反复试学习游戏。AI的训练过程性价比也很高,全程在云服务器上进行,其云计算资源总价值不到 150 美元。这种高效与其他AI里程碑项目形成了鲜明对比,后者的训练往往要花费数百万美元的计算资源。
然后,为了解决游戏的复杂性,研究团队提出一种新机制,即在线搜索算法。AI可以通过搜索前面的几步而不是只搜索到游戏结束来有效地评估其决策。从可玩性以及突破性来说,Pluribus的设计能够真正体现这两点,以往我们介绍的AI系统都具有超强的预测性,但Pluribus无法预测其余五位玩家整局该如何玩。为确保可玩性,科学家做到了“点到为止”,它被设计成只能预想前面两三步棋,当与人类对弈时AI需根据人类玩家的思维以及牌局实时转化策略。这种点到为止的截断方法才是游戏AI真正的突破。
Pluribus采用较少的服务器和GPU集群,意味着它只支持粗粒度的蓝图策略,不过这也会为AI系统带来更快的搜索性能。由于无限德州扑克的规模和复杂性,整个游戏的蓝图策略也必然是粗粒度的,可一旦当粗粒度的“自我游戏”算法与细粒度在线搜索算法协调工作时,Pluribus也就自然而然地成为“个中强手”了。
“语言艺术”转化为数学最优策略,诞生即最高点
在类似扑克这样的游戏中,AI的敏锐度很重要,虚张声势(bluff)的本领需要“学到家”。Pluribus面对实力超强的对手毫不怯弱,在气势上不能输,它便展现其虚张声势的一面!面对实力稍逊的对手更不会手软,自然是想办法赢更多钱。应对不同级别的对手,就需要Pluribus在短期快速反应;然而对于它的对手人类来说,AI则是深不可测的,因为你无法从表情观察它。
虚张声势,通常被认为是人类独有的特征,因为它基于人类说谎和欺骗的能力。但Brown表示,这样的“语言艺术”经过人工智能可以变成数学上最优策略。Pluribus AI结合自我游戏算法与在线搜索算法,经训练后,并不会认为虚张声势具有欺骗性,它只将“虚张声势”作为特定情况下(比如,面对稍弱对手时给其“下马威”)能让它赢更多钱的方式之一。这样智能的方式,使AI比人类更会虚张声势,说起“大话”来真是脸不红心不跳。
图片来源:Pixabay
上面讲述了Pluribus的一些“过人之处”,那它究竟是否可以被人类打败?
值得注意的是Pluribus是一个静态程序。在最初的8天训练之后,Pluribus AI从未更新或升级过,这样一来可以更好地匹配对手的策略;在与职业选手对决的12天里,人类选手也从未在比赛中发现任何关于Pluribus的持续的弱点。如此,人们找不到突破口去战胜这个聪明的AI,或许从Pluribus开始进入牌局的那一刻起,它就处于领先地位。赢在起跑线,说的就是这个理儿吧。
未来多领域应用
研究团队希望Pluribus背后的技术能够应用于其他场景中。现实世界中的许多场景类似于德州扑克,都会存在多玩家、隐藏信息和无数种双赢结果的情况,未来随着人工智能进一步发展,还可以应用于网络安全、预防诈骗以及一些金融谈判等领域,这些场景模式与扑克也是最为相像的。
本文由药明康德AI整理编译
参考资料(可上下滑动查看)
[1]Facebook and CMU’s ‘superhuman’ poker AI beats human pros RetrievedSep 2, 2019
from https://www.theverge.com/2019/7/11/20690078/ai-poker-pluribus-facebook-cmu-texas-hold-em-six-player-no-limit
[2] 什么是游戏AI? Retrieved Sep 2,
2019 fromhttps://blog.csdn.net/techmonster/article/details/79110134
[3] https://mp.weixin.qq.com/s/44KhBDkEh3dp8pgVnMFQpA
[4] https://mp.weixin.qq.com/s/J7ZJVmOui5HFb5NX18VdKQ
《未来简史》
领取专属 10元无门槛券
私享最新 技术干货