Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >DeepMind VS Meta:实现纳什均衡理性最优解,还是多人非零和博弈算法更强大?

DeepMind VS Meta:实现纳什均衡理性最优解,还是多人非零和博弈算法更强大?

作者头像
大数据文摘
发布于 2023-04-10 08:51:35
发布于 2023-04-10 08:51:35
4680
举报
文章被收录于专栏:大数据文摘大数据文摘

大数据文摘转载自AI科技大本营

编译 & 整理:杨阳

记得豆瓣高分电影《美丽心灵》中的约翰·纳什吗?

作为获得诺贝尔经济学奖的数学家,纳什在博弈论、微分几何学,以及偏微分方程等各个领域都作出卓越贡献。为表彰他在非合作博弈理论中对均衡(纳什均衡)的开创性分析,1994年瑞典中央银行授予纳什诺贝尔经济学奖。

纳什均衡在社科中的应用可谓成功,而在科技领域中,也经常引用博弈论的逻辑来进行技术实现,比如,通过密码学和博弈论的结合实现大数据安全。当下,这一逻辑也开始应用在AI的算法上。

DeepNash——DeepMind制造的最新款人工智能,它名字中的“Nash”即为纪念纳什而命名。在AlphaGo之后,谷歌已降低在棋牌领域的关注,之所以推出DeepNash,在于借鉴纳什均衡的逻辑设定基础上,这款AI模型得以在西洋陆军棋Stratego(策略)中击败专业玩家,这比在国际象棋、围棋和扑克的比赛中击败人类更加困难。

DeepNash是怎么做到的呢?

超越围棋的走法量,诉求“无模型”和强化学习

相较其他棋牌游戏,Stratego在规则上就包含了更多不确定性,包括玩家之间的信息非对称。比如,象棋和围棋的牌面和走位都是公开的,但Stratego的牌面却是看不到的,这点和玩扑克一样。另一方面,相较于围棋只有一个初始定位,德州扑克有106个,而Stratego有惊人的超过1066个可以选择的起始点。要知道,1066这个量级已经超过了宇宙中所有星辰的总量。

在博弈树的算法统计量上,Stratego可能的走法达到不可思议的10535种,围棋的这一数量为10360。

信息非对称、路径解极多,极度复杂性意味着通过通用的“蒙特卡洛树”模型玩转Stratego并不可行。DeepNash的研究者之一,DeepMind研究员Perolat表示:“那些适用于扑克的算法在Stratego中是完全行不通的,可能的结果量级太过庞大,因而非常复杂,信息的处理需要更为完备的方法。”

最终,团队找到的方法是“无模型”强化算法,意味着在任何模型都无法实现精确模拟的情况下,让DeepNash就像一个婴儿或者一张白纸一样进行从0开始的积累。但这使得预测变得困难,甚至完全不可能。

为了解决这个问题,团队使用了深度强化学习为DeepNash提供动力源,目的是找到最优的纳什均衡。

运用纳什均衡,在信息不对称中诉诸最优解

强化学习算法如同“钢铁侠”,可以处理大规模数据量的问题,但牌面的信息不对称又该如何解决?该DeepNash中“Nash”发挥作用了。

纳什均衡,也是非合作博弈均衡分析,社会学和经济学专业学生对这个名词非常熟悉。其中最著名的实验就是后来经常应用在犯罪心理中的囚徒困境。这一理论给出的现实命题是:对于处于非合作博弈中的双方,无论对方如何选择,当事一方只有一种确定的策略对自己来说是最优解,因而两方都会选择自己的最优,最后达成彼此最优下的博弈均衡。

比如,两个共同犯罪的嫌疑人分别接受审讯,如果双方都不坦白,两人各自获刑一年;其中只有一方坦白,坦白的无罪释放,不坦白的获刑十年;而如果双方都坦白,各获刑五年。在这个假想实验中,都不坦白才是整体最优。然而,对于两位囚徒来说,肯定都希望无罪释放,而无论对方是否坦白,自己坦白都是理性最优解,所以最终的结果就是各获刑五年。

如果将纳什均衡的逻辑放到DeepNash的算法设定中,游戏中互相看不到牌面的双方就像囚徒困境中无法串通的两个囚徒,彼此是非合作博弈。在信息不确定的情况下,只有走无论对方出什么牌“我”都是最优选的牌,才能确保在多轮博弈中获胜。

DeepNash获得同类竞技97%胜率

纳什均衡和加上强化学习,最终达成均衡下的最优解:通过“每位玩家获得任何收益都会导致对手损失”的逻辑,凭借强化学习在游戏的每一步中计算下一步的最佳算法。就这样,DeepNash开启了自我对抗训练。

训练的奖惩机制是:当DeepNash—A获胜时,该网络参数将会增强;同时,对手方DeepNash—B的参数将会被削弱。通过55亿次的对弈,DeepNash取得了很好的成绩,失误率越来越小,无限接近纳什均衡最优。

在算法测试中,DeepNash以97%的胜率压制了其他机器选手。而在Gravon游戏平台上,通过和人类专业棋手进行两周多的竞技,DeepNash最终在有20年历史的积分排名榜中升至第三位。

除了学习能力惊人,DeepNash更让人惊讶的地方在于,它在开局不会固定自己的起始位置,而是不断优化起始点。这样做究竟是随机在10535种可能性中寻找最优解,还是“有意识”地避免对手对自己出牌套路的破解而故意为之,目前不得而知。如果是后者,就让人不寒而栗了。不过,DeepNash确实会用一些看上去“诱骗”的方式来“引诱”对手落入陷阱,通过一些看似无意义(棋子重复跳动),或者牺牲高级棋子(让对方放松警惕),从而进行伏击。

加入非理性测算后的多方博弈

DeepNash确实相当厉害,但如果你仔细观察也不难发现,纳什均衡的状态是发生在两方之间的,而现实世界往往并非两者的零和博弈。当博弈均衡需要发生在多方,又会呈现怎样的态势呢?

对此,Meta AI研究员们的发明或许更具挑战性:创建了能够玩多方博弈游戏的AI模型——Cicero。在一款名为Diplomacy(外交风云)的游戏中,多个玩家每人代表一个国家,最多可以有7个玩家一起玩。游戏规则是进行军队和战舰的战略部署,从而获得对供应中心的控制权。

和DeepNash在Stratego中展现的非合作博弈下的纯零和状态不同,Cicero的博弈模式设定更加开放,包括每个玩家都可以私下进行交流和合作,而当合作博弈与非合作博弈都构建在多玩家的算法模型中时,预期结果更加不可控。

Cicero的开发者之一Noam Brown表示说:“当你超越双人的零和游戏时,纳什均衡的概念对于与人类打好关系不再那么有用。”

目前,Cicero已经在Diplomacy的125,261场游戏中进行了训练,它的推理模块(SRM)已经学会预测自身的状态,包括其他玩家可能采取的策略。通过预测,SRM会选择最佳的行动路径,并向其拥有27亿参数语言模型的对话模块上发出意图信号。

在Brown看来,像Cicero这样能够与人类进行互动,并且可以对人类的非理性次优行为进行解释的人工智能才能越来越接近现实世界,从而为未来的应用铺平道路。他以智能驾驶举例:“你不能设想道路上其他司机都是理性的。”

唯理派 PK 经验论:哪个更接近现实?

在应用上,尽管DeepNash是为Stratego而开发的,但它的实际用途远不止在游戏世界里“捣乱”。未来将会用在便利人们生活的各个方面,比如交通或者市场预测。

和DeepNash一样,Cicero未来也会应用于现实世界,“我们虽然有一只脚在游戏世界里,但现在我们也有一只脚在现实世界里。”

对于DeepNash和Cicero,你认为它们哪个更可能实现在现实世界的落地呢?请留言投票。

参考链接:

https://singularityhub.com/2022/12/05/deepminds-latest-ai-trounces-human-players-at-the-game-stratego/

https://www.nature.com/articles/d41586-022-04246-7

点「在看」的人都变好看了哦!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-12-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
DeepMind VS Meta:实现纳什均衡理性最优解,还是多人非零和博弈算法更强大?
DeepMind被谷歌收购之后,一直开启着“败家烧”的模式。不过也着实“烧”出了不少成果。曾经大火的AlphaGo,编程机器人系统Alpha Code,智能体Gato……都是让业界认可的手笔。不过,尽管在AI技术上全面开花,DeepMind仍没有放弃曾经的看家本领——AI棋牌竞技。随着DeepNash的推出,棋牌界出现又一乱入者,因为它超越人类专业棋手的技能,登上了近期的《Nature》杂志。
AI科技大本营
2022/12/10
5260
DeepMind VS Meta:实现纳什均衡理性最优解,还是多人非零和博弈算法更强大?
浙大提出会打德扑的「自我博弈」AI,还会玩射击游戏
随着深度强化学习的快速发展,AI 已经在围棋等信息完整的游戏中战胜了人类专业玩家。然而,「星际争霸」等信息不完整游戏的研究还没有取得同样的进展。这类研究的一大问题是,它们很少从理论和量化的角度考虑对其训练和结果进行评估,因此效果难以保证。
机器之心
2019/04/29
7900
浙大提出会打德扑的「自我博弈」AI,还会玩射击游戏
【深度学习】遗憾算法系列2:囚徒困境与纳什均衡
本系列的第二个博客是介绍纳什均衡(Nash Equilibrium)和遗憾匹配(Regret Matching)如何走向平衡。这是为本系列的最后一篇文章作准备,在那里我们我们将介绍在德州扑克中利用反事实遗憾最小化来无限的接近甚至达到均衡。(上一篇文的翻译地址:http://www.atyun.com/7659_如何正确的猜拳:反事实遗憾最小化算法.html) 我们设计智能体并不同的环境中测试他们的能力。从驾驶到写博客,扑克,我们从人们在各种不同任务的出色表现中得到灵感,我们正在研究能够轻松、无缝地从一个任务
AiTechYun
2018/03/05
1.7K0
【深度学习】遗憾算法系列2:囚徒困境与纳什均衡
人工智能将成为新任赌神:DeepMind 能玩转扑克牌吗?
DeepMind(Google 子公司 )的人工智能 AlphaGo 成功以 4 比 1 的战绩击败冠军级围棋选手李世石,并借此向世人宣告人工智能技术已经攻克围棋项目。那么值得 DeepMind 攻坚的下一项任务又会是什么呢? 伦敦大学学院(University College London)的两位研究员撰写了一篇论文,并在论文中提出了一个值得人工智能技术攻坚的项目:扑克牌。和围棋项目不同,人工智能技术若能在扑克项目上取得胜利,研究人员可以将所赢取的资金作为后续科研经费使用。至少在人类醒悟并决定不再在扑克
新智元
2018/03/15
7950
人工智能将成为新任赌神:DeepMind 能玩转扑克牌吗?
吴飞:大数据智能从最优解(数据拟合)到均衡解(博弈对抗)
本次报告介绍了博弈论思想在人工智能领域的应用,首先介绍了使用传统的数据拟合寻找最优解的思路,之后引入博弈论的思想,以AlphaGo和对抗生成网络为例介绍了均衡解的问题。最后对人工智能的未来进行了展望。
马上科普尚尚
2020/05/13
8330
吴飞:大数据智能从最优解(数据拟合)到均衡解(博弈对抗)
前沿 | DeepMind于Nature子刊发文提出非对称博弈的降维方法
选自DeepMind 作者:Karl Tuyls、Marc Lanctot、Julian Perolat 机器之心编译 参与:刘晓坤、黄小天、路雪 近日,DeepMind 在 Scientific Report 上发表论文《Symmetric Decomposition of Asymmetric Games》,表明一个非对称博弈可以分解为多个对称博弈,从而将博弈降维,并且非对称博弈和对称变体的纳什均衡也有非常简单的对应关系。 随着 AI 系统在现实世界中扮演的角色越来越重要,理解不同系统之间如何交互变得非
机器之心
2018/05/10
9160
对人胜率84%,DeepMind AI首次在西洋陆军棋中达到人类专家水平
机器之心报道 机器之心编辑部 DeepMind在游戏AI领域又有了新成绩,这次是西洋陆军棋。 在AI游戏领域,人工智能的进展往往通过棋盘游戏进行展现。棋盘游戏可以度量和评估人类和机器如何在受控环境中发展和执行策略。数十年来,提前规划的能力一直是AI在国际象棋、跳棋、将棋和围棋等完美信息游戏以及扑克、苏格兰场等不完美信息游戏中取得成功的关键。 西洋陆军棋(Stratego)已经成为AI研究的下一批前沿领域之一。该游戏的阶段和机制的可视化图如下1a所示。该游戏面临以下两个挑战。 其一,Stratego 的博
机器之心
2022/07/04
6890
对人胜率84%,DeepMind AI首次在西洋陆军棋中达到人类专家水平
AI的博弈论,一份插图教程
我肯定你说对了。对于我们这些早期数学发烧友来说,电影《美丽心灵》(A Beautiful Mind)已经深深地印在了我们的记忆中。Russell Crowe在电影中扮演John Nash,一位诺贝尔经济学奖得主(上图左侧)。
磐创AI
2019/11/29
9490
德扑 AI 之父解答 Libratus 的13个疑问:没有用到任何深度学习,DL 远非 AI 的全部
AI 科技评论按:昨天晚上,卡耐基梅隆大学计算机系在读博士生 Noam Brown 和计算机系教授 Tuomas Sandholm 来到 reddit 的机器学习分版,和网友们一起来了一场「你问我答」(ask me anything)。这两个名字大家现在也比较眼熟了,他们就是今年早些时候在人机大赛中首次打败职业扑克选手的 AI「冷扑大师」(Libratus)的创造者。 具体来说,在持续了 20 天、4 位人类职业选手分别上阵的十二万手一对一无限注德州扑克中,四位职业选手一共输给「冷扑大师」1766250
AI科技评论
2018/03/14
1K0
德扑 AI 之父解答 Libratus 的13个疑问:没有用到任何深度学习,DL 远非 AI 的全部
超越过去三年冠军,AAMAS2019 桥牌游戏论文揭秘
AI 科技评论按,近年来,AI 在博弈游戏中的研究成为研究者们关注的热点之一。2017 年,AlphaGo 成功击败人类最高围棋水平的代表柯洁,一度占据各大媒体的头条。之后,AlphaGo 不断进化,AlphaZero 轻松击败国际象棋和日本将棋并击败业内远超人类冠军水平的顶尖计算机程序。今年,OpenAI Five 击败 DOTA2 世界冠军 OG 团队。
AI科技评论
2019/06/19
4100
超越过去三年冠军,AAMAS2019 桥牌游戏论文揭秘
纳什均衡和贝叶斯均衡区别:不完全信息
纳什均衡和贝叶斯均衡是博弈论中的两个重要概念,它们之间存在显著的差异。以下是对两者的详细比较:
zhangjiqun
2024/12/14
2480
纳什均衡和贝叶斯均衡区别:不完全信息
当博弈论遇上机器学习:一文读懂相关理论
「博弈论」这个词可能对于一些仅仅致力于机器学习前沿算法的人并不算熟悉。其实,有意无意的,博弈论的思想一直存在于很多机器学习的探索过程中,不管是经典的 SVM,还是大火的 GAN,这些模型的背后都有博弈论的影子。
机器之心
2019/10/30
2K0
当博弈论遇上机器学习:一文读懂相关理论
AI博弈论:DeepMind让智能体在非对称博弈中找纳什均衡
Root 编译自 DeepMind官方博客 随着人工智能系统在现实世界中扮演越来越重要的角色,理解不同的系统如何相互作用至关重要。 刚刚,DeepMind发表了一篇名为Symmetric Decomp
量子位
2018/01/24
1.2K0
雀神,微软亚研推出超级麻将AI Suphx,还上了专业十段水平
麻将无疑是我国最家喻户晓,老少咸宜的一项棋牌游戏。近年来,随着人工智能在围棋、德州扑克、Dota、星际争霸等众多游戏中获得亮眼的成绩,AI 在麻将领域却一直缺少跨越性的突破。
机器之心
2019/08/30
7740
雀神,微软亚研推出超级麻将AI Suphx,还上了专业十段水平
学界 | DeepMind 将博弈论融入多智能体研究,让纳什均衡变得更简单
AI 科技评论按:随着 AI 系统在现实生活中变得越来越重要,我们自然该探索不同系统间的交互方式了,这些多智能体间到底用了什么独特的方式呢? 在 DeepMind 的最新论文(发表在 Scientific Reports , Nature 出版社旗下杂志)中,研究人员用了博弈论来阐明这一问题。具体来说,他们研究了两套智能系统在非对称博弈游戏(asymmetric game)中的反应和表现,这些游戏包括 Leduc 扑克和一些图版游戏(如 Scotland Yard)。 在现实生活中,我们会遇到许多类似非对称
AI科技评论
2018/03/15
1.4K0
学界 | DeepMind 将博弈论融入多智能体研究,让纳什均衡变得更简单
70亿LLaMA媲美5400亿PaLM!MIT惊人研究用「博弈论」改进大模型|ICLR 2024
他们共同设计了一个游戏,在游戏中,让模型的两种模式(生成式和判别式)相互对抗,努力找到它们可以达成一致的答案。
新智元
2024/05/14
2360
70亿LLaMA媲美5400亿PaLM!MIT惊人研究用「博弈论」改进大模型|ICLR 2024
解读冷扑大师背后的AI算法和博弈论:CFR算法是核心
问耕 发自 LZYY 量子位 报道 | 公众号 QbitAI 昨天下午,量子位在中关村举办了一个技术沙龙,邀请创新工场AI工程院技术VP李天放、联想智慧医疗CEO林林等,从技术和实战的角度,对德州扑克
量子位
2018/03/30
1.7K0
解读冷扑大师背后的AI算法和博弈论:CFR算法是核心
数学建模暑期集训14:博弈论与纳什均衡
博弈论的内容在数学建模中比较少见,但2020年国赛B题确实考到了这一部分,因此掌握一些基本的原理方法还是有所必要。并且,博弈论本身和模糊综合评价类型比较类似,都是难度不高,不太依赖编程的方法,掌握一下性价比很高。
zstar
2022/06/14
8100
数学建模暑期集训14:博弈论与纳什均衡
【重磅】DeepMind发布Nature论文: 博弈网络让智能体成为游戏大咖
【导读】近日,DeepMind在《Nature Science》发布最新论文,研究将博弈论应用在multi-agent的游戏中,利用纳什均衡在自我对局中消除分歧,寻找最优平衡策略。将非对称游戏有效分解
WZEARW
2018/04/13
1.3K0
【重磅】DeepMind发布Nature论文: 博弈网络让智能体成为游戏大咖
一个求解零和博弈的通用框架:让人工智能自己发现算法
「机器之心走近全球顶尖实验室:UCL多智能体强化学习研究团队」系列直播今晚第四期,来自UCL汪军教授团队的杨耀东博士将带来分享:Dealing with Non-transitivity in Two-player Zero-sum Games。
机器之心
2021/08/06
1.2K0
推荐阅读
DeepMind VS Meta:实现纳什均衡理性最优解,还是多人非零和博弈算法更强大?
5260
浙大提出会打德扑的「自我博弈」AI,还会玩射击游戏
7900
【深度学习】遗憾算法系列2:囚徒困境与纳什均衡
1.7K0
人工智能将成为新任赌神:DeepMind 能玩转扑克牌吗?
7950
吴飞:大数据智能从最优解(数据拟合)到均衡解(博弈对抗)
8330
前沿 | DeepMind于Nature子刊发文提出非对称博弈的降维方法
9160
对人胜率84%,DeepMind AI首次在西洋陆军棋中达到人类专家水平
6890
AI的博弈论,一份插图教程
9490
德扑 AI 之父解答 Libratus 的13个疑问:没有用到任何深度学习,DL 远非 AI 的全部
1K0
超越过去三年冠军,AAMAS2019 桥牌游戏论文揭秘
4100
纳什均衡和贝叶斯均衡区别:不完全信息
2480
当博弈论遇上机器学习:一文读懂相关理论
2K0
AI博弈论:DeepMind让智能体在非对称博弈中找纳什均衡
1.2K0
雀神,微软亚研推出超级麻将AI Suphx,还上了专业十段水平
7740
学界 | DeepMind 将博弈论融入多智能体研究,让纳什均衡变得更简单
1.4K0
70亿LLaMA媲美5400亿PaLM!MIT惊人研究用「博弈论」改进大模型|ICLR 2024
2360
解读冷扑大师背后的AI算法和博弈论:CFR算法是核心
1.7K0
数学建模暑期集训14:博弈论与纳什均衡
8100
【重磅】DeepMind发布Nature论文: 博弈网络让智能体成为游戏大咖
1.3K0
一个求解零和博弈的通用框架:让人工智能自己发现算法
1.2K0
相关推荐
DeepMind VS Meta:实现纳什均衡理性最优解,还是多人非零和博弈算法更强大?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档