首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >通用AlphaGo诞生?DeepMind的MuZero在多种棋类游戏中超越人类

通用AlphaGo诞生?DeepMind的MuZero在多种棋类游戏中超越人类

作者头像
机器之心
发布于 2019-12-06 06:20:56
发布于 2019-12-06 06:20:56
8030
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

机器之心编辑部

DeepMind近期的一项研究提出了MuZero算法,该算法在不具备任何底层动态知识的情况下,通过结合基于树的搜索和学得模型,在雅达利2600游戏中达到了SOTA表现,在国际象棋、日本将棋和围棋的精确规划任务中可以匹敌AlphaZero,甚至超过了提前得知规则的围棋版AlphaZero。

MuZero 算法在国际象棋、日本将棋、围棋和雅达利(Atari)游戏训练中的评估结果。横坐标表示训练步骤数量,纵坐标表示 Elo评分。黄色线代表 AlphaZero(在雅达利游戏中代表人类表现),蓝色线代表 MuZero。

基于前向搜索的规划算法已经在 AI 领域取得了很大的成功。在围棋、国际象棋、西洋跳棋、扑克等游戏中,人类世界冠军一次次被算法打败。此外,规划算法也已经在物流、化学合成等诸多现实世界领域中产生影响。然而,这些规划算法都依赖于环境的动态变化,如游戏规则或精确的模拟器,导致它们在机器人学、工业控制、智能助理等领域中的应用受到限制。

基于模型的强化学习旨在通过以下步骤解决这一问题:首先学习一个环境动态模型,然后根据所学模型进行规划。一般来说,这些模型要么着眼于重建真实的环境状态,要么着眼于完整观察结果的序列。然而,之前的研究在视觉上丰富的领域还远远没有达到 SOTA 水准,如雅达利 2600 游戏。

最受欢迎的方法是基于无模型强化学习的方法,即直接从智能体与环境的交互中估计优化策略和/或价值函数。但在那些需要精确和复杂前向搜索的领域(如围棋、国际象棋),这种无模型的算法要远远落后于 SOTA。

研究者在57个不同的雅达利游戏中评估了MuZero,发现该模型在雅达利2600游戏中达到了SOTA表现。此外,他们还在不给出游戏规则的情况下,在国际象棋、日本将棋和围棋中对MuZero模型进行了评估,发现该模型可以匹敌AlphaZero超越人类的表现。而且,在该实验中,其前辈AlphaZero提前获知了规则。

MuZero 算法概览

MuZero 基于 AlphaZero 强大的搜索和基于搜索的策略迭代算法,但又将一个学习好的模型整合到了训练步骤中。MuZero 还将 AlphaZero 扩展到了一个更加广泛的环境集合,包含单个智能体域和中间时间步上的非零奖励。

该算法的主要思路是预测那些与规划直接相关的未来行为(如下图 1 所示)。模型将接收到的观察结果(如围棋棋盘图像或雅达利游戏截图)作为输入,然后将其转换为一个隐藏状态。接下来,通过一个循环过程来迭代更新该隐藏状态,该循环过程接收前一个隐藏状态和假设的下一步操作。

在每一个步骤上,模型会预测策略(如玩的动作)、价值函数(如预测的赢家)以及即时奖励。对模型进行端到端训练的唯一目标是准确估计这三个重要的量,以匹配改进的策略估计和通过搜索及观察到的奖励生成的值。

对于隐藏的状态,没有直接的约束和要求来捕获重建原始观察结果所需的信息,大大减少了模型维护和预测的信息量;也没有要求隐藏状态匹配环境中未知、真实的状态;更没有针对状态语义的其他约束。

相反,隐藏状态能够地以任何与预测当前和未来值和策略相关的方式来表示状态。直观地说,智能体可以在内部创建规则和动态,以实现最精确的规划。

图 1:用一个训练好的模型进行规划、行动和训练。(A)MuZero 利用其模型进行规划的方式;(B)MuZero 在环境中发生作用的方式;(C)MuZero 训练其模型的方式。

MuZero 算法详解

研究者对 MuZero 算法进行了更详细的解读。在每个时间步 t 上、以过往观察结果 O_1, …, O_t 和未来行为 a_t+1, …, a_t+k 为条件、通过一个具有参数θ的模型µ_θ,为每个 k=1…K 步进行预测。该模型预测三种未来数量:策略

、价值函数

和即时奖励

,其中 u. 表示观察到的正确奖励,π表示用来选择实时行动的策略,γ表示环境的贴现函数(discount function)。

在每个时间步 t 上,MuZero 模型由表征函数、动态函数和预测函数联合表征。在本文中,研究者对动态函数进行了确切的表征。策略和价值函数则通过预测函数

并根据内部状态 s^k 来计算,这与 AlphaZero 的联合策略和价值网络相似。

给定这样一个模型,则有可能在基于过往观察结果 O_1, …, O_t 的情况下查找基于假设的未来轨迹 a^1, …, a^k。例如,一个简单的搜索可以轻松地选择最大化价值函数的 k 步动作序列。更普遍地说,我们或许可以将任何 MDP(马尔科夫决策过程)规划算法应用于由动态函数推导出的内部奖励和状态空间。

对于每个假设的时间步 k,模型的所有参数接受联合训练,从而在 k 个实际的时间步后,对策略、价值和奖励与它们各自对应的目标值进行精确的匹配。与 AlphaZero 相似,提升后的策略目标通过蒙特卡洛树(MCTS)搜索生成。第一个目标是最小化预测策略 p^k_t 和搜索策略π_t+k 之间的误差;第二个目标是最小化预测值 v^k_t 和价值目标 z_t+k 之间的误差;第三个目标是最小化预测奖励 r^k_t 和观察到的奖励 u_t+k 之间的误差。最后添加 L2 正则化项,得出以下总损失:

实验结果

在实验中,研究者将 MuZero 算法应用于围棋、国际象棋和日本将棋等经典棋盘游戏中,作为挑战规划问题的基准;同时又应用于雅达利游戏环境中的 57 个游戏,作为视觉复杂强化学习领域的基准。

下图 2 展示了 MuZero 算法在每个游戏训练中的性能。在围棋游戏中,尽管搜索树中每个节点的计算量小于 AlphaZero,但 MuZero 的性能依然略微超过 AlphaZero。这表明 MuZero 可能在搜索树中缓存自身计算,并利用动态模型的每个附加应用来对位置产生更深的理解。

图 2:MuZero 算法分别在国际象棋、日本将棋、围棋和雅达利游戏训练中的评估结果。在国际象棋、日本将棋和围棋游戏中,横坐标表示训练步骤数量,纵坐标表示 Elo 评分。

表 1:雅达利游戏中 MuZero 与先前智能体的对比。研究者分别展示了大规模(表上部分)和小规模(表下部分)数据设置下 MuZero 与其他智能体的对比结果,表明 MuZero 在平均分、得分中位数、Env. Frames、训练时间和训练步骤五项评估指标(红框)取得了新的 SOTA 结果。

为了了解 MuZero 中模型的作用,研究者还重点在围棋和吃豆人雅达利游戏中进行了以下几项实验。他们首先在围棋的典型规划问题上测试了规划的可扩展性(下图 3A)。此外,他们还研究了所有雅达利游戏中规划的可扩展性(下图 3B)。接着,他们将自己基于模型的学习算法与其他相似的无模型学习算法进行了比较(下图 3C)。

图 3:MuZero 在围棋、57 个雅达利游戏、吃豆人游戏上的评估结果。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-11-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
DeepMind又出大招!新算法MuZero登顶Nature,AI离人类规划又近了一步
近日,DeepMind一篇关于MuZero的论文“Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model”在Nature发表。与AlphaZero相比,MuZero多了玩Atari的功能,这一突破进展引起科研人员的广泛关注。
AI科技评论
2021/01/08
1.4K0
DeepMind又出大招!新算法MuZero登顶Nature,AI离人类规划又近了一步
从α到μ:DeepMind棋盘游戏AI进化史
本文将简单介绍这些算法的演进历程。未来,DeepMind 能否创造出这一系列的终极算法 OmegaZero 呢?
机器之心
2020/02/24
7770
从α到μ:DeepMind棋盘游戏AI进化史
7 papers | 周志华深度森林新论文;谷歌目标检测新SOTA
论文 1:Multi-label Learning with Deep Forest
机器之心
2019/12/06
4830
7 papers | 周志华深度森林新论文;谷歌目标检测新SOTA
【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏
作者:闻菲,刘小芹,常佩琦 【新智元导读】或许“智能爆炸”不会发生,但永远不要低估人工智能的发展。推出最强围棋AI AlphaGo Zero不到50天,DeepMind又一次超越了他们自己,也刷新了世人对人工智能的认知。12月5日,包括David Silver、Demis Hassabis等人在内的DeepMind团队发表论文,提出通用棋类AI AlphaZero,从零开始训练,除了基本规则没有任何其他知识,4小时击败最强国际象棋AI、2小时击败最强将棋AI,8小时击败李世石版AlphaGo,连最强围棋AI
新智元
2018/03/20
1.7K0
【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏
DeepMind的机器学习模型MuZero是如何学会下棋的
DeepMind在去年年底发表在《科学》杂志上的一篇论文中,详细介绍了AlphaZero,这是一种人工智能系统,可以自学如何掌握国际象棋、日本象棋“将棋”的变体以及中国的围棋。在这些棋种的竞赛中,AlphaZero都成功击败了世界冠军。
AiTechYun
2019/11/28
1K0
不只是围棋!AlphaGo Zero之后DeepMind推出泛化强化学习算法AlphaZero
选自arXiv 作者:David Silver等 机器之心编译 在 DeepMind 发表 Nature 论文介绍 AlphaGo Zero 之后,这家公司一直在寻求将这种强大算法泛化到其他任务中的可能性。昨天,AlphaGo 研究团队提出了 AlphaZero:一种可以从零开始,通过自我对弈强化学习在多种任务上达到超越人类水平的新算法。据称,新的算法经过不到 24 小时的训练后,可以在国际象棋和日本将棋上击败目前业内顶尖的计算机程序(这些程序早已超越人类世界冠军水平),也可以轻松击败训练 3 天时间的 A
机器之心
2018/05/09
7840
不只是围棋!AlphaGo Zero之后DeepMind推出泛化强化学习算法AlphaZero
【论文深度研读报告】MuZero算法过程详解
这篇文章的研究内容为:具有规划能力的智能体(agents with planning capabilities)。
深度强化学习实验室
2021/01/26
3.6K0
DeepMind完爆AlphaGo,1天内就称霸3种棋类
本文介绍了DeepMind在围棋、国际象棋和将棋三个棋类上实现超人智能的AlphaZero程序,该程序在一天内自学成才,并在8小时内击败了之前最强的围棋程序AlphaGo Zero。AlphaZero使用了80个TPU和12个CPU,训练了70万步,并在30分钟内完成了对围棋、国际象棋和将棋的自学。AlphaZero通过蒙特卡洛树搜索和强化学习来评估游戏状态,并尝试不同的策略以找到最佳动作。尽管AlphaZero在三种游戏中表现出色,但它仅关注棋类游戏,而不涉及其他领域,并且目前还无法像人类那样在多种领域灵活运用。AlphaZero在人工智能领域取得了重要突破,但仍需进一步研究以解决其局限性。"
人工智能的秘密
2017/12/22
9050
DeepMind完爆AlphaGo,1天内就称霸3种棋类
【DeepMind最新论文】新AlphaZero出世称霸棋界 ,8小时搞定一切棋类!自对弈通用强化学习无师自通!
【导读】从AlphoGo Zero 到AlphaZero只是少了一个词“围棋”(Go), 但是背后却代表着Hassabis将和他的DeepMind继续朝着“创造解决世界上一切问题的通用人工智能”这一目标道路上迈出了巨大的一步。今天DeepMind在arXiv发表论文表示其开发的通用强化学习程序AlphaZero,使用蒙特卡洛树搜索(MCTS)和深度神经网络,和强大的算力,同时在国际象棋,日本将棋和围棋中战胜各自领域的最强代表。而且这一切都是通过自我对弈完成的,在训练中除了游戏规则,不提供任何额外的领域知识。
WZEARW
2018/04/11
9920
【DeepMind最新论文】新AlphaZero出世称霸棋界 ,8小时搞定一切棋类!自对弈通用强化学习无师自通!
AlphaZero登上Science封面:从小白开始制霸多个游戏
此前不久,DeepMind 还推出了 AlphaFold,成功地根据基因序列预测出蛋白质的 3D 形状,将人工智能技术应用在了科学研究领域。
机器之心
2018/12/25
6030
AlphaZero登上Science封面:从小白开始制霸多个游戏
只需1/500数据便可掌握Atari游戏!清华叉院助理教授提出小数据RL模型,引爆AI社区
EfficientZero的性能接近 DQN(Deep Q-Learning)在 2 亿帧时的性能,但消耗的数据却减少 500 倍。
AI科技评论
2021/11/17
7490
人类设计了游戏和AI 2017年AI在游戏中打败了人类
记得在上学的时候有个老师宣称“电脑永远不可能胜过人脑,因为是人类发明了电脑”,不知看到科技发展到现在的阶段之后,他会有何感想。2017年AI在人类设计的游戏里都击败了人类,这使我想起了被《中国象棋》里那个老头支配的恐惧。 在20世纪的大部分时间里,国际象棋是人工智能研究人员的一个基准。早在上世纪50年代初,约翰·麦卡锡提出了“人工智能”一词,他曾把国际象棋称为“人工智能领域的果蝇”,这一说法来源于早期对果蝇的研究对遗传学领域的影响。 上世纪90年代末,IBM的“深蓝”与世界冠军加里·卡斯帕罗夫进行了一系列国
企鹅号小编
2018/01/19
7140
人类设计了游戏和AI 2017年AI在游戏中打败了人类
2017年 AI在人类设计的所有游戏中都打败了人类
在20世纪的大部分时间里,国际象棋是人工智能研究人员的一个基准。早在上世纪50年代初,约翰?麦卡锡提出了“人工智能”一词,他曾把国际象棋称为“人工智能领域的果蝇”,这一说法来源于早期对果蝇的研究对遗传
企鹅号小编
2018/01/17
8290
2017年 AI在人类设计的所有游戏中都打败了人类
【业界】你也能与AlphaGo谈笑风生了, AlphaGo教学工具上线
【导读】12月11日晚,大家期待已有的 AlphaGo教学工具正式上线了,DeepMind资深研究员黄士杰和DeepMind围棋大使樊麾在Facebook和其新浪微博差不多同一时间发布一条重要消息,谷
WZEARW
2018/04/11
9020
【业界】你也能与AlphaGo谈笑风生了, AlphaGo教学工具上线
17年AI在游戏中完胜人类,AlphaGo的下一个目标是什么?DeepMind有一个45年超越人类计划
2017 年,AI在各种游戏中横扫人类: 在围棋比赛中,AlphaGo Master战胜世界排名最高的柯洁,随后又衍生出AlphaGoZero和更高水平的AlphaZero;在扑克比赛中Libratus已经可以在打牌时使诈,充分利用人类漏洞;马斯克的OpenAI在短短时间内在Dota 2中击败世界顶级选手。未来实现自我学习的AI将在更多的游戏中超越人类。 2017年,AI在游戏中大获全胜。在过去的12个月里,从古老的围棋到德州扑克,AI越过了一系列新的门槛,最终在各种不同的游戏中击败人类玩家。 围棋 在
企鹅号小编
2018/01/15
8390
17年AI在游戏中完胜人类,AlphaGo的下一个目标是什么?DeepMind有一个45年超越人类计划
“阿尔法狗”进化到第四代,无需告知规则 MuZero算法自学成“棋”才
MuZero成为DeepMind最先进的AI算法。(图片来源:DeepMind公司网站)
matinal
2021/12/06
4700
“阿尔法狗”进化到第四代,无需告知规则 MuZero算法自学成“棋”才
2017年,人类在自己设计的所有游戏中都败给了AI,无一幸免
在20世纪的大部分时间里,国际象棋是人工智能研究人员的一个基准。早在上世纪50年代初,约翰·麦卡锡提出了“人工智能”一词,他曾把国际象棋称为“人工智能领域的果蝇”,这一说法来源于早期对果蝇的研究对遗传学领域的影响。 上世纪90年代末,IBM的“深蓝”与世界冠军加里·卡斯帕罗夫进行了一系列国际象棋比赛。 在1997年,深蓝最终击败了卡斯帕罗夫,这是机器第一次在比赛中击败世界冠军。到本世纪早中期,这项技术已经进步到了一定程度,在几乎所有不同玩法的游戏中,机器都在不断地打败国际象棋大师。 自然而然地,人工智能开发
企鹅号小编
2018/01/19
7970
2017年,人类在自己设计的所有游戏中都败给了AI,无一幸免
DeepMind 打造 AI 游戏系统,可以玩扑克、国际象棋、围棋等,战斗力爆表
谷歌母公司 Alphabet 的人工智能实验室 DeepMind 长期以来一直投资于游戏人工智能系统。实验室的理念是,游戏虽然缺乏明显的商业应用,但却是认知和推理能力的独特相关挑战。这使它们成为 AI 进步的有用基准。
AI科技大本营
2021/12/09
1.1K0
DeepMind 打造 AI 游戏系统,可以玩扑克、国际象棋、围棋等,战斗力爆表
对人胜率84%,DeepMind AI首次在西洋陆军棋中达到人类专家水平
机器之心报道 机器之心编辑部 DeepMind在游戏AI领域又有了新成绩,这次是西洋陆军棋。 在AI游戏领域,人工智能的进展往往通过棋盘游戏进行展现。棋盘游戏可以度量和评估人类和机器如何在受控环境中发展和执行策略。数十年来,提前规划的能力一直是AI在国际象棋、跳棋、将棋和围棋等完美信息游戏以及扑克、苏格兰场等不完美信息游戏中取得成功的关键。 西洋陆军棋(Stratego)已经成为AI研究的下一批前沿领域之一。该游戏的阶段和机制的可视化图如下1a所示。该游戏面临以下两个挑战。 其一,Stratego 的博
机器之心
2022/07/04
7110
对人胜率84%,DeepMind AI首次在西洋陆军棋中达到人类专家水平
塔秘 | DeepMind到底是如何教AI玩游戏的?
导读 DeepMind到底是如何教AI玩游戏的?这篇在Medium上获得1700个赞的文章,把里面的原理讲清楚了。 谷歌的DeepMind是世界一流的AI研究团队,其研发的AlphaGo在2016年备
灯塔大数据
2018/04/04
2.7K0
塔秘 | DeepMind到底是如何教AI玩游戏的?
推荐阅读
DeepMind又出大招!新算法MuZero登顶Nature,AI离人类规划又近了一步
1.4K0
从α到μ:DeepMind棋盘游戏AI进化史
7770
7 papers | 周志华深度森林新论文;谷歌目标检测新SOTA
4830
【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏
1.7K0
DeepMind的机器学习模型MuZero是如何学会下棋的
1K0
不只是围棋!AlphaGo Zero之后DeepMind推出泛化强化学习算法AlphaZero
7840
【论文深度研读报告】MuZero算法过程详解
3.6K0
DeepMind完爆AlphaGo,1天内就称霸3种棋类
9050
【DeepMind最新论文】新AlphaZero出世称霸棋界 ,8小时搞定一切棋类!自对弈通用强化学习无师自通!
9920
AlphaZero登上Science封面:从小白开始制霸多个游戏
6030
只需1/500数据便可掌握Atari游戏!清华叉院助理教授提出小数据RL模型,引爆AI社区
7490
人类设计了游戏和AI 2017年AI在游戏中打败了人类
7140
2017年 AI在人类设计的所有游戏中都打败了人类
8290
【业界】你也能与AlphaGo谈笑风生了, AlphaGo教学工具上线
9020
17年AI在游戏中完胜人类,AlphaGo的下一个目标是什么?DeepMind有一个45年超越人类计划
8390
“阿尔法狗”进化到第四代,无需告知规则 MuZero算法自学成“棋”才
4700
2017年,人类在自己设计的所有游戏中都败给了AI,无一幸免
7970
DeepMind 打造 AI 游戏系统,可以玩扑克、国际象棋、围棋等,战斗力爆表
1.1K0
对人胜率84%,DeepMind AI首次在西洋陆军棋中达到人类专家水平
7110
塔秘 | DeepMind到底是如何教AI玩游戏的?
2.7K0
相关推荐
DeepMind又出大招!新算法MuZero登顶Nature,AI离人类规划又近了一步
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档