首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >完爆阿尔法狗元,DeepMind用5000台TPU训练出新算法,1天内称霸3种棋类

完爆阿尔法狗元,DeepMind用5000台TPU训练出新算法,1天内称霸3种棋类

作者头像
企鹅号小编
发布于 2017-12-27 07:10:08
发布于 2017-12-27 07:10:08
1.1K0
举报
文章被收录于专栏:企鹅号快讯企鹅号快讯

大数据文摘作品

作者:姜范波、Aileen、Yawei Xia、龙牧雪、魏子敏

距离阿尔法狗元版本刷屏一个多月时间,阿尔法狗又进化了,这次不光可以玩围棋,不再是“狗”了。我一点也不惊讶。

在用阿尔法狗(AlphaGo)和阿尔法狗元(AlphaGo Zero)称霸围棋世界后,当地时间周二晚,DeepMind的研究组宣布已经开发出一个更为广泛的阿尔法元(AlphaZero)系统,它可以训练自己在棋盘,将棋和其他规则化游戏中实现“超人”技能,所有这些都在一天之内完成,并且无需其他干预,战绩斐然:

4个小时成为了世界级的国际象棋冠军;

2个小时在将棋上达到世界级水平;

8个小时战胜DeepMind引以为傲的围棋选手AlphaGo Zero。

这不禁让文摘菌想到了落入乾坤一气袋的张无忌瞬间精进的场景:

在各路高手的真力激荡之下打通数十处玄关,练成了独步天下的九阳神功,从此化身武林学霸。短短几个时辰内就练成了第七层乾坤大挪移,无论是太极拳剑还是圣火令武功都手到擒来,成为武林的百科全书。

尽管如此,阿尔法元(AlphaZero)距离一个真正的通用目标,独立AI,还有一定的距离 。国际象棋和将棋是比较容易的测试,因为它们比围棋简单。而像“星际争霸2”这样复杂的视频游戏完全是另一码事,更不用说散步、艺术或抽象思维等模糊的概念了。

另外还有速度的问题:虽然用来学习棋盘游戏的时间少于24小时,但对于AI需要现场适应的情况,速度太慢。DeepMind报告也说,训练该软件使用了5064台功能强大的定制机器学习处理器(被称为TPU)。(简直野蛮暴力)

但仍然不可否认,这是人工智能迈出的重要一步。

论文地址 https://arxiv.org/pdf/1712.01815.pdf (还未经过peer review)

回忆人工智能的历史,很多人的印象都是一堆“各类技能”冠军——井字棋、跳棋和国际象棋。几十年来,研究人员已经研制了一系列超级专业的程序,在越来越高难度的游戏中击败人类。近期在围棋上,Deepmind的阿尔法狗也超越了人类。但是,这些人造冠军们的共同弱点是——都只能玩某一种精心设计的游戏。而人类即使在某些技能上输了,在精通多种技艺这一点上,仍然完爆人工智能。

近日,DeepMind官方宣布了第一个多技能的AI棋类游戏冠军程序。当地时间周二晚,Deepmind发布的一篇论文描述了一款名为AlphaZero的软件,它可以在三种具有挑战性的游戏中自学,表现超越人类:国际象棋,围棋或将棋(亦称日本象棋)。

DeepMind在文章中描述了AlphaZero的学习过程。人类不再是国际象棋,围棋和将棋中最好的选手,所以AlphaZero就用最好的专业人工选手(计算机程序Stockfish、Elmo、AlphaGo Zero)进行测试。这个新程序很快就打败了这三个人工棋手:

只用了4个小时成为了世界级的国际象棋冠军;用2个小时在将棋上达到世界级水平;只花了8小时战胜DeepMind引以为傲、也是之前已知最好的围棋选手AlphaGo Zero。

图:经过70万步训练的AlphaZero。它的对手是国际象棋的2016TCEC世界冠军程序Stockfish,将棋的2017CSA世界冠军程序Elmo,和大家都知道的AlphaGo Zero。每一手棋双方只有1秒的反应时间。

DeepMind也表示,新程序AlphaZero模仿AlphaGo Zero,通过同样的自我对练机制学习。AlphaZero核心的算法是它的升级版本,能够搜索更广泛的可能策略以适应不同的游戏。

AlphaZero可以从头开始学习三个游戏中的每一个,尽管它需要按照每个游戏的规则进行编程。该程序通过与自己对练提高技能成为专家,尝试不同的玩法来发现获胜的途径。

图:人类常用的国际象棋的12种开局方式解析

AlphaZero还没有办法学会同时参加三场比赛。但是,一个程序学习三种不同的复杂游戏,能达到如此高的水平,还是惊人的,因为AI系统——包括那些可以“学习”的——通常是非常专业的,需要经历磨练来解决特定的问题。即使是最好的人工智能系统也不能在两个问题之间进行泛化——因此,许多专家认为机器要取代人还有很长一段路要走。

AlphaZero可能是AI系统走向非专门化的一小步。纽约大学教授Julian Togelius在周二发布的推文中指出,真正泛化的AI还道阻且长,但称DeepMind的论文“非常出色”。

图:国际象棋和将棋中,AlphaZero每一手棋的思考时间,和相应的模型表现(Elo)

而DeepMind的这一研究进展对于业界来说也非常重要。更灵活的机器学习软件可以帮助谷歌加速在业务内部扩展人工智能技术。DeepMind最新发明中的技术也可能帮助团队挑战视频游戏“星际争霸”(StarCraft),后者已经成为它的下一个目标。一个流行的商业视频游戏似乎没有正式而抽象的棋盘游戏那么令人生畏。但“星际争霸”被认为复杂度更高,因为它各种变量和特征的安排自由度更大,玩家必须预见对手不可见的行为。

相比可以学习三个以上的棋盘游戏,并能解决各种空间,常识,逻辑,艺术和社会难题的人脑,AlphaZero的智力水平仍然有限。

DeepMind论文中显示,AlphaZero在三种游戏中使用了同样的算法设置、神经网络结构和超参数。训练过程包括70万步(4096大小的mini-batch),从随机生成的参数开始,使用了5000台TPU生成自对抗的棋局,接着使用64台TPU训练神经网络。

一共5064台TPU!文摘菌不得不感慨“何以解忧,唯有暴富”。

相较于阿尔法狗元(AlphaGo Zero)用到的64台GPU和19台CPU,AlphaZero的算力可谓得到了指数级提升。算法的训练时间也从阿尔法狗元的“几天”提升到了现在的“8小时”。

回头看看战胜了李世石和柯洁的惊天动地的阿尔法狗,已经显得像原始人了。它用到了1920台CPU和280台GPU,需要训练几个月。

人工智能的发展,有3个驱动力——数据、算法、算力。神经网络的“左右互搏”在数据和算法上做出了突破,而谷歌的TPU计算资源支持更是AlphaZero致胜的秘诀之一。

从10月底围棋超人阿尔法狗元的诞生,到12月进化成三种棋类超人阿尔法元,不过只用了短短一个多月的时间。

本文来自企鹅号 - 初志科技媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文来自企鹅号 - 初志科技媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
天才也勤奋!DeepMind哈萨比斯自述:领导400名博士向前,每天工作至凌晨4点
哈萨比斯天天见。这位DeepMind创始人、AlphaGo之父,一直是全球赞颂的当世天才,但每天要到凌晨4点,才能睡下。
量子位
2019/04/24
5820
天才也勤奋!DeepMind哈萨比斯自述:领导400名博士向前,每天工作至凌晨4点
【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏
作者:闻菲,刘小芹,常佩琦 【新智元导读】或许“智能爆炸”不会发生,但永远不要低估人工智能的发展。推出最强围棋AI AlphaGo Zero不到50天,DeepMind又一次超越了他们自己,也刷新了世人对人工智能的认知。12月5日,包括David Silver、Demis Hassabis等人在内的DeepMind团队发表论文,提出通用棋类AI AlphaZero,从零开始训练,除了基本规则没有任何其他知识,4小时击败最强国际象棋AI、2小时击败最强将棋AI,8小时击败李世石版AlphaGo,连最强围棋AI
新智元
2018/03/20
1.7K0
【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏
17年AI在游戏中完胜人类,AlphaGo的下一个目标是什么?DeepMind有一个45年超越人类计划
2017 年,AI在各种游戏中横扫人类: 在围棋比赛中,AlphaGo Master战胜世界排名最高的柯洁,随后又衍生出AlphaGoZero和更高水平的AlphaZero;在扑克比赛中Libratus已经可以在打牌时使诈,充分利用人类漏洞;马斯克的OpenAI在短短时间内在Dota 2中击败世界顶级选手。未来实现自我学习的AI将在更多的游戏中超越人类。 2017年,AI在游戏中大获全胜。在过去的12个月里,从古老的围棋到德州扑克,AI越过了一系列新的门槛,最终在各种不同的游戏中击败人类玩家。 围棋 在
企鹅号小编
2018/01/15
8390
17年AI在游戏中完胜人类,AlphaGo的下一个目标是什么?DeepMind有一个45年超越人类计划
DeepMind的机器学习模型MuZero是如何学会下棋的
DeepMind在去年年底发表在《科学》杂志上的一篇论文中,详细介绍了AlphaZero,这是一种人工智能系统,可以自学如何掌握国际象棋、日本象棋“将棋”的变体以及中国的围棋。在这些棋种的竞赛中,AlphaZero都成功击败了世界冠军。
AiTechYun
2019/11/28
1K0
我与机器斗争过但失败了:与深蓝“人机大战”20年,卡斯帕罗夫TED演讲
大数据文摘字幕组作品 如果我们想利用科技,就必须直面恐惧。 ——加里·卡斯帕罗夫 卡斯帕罗夫 生于1963年 前苏联、俄罗斯国际象棋棋手 22岁成为世界上最年轻的国际象棋冠军 接下来的职业生涯里 他获得了一连串冠军头衔 直到2005年退役(゚▽゚)/ 但是 幸运也是不幸 让他真正“家喻户晓”的 是历史课本里 1997年5月11日 他作为人类的代表 与IBM计算机“深蓝”的一次对弈 那一次 人类输了 和文摘菌用过同一版历史教材的请举手 此后的20年 人类好像一直在输 到了2017年 IBM已经有了能赢取智力
大数据文摘
2018/05/24
7870
DeepMind AI只需要4个小时的自我训练即可成为国际象棋霸主
企鹅号小编
2017/12/29
6280
DeepMind AI只需要4个小时的自我训练即可成为国际象棋霸主
AlphaZero完胜三大世界冠军棋类程序:5000个TPU、自学一天
Root 编译整理 量子位 出品 | 公众号 QbitAI 昨天,DeepMind团队又在arXiv上扔了个重磅炸弹,新一代AlphaZero在用了强劲的计算资源(5000个一代TPU和64个二代TPU)之后,用不到24小时的时间自我对弈(tabula rasa,也叫白板)强化学习,接连击败了三个世界冠军级的程序 (国际象棋、将棋、围棋)。 △ AlphaZero和国际象棋冠军程序对弈 其中包括上一代冠军围棋程序AlphaGo Zero,这个程序发布还不到两个月,DeepMind就又把自己颠覆了(所以谷歌团
量子位
2018/03/22
1.2K0
AlphaZero完胜三大世界冠军棋类程序:5000个TPU、自学一天
DeepMind 打造 AI 游戏系统,可以玩扑克、国际象棋、围棋等,战斗力爆表
谷歌母公司 Alphabet 的人工智能实验室 DeepMind 长期以来一直投资于游戏人工智能系统。实验室的理念是,游戏虽然缺乏明显的商业应用,但却是认知和推理能力的独特相关挑战。这使它们成为 AI 进步的有用基准。
AI科技大本营
2021/12/09
1.1K0
DeepMind 打造 AI 游戏系统,可以玩扑克、国际象棋、围棋等,战斗力爆表
AlphaZero诞生一周年:登上Science封面,完整论文首次公开
阿尔法元(AlphaZero)诞生一周年之际,《科学(Science)》杂志今天以封面文发布了阿尔法元(AlphaZero)经过同行审议的完整论文,Deepmind创始人兼CEO哈萨比斯亲自执笔了这一论文。
大数据文摘
2018/12/25
7400
AlphaZero诞生一周年:登上Science封面,完整论文首次公开
DeepMind再登Science!AI「破壁者」玩心机吊打人类大师
近日,DeepMind的AI智能体DeepNash,在西洋陆军棋(Stratego)中花式战胜专业级人类玩家,成功跻身Top 3。
新智元
2023/01/08
6310
DeepMind再登Science!AI「破壁者」玩心机吊打人类大师
Deepmind AI在《星际争霸2》血虐99.8%人类,登顶宗师段位
对于大多数游戏玩家来说,游戏内置的电脑AI,似乎都是一个笑话,更应该被称为“人工智障”。
新智元
2020/04/21
6400
Deepmind AI在《星际争霸2》血虐99.8%人类,登顶宗师段位
再进化!通用算法 AlphaZero 再攻克几种棋又有何难
本文介绍了 AlphaZero 是如何利用深度强化学习解决围棋问题的。首先,AlphaZero 在无任何人类指导的情况下,通过自我对弈的方式学会下围棋。然后,它利用蒙特卡洛树搜索和深度神经网络来评估局面和选择策略。最后,通过与人类世界冠军和之前的围棋 AI 进行比较,AlphaZero 证明了其强大的围棋下棋能力。
企鹅号小编
2017/12/27
9660
再进化!通用算法 AlphaZero 再攻克几种棋又有何难
DeepMind首席科学家:比起机器智能,我更担心人类智能造成的灾难
在 DeepMind 首席研究科学家、伦敦大学学院计算机科学教授David Silver 看来,游戏是激发创造力的关键,尤其是对AI而言。
新智元
2022/02/24
5070
DeepMind首席科学家:比起机器智能,我更担心人类智能造成的灾难
AlphaZero登上Science封面:从小白开始制霸多个游戏
此前不久,DeepMind 还推出了 AlphaFold,成功地根据基因序列预测出蛋白质的 3D 形状,将人工智能技术应用在了科学研究领域。
机器之心
2018/12/25
6060
AlphaZero登上Science封面:从小白开始制霸多个游戏
不只是围棋!AlphaGo Zero之后DeepMind推出泛化强化学习算法AlphaZero
选自arXiv 作者:David Silver等 机器之心编译 在 DeepMind 发表 Nature 论文介绍 AlphaGo Zero 之后,这家公司一直在寻求将这种强大算法泛化到其他任务中的可能性。昨天,AlphaGo 研究团队提出了 AlphaZero:一种可以从零开始,通过自我对弈强化学习在多种任务上达到超越人类水平的新算法。据称,新的算法经过不到 24 小时的训练后,可以在国际象棋和日本将棋上击败目前业内顶尖的计算机程序(这些程序早已超越人类世界冠军水平),也可以轻松击败训练 3 天时间的 A
机器之心
2018/05/09
7840
不只是围棋!AlphaGo Zero之后DeepMind推出泛化强化学习算法AlphaZero
DeepMind创始人:AlphaGo破解围棋3000年奥义,超越人类认知极限
【新智元导读】AlphaGo之父杰米斯·哈萨比斯(Demis Hassabis)近日在母校英国剑桥大学做了一场题为“超越人类认知的极限”的演讲,解答了世人对于人工智能,对于阿尔法狗的诸多疑问——过去3
新智元
2018/03/27
1.4K0
DeepMind创始人:AlphaGo破解围棋3000年奥义,超越人类认知极限
门罗盘点:2017年那些AI击败人类的瞬间
1997年5月11日在计算机挑战人类的历史上,是被载入史册的一天。当天,IBM的计算机程序“深蓝”在正常时限的国际象棋比赛中,以2.5:3.5的比分击败了当时世界排名第一的棋手卡斯帕罗夫,震惊了全世界。 但在上世纪末,计算机程序还未上升到人工智能这一高度。而到了本世纪,尤其是近几年,人工智能这项技术已经发展到了令人惊叹的高度。 因此人工智能开发者开始转向一系列更为复杂的游戏,在几乎所有人类设计的游戏中,经过训练的人工智能都毫不费力的击败了人类玩家,从古老的围棋到互动的德州扑克,再到更为复杂的DOTA。不
企鹅号小编
2018/01/17
1.2K0
门罗盘点:2017年那些AI击败人类的瞬间
【DeepMind最新论文】新AlphaZero出世称霸棋界 ,8小时搞定一切棋类!自对弈通用强化学习无师自通!
【导读】从AlphoGo Zero 到AlphaZero只是少了一个词“围棋”(Go), 但是背后却代表着Hassabis将和他的DeepMind继续朝着“创造解决世界上一切问题的通用人工智能”这一目标道路上迈出了巨大的一步。今天DeepMind在arXiv发表论文表示其开发的通用强化学习程序AlphaZero,使用蒙特卡洛树搜索(MCTS)和深度神经网络,和强大的算力,同时在国际象棋,日本将棋和围棋中战胜各自领域的最强代表。而且这一切都是通过自我对弈完成的,在训练中除了游戏规则,不提供任何额外的领域知识。
WZEARW
2018/04/11
9930
【DeepMind最新论文】新AlphaZero出世称霸棋界 ,8小时搞定一切棋类!自对弈通用强化学习无师自通!
DeepMind又出大招!新算法MuZero登顶Nature,AI离人类规划又近了一步
近日,DeepMind一篇关于MuZero的论文“Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model”在Nature发表。与AlphaZero相比,MuZero多了玩Atari的功能,这一突破进展引起科研人员的广泛关注。
AI科技评论
2021/01/08
1.4K0
DeepMind又出大招!新算法MuZero登顶Nature,AI离人类规划又近了一步
AlphaZero:通用型的棋类人工智能程序
今年,Deepmind的“AlphaGo”在围棋领域的胜利让不少人了解到人工智能的强大。当时有人还认为没有人类棋手的经验,人工智能很难快速达到如今的成绩,但后来推出的AlphaGo Zero却是从0开始,自己学习围棋,又取得超越AlphaGo的成绩。如今Deepmind再次将这种强大的算法泛化,提出了AlphaZero:一种可以从零开始,在多种不同的任务中通过自我对弈,达到超越人类水平的新算法。这种算法可以通过24小时的对弈训练后,就可以在日本将棋和国际象棋领域击败目前业内顶尖的计算机程序(这些程序早就战胜
企鹅号小编
2018/01/29
8160
推荐阅读
天才也勤奋!DeepMind哈萨比斯自述:领导400名博士向前,每天工作至凌晨4点
5820
【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏
1.7K0
17年AI在游戏中完胜人类,AlphaGo的下一个目标是什么?DeepMind有一个45年超越人类计划
8390
DeepMind的机器学习模型MuZero是如何学会下棋的
1K0
我与机器斗争过但失败了:与深蓝“人机大战”20年,卡斯帕罗夫TED演讲
7870
DeepMind AI只需要4个小时的自我训练即可成为国际象棋霸主
6280
AlphaZero完胜三大世界冠军棋类程序:5000个TPU、自学一天
1.2K0
DeepMind 打造 AI 游戏系统,可以玩扑克、国际象棋、围棋等,战斗力爆表
1.1K0
AlphaZero诞生一周年:登上Science封面,完整论文首次公开
7400
DeepMind再登Science!AI「破壁者」玩心机吊打人类大师
6310
Deepmind AI在《星际争霸2》血虐99.8%人类,登顶宗师段位
6400
再进化!通用算法 AlphaZero 再攻克几种棋又有何难
9660
DeepMind首席科学家:比起机器智能,我更担心人类智能造成的灾难
5070
AlphaZero登上Science封面:从小白开始制霸多个游戏
6060
不只是围棋!AlphaGo Zero之后DeepMind推出泛化强化学习算法AlphaZero
7840
DeepMind创始人:AlphaGo破解围棋3000年奥义,超越人类认知极限
1.4K0
门罗盘点:2017年那些AI击败人类的瞬间
1.2K0
【DeepMind最新论文】新AlphaZero出世称霸棋界 ,8小时搞定一切棋类!自对弈通用强化学习无师自通!
9930
DeepMind又出大招!新算法MuZero登顶Nature,AI离人类规划又近了一步
1.4K0
AlphaZero:通用型的棋类人工智能程序
8160
相关推荐
天才也勤奋!DeepMind哈萨比斯自述:领导400名博士向前,每天工作至凌晨4点
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档