Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >深度学习机器72小时自学象棋, 达到国际大师水平

深度学习机器72小时自学象棋, 达到国际大师水平

作者头像
花落花飞去
发布于 2018-02-05 07:13:19
发布于 2018-02-05 07:13:19
2.4K0
举报
文章被收录于专栏:人工智能人工智能

距离IBM深蓝(Deep Blue)超级计算机在国际标准锦标赛规则下首次击败国际象棋世界冠军加里·卡斯帕罗夫(Gary Kasparov)已经有差不多20年了. 从那时起, 下象棋计算机的能力变得更加强大, 甚至运行在智能手机上的现代象棋引擎都几乎能让最强的人类毫无招架之力.

训练迭代过程
训练迭代过程

虽然计算机运算能力在变得更快, 但象棋引擎的工作方式并没有发生改变. 他们的运算力依赖于蛮力, 即通过搜索所有可能的未来象棋走向来找到最好的下一步棋.

当然了, 没有人与它们匹敌或是在某些能力接近. 深蓝超级计算机每秒钟可以搜索到约2亿个位置, 而卡斯帕罗夫的搜索速度可能不会超过5秒. 但是他下棋的表现基本上是一样的. 很明显, 人类有一个计算机尚未掌握技巧.

这个诀窍是通过评估棋子的位置, 缩小搜索的最优的途径. 这极大地简化了计算任务, 因为它将所有可能的移动树修剪成只剩几个分支.

电脑未曾在这方面有任何擅长之处, 但现在这个情况就要改变了.这一切都要归功于帝国理工学院(Imperial College London)的马修赖(Matthew Lai)先生的工作. 马修赖先生创造了一种名叫长颈鹿的人工智能机器, 它通过评估更像人类的落子位置, 并以与传统国际象棋引擎完全不同的方式, 自学了下棋.

开箱即用, 新机器与最好的传统国际象棋引擎在同一水平上运行, 其中许多传统引擎已经过多年的微调. 以人类水平来看, 它相当于FIDE(即Federation Internationale des Echecs, 国际象棋联合会, 来自其法语缩写)大师赛中位居比赛国际象棋选手的前2.2%的地位.

马修赖新机器背后的技术是神经网络. 这是一种受人脑启发而得来的处理信息的方式. 它由几层节点组成, 这些节点的连接方式随着系统的训练而变化. 训练过程中使用大量的数据来微调节点的连接, 以使神经网络产生给定输入的特定输出, 例如识别图像中面部的存在.

在过去的几年中, 神经网络由于两个进步而变得非常强大. 首先是更好地了解如何微调这些神经网络的学习, 有一部分是得益于更快的计算机. 此外是有大量可用的注释数据集来训练神经网络.

这使得计算机科学家能够训练更大型更多层次的网络. 这些所谓的深度神经网络已经变得非常强大. 目前在人脸识别和手写识别等模式识别任务中, 它们的表现常常超越人类.

所以深度神经网络应该能够发现国际象棋中的模式并不奇怪, 这也正是马修赖先生的做法. 他的网络由四层组成, 以三种不同的方式一起检查棋盘上的每个棋子的位置.

首先看看整个棋局, 比如每一方的棋子数量和类型, 哪一方准备下棋, 投掷权利在谁手中等等. 其次是以棋子为中心的特征, 例如每一方的每一个棋子的位置, 而最后一个方面是映射每个棋子所攻击和防守的部分.

马修赖使用精心制作的一系列国际象棋比赛真实数据来训练他的神经网络. 这个数据集必须有正确的棋子位置分布. 他说: "例如, 对于每个队伍有三个皇后位置的数据用来训练系统是没有意义的, 因为这些位置在实际的比赛中并不会出现."

除了顶级棋类比赛中通常会出现的位置之外, 还必须有各种不同的不均等的位置. 这是因为尽管在真正的国际象棋比赛中很少出现不均等的位置, 但是它们在计算机内部执行搜索中一直出现.

这个数据集必须是巨大的. 在训练期间, 神经网络内的大量连接必须进行微调, 而这只能通过大量的数据集来完成. 使用太小的数据集, 神经网络可能陷入无法识别真实世界中出现的各种模式的状态.

马修赖从计算机国际象棋游戏数据库中随机选择500万个位置生成他的数据集. 然后他创建了更多的变化. 在将这些数据用于训练之前, 为每个位置添加一个随机的符合规则的落子(random legal move). 他总共以这种方式创建了1.75亿个位置.

通常训练这些机器的方法是手动评估每个位置, 并使用这些信息来教机器识别哪些落子方式是有优势的哪些是相对弱势的.

但评估1.75亿个位置是一项艰巨的任务. 这可以由另一个国际象棋引擎来完成, 但马修赖的目标更加雄心勃勃. 他想让机器自学.

相反, 他使用了一种自我引导技术, 让长颈鹿机器自我对弈, 目标是改善自己对未来位置评估的预测. 这是有效的, 因为有固定的参考点, 最终决定一个位置的价值 -- 决定比赛后来是赢了, 输了还是平局.

这样, 计算机就可以知道哪些位置有优势, 哪些相对弱势.

最后一步是测试训练过的长颈鹿, 结果让阅读有趣起来. 马修赖在一个名为战略测试套件(Strategic Test Suite)的标准数据库上测试了他的机器, 这个数据库由1500个位置组成, 这些位置被选中来测试一个引擎识别不同战略思想的能力. "例如, 其中一个主题测试了对打开文件控制的理解, 另一个主题测试了不同情况下主教和骑士的价值如何相互变化的理解, 也有另一个测试了对中心控制的理解. "他说.

这个测试的结果超过15,000分.

马修赖使用它在训练期间的各个阶段测试机器. 随着引导过程的开始, 长颈鹿很快就达到了6,000分, 最终在72小时后达到了9,700的高分. 马修赖说, 这与世界上最好的国际象棋引擎可以一战.

他补充说: "这一点非常了不起, 因为它们的评估功能都是经过精心设计的手工设计的庞然大物, 拥有数百个参数, 经过数年的手动和自动调整, 其中许多参数已经由人类大师们来完成."

马修赖继续使用同样的机器学习方法来确定一个给定的某步棋可能值得去继续往下搜索的概率. 这很重要, 因为它可以防止不必要的搜索树的无益分支, 同时显著提高计算效率.

马修赖说, 这个概率方法46%的时间能预测最好的某步棋, 70%可以预测排名前三佳的某步棋的走法. 所以电脑不必担心其他的落子方式.

这是一个有趣的工作, 代表了国际象棋引擎工作方式的重大变化. 当然, 它并不完美. 长颈鹿的一个缺点是神经网络比其他类型的数据处理慢得多. 马修赖说, 搜索相同数量的位置, 长颈鹿花费的时间比传统的国际象棋引擎要长10倍, .

但即使有这个劣势, 它也是有竞争力的. 马修赖说: "长颈鹿能够在现代主流个人电脑上以FIDE国际大师级别进行游戏. 相比之下, 顶级引擎是在超级大师的级别.

这仍然令人印象深刻. "与现在大多数国际象棋引擎不同的是, 长颈鹿不仅能够看得很远, 而且能够准确地评估狡猾的位置. 能够理解对于人类而言是直觉, 但却让象棋引擎琢磨很长一段时间的复杂位置概念, " 马修赖说. "在开场和完赛阶段, 这一点尤其重要. "

而这仅仅是一个开始. 马修赖说, 应该直截了当地用同样的方法来处理其他游戏. 一个例外是中国的传统围棋(Go), 在这个游戏中, 人类仍然比计算机对手拥有令人印象深刻的优势. 也许马修赖能破除这一优势.

参考文献: 长颈鹿: 使用深度强化学习下棋.(Giraffe: Using Deep Reinforcement Learning to Play Chess, arxiv.org/abs/1509.01549)

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
机器自学72小时堪比国际大师,深度学习到底有多厉害?
本文是雷锋网2015年9月份发出的文章,由知社学术圈王鹏编译,原标题《深度学习机器自学国际象棋72小时,媲美国际大师》,文章来源:MIT Technology Review。 谷歌旗下Deep MInd创始人宣布了谷歌在人工智能领域取得重要进展:开发出一款能够在围棋中击败职业选手的程序——AlphaGo,《Nature》杂志也以封面论文的形式, 介绍了AlphaGo击败欧洲围棋冠军樊麾,并将在 3 月和世界冠军李世乭对战。在此之前,有专家提到人工智能机器——“长颈鹿”,它可以通过自学从而像人类那样通过评
新智元
2018/03/14
8150
机器自学72小时堪比国际大师,深度学习到底有多厉害?
翻译 | 深度学习机器72小时自学国际象棋达到大师水平
本文在腾讯云+社区人工智能专栏首发, 为原创翻译文章. 文章正文部分以引用格式给出原文 导读 英文原文发布于2015年9月, 当时 Google 旗下 DeepMind公司 的 AlphaGo(即 阿尔法围棋)尚未战胜人类的职业围棋选手. 今天, 我们已经知道旧版战胜李世石和柯洁的 AlphaGo(包括后来的 AlphaGoMaster)都以深度学习作为技术基础, 而新版的 AlphaGoZero是在没有人类知识的条件下以神经网络为技术基础自学成才的机器. 本文介绍的下棋机器原理与Alpha Go相似
benny
2018/03/06
1K0
翻译 | 深度学习机器72小时自学国际象棋达到大师水平
AlphaZero最革命性的一点是,它没有棋子的概念
关注风云之声 提升思维层次 解读科学,洞察本质 戳穿忽悠,粉碎谣言 导读 AlphaZero下国际象棋的时候,最革命性的一点是,它没有棋子的概念。无论是人类高手还是过去的顶级AI,再怎么也是以棋子实力评估为基础的,被吃了大子会心疼,在这个基础上再去进行“重视中央”之类的局面评估理论。而AlphaZero却完全对棋子没有概念,只要它认为未来整体局势好,弃子根本不叫事。这次Deepmind新论文应该给出结论了,“MCTS+神经网络”就是先进生产力的代表。 2017年12月6号,Deepmind扔出了一篇论文
企鹅号小编
2018/02/11
1.5K0
AlphaZero最革命性的一点是,它没有棋子的概念
智能机器通过深度学习达到国际象棋大师水平
距离IBM的深蓝超级计算机击败国际象棋世界冠军加里·卡斯帕罗夫(Gary Kasparov)已经快过去20年了。此后,计算机性能不断提升,但象棋引擎工作仍主要依靠“暴力破解”,通过穷举法,即遍历一切可能的移动方式,走出最好的一步棋。相比计算机,人类所拥有的技巧主要是评估国际象棋的盘面局势,缩小最优棋路的搜索范围。 2015年9月,来自伦敦帝国学院的Matthew Lai开发出一款名为“Giraffe”的人工智能机器,它能通过自学来判断象棋的摆放位置和下步棋该怎么走,它完全颠覆了传统的国际象棋引擎,下棋方法更
人工智能快报
2018/03/07
8010
【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏
作者:闻菲,刘小芹,常佩琦 【新智元导读】或许“智能爆炸”不会发生,但永远不要低估人工智能的发展。推出最强围棋AI AlphaGo Zero不到50天,DeepMind又一次超越了他们自己,也刷新了世人对人工智能的认知。12月5日,包括David Silver、Demis Hassabis等人在内的DeepMind团队发表论文,提出通用棋类AI AlphaZero,从零开始训练,除了基本规则没有任何其他知识,4小时击败最强国际象棋AI、2小时击败最强将棋AI,8小时击败李世石版AlphaGo,连最强围棋AI
新智元
2018/03/20
1.6K0
【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏
IBM苏中:怎样利用深度学习、增强学习等方法提高信息处理效率
伴随着认知计算时代的到来,如何将我们计算机的信息处理能力与人类的认知能力相结合,从而提高我们的信息处理效率,是我们在目前所要思考的问题。本期清华大数据“技术·前沿”系列讲座我们邀请到IBM研究院研究总监、大数据及计算研究方向首席数据科学家苏中为大家带来题为《从深蓝到AlphaGo,从大数据到认知商业》的分享。 以下是数据派独家整理的讲座视频实录,后附文字版内容: 文字版干货整理如下: IBM研究院研究总监苏中 苏中:美国的达特茅斯于61年前提出人工智能一词,而人工智能的历史可以向前追溯很长的时间
数据派THU
2018/01/30
8370
IBM苏中:怎样利用深度学习、增强学习等方法提高信息处理效率
《自然》论文详解:AlphaGo 背后的深度神经网络和树搜索
Nature 封面论文:Mastering the game of Go with deep neural networks and tree search(通过深度神经网络和树搜索,学会围棋游戏) AlphaGo 给围棋带来了新方法,它背后主要的方法是 Value Networks(价值网络)和 Policy Networks(策略网络),其中 Value Networks 评估棋盘位置,Policy Networks 选择下棋步法。这些神经网络模型通过一种新的方法训练,结合人类专家比赛中学到的监督学习,
新智元
2018/03/14
4.3K0
《自然》论文详解:AlphaGo 背后的深度神经网络和树搜索
从"深蓝"到 AlphaGo丨AI 在游戏领域的升级打怪之路
可以说,AI的发展进化史就是AI在游戏领域的升级史。 SciShow是Youtube上热门的科普向脱口秀节目。它的内容包罗万象,无论什么问题在这里都会得到风趣又详尽的解答。在本次节目中,介绍了AI 是
CDA数据分析师
2018/02/08
1.4K0
从"深蓝"到 AlphaGo丨AI 在游戏领域的升级打怪之路
【Nature重磅封面】Google人工智能击败欧洲围棋冠军,3月挑战世界冠军!
围棋一直被视为人工智能最难破解的游戏。就在今天,《Nature》杂志以封面论文的形式,介绍了 Google DeepMind 开发的人工智能程序 AlphaGo,它击败了欧洲围棋冠军樊麾,并将在 3 月和世界冠军李世乭对战!Google 特地为此准备了 100 万美元奖金。 从国际象棋的经验看,1997 年人工智能第一次打败人类后,2006 年成为了人类在国际象棋的绝唱,自此之后人类没有战胜过最顶尖的人工智能国际象棋选手。在 AlphaGo 打败了欧洲围棋冠军后,世界冠军李世乭和 AlphaGo 的对弈,
新智元
2018/03/14
1.6K0
【Nature重磅封面】Google人工智能击败欧洲围棋冠军,3月挑战世界冠军!
Nature发文:深度学习系统为什么这么好骗?
几张贴纸就能「改变」交通标志识别结果,转个方向就看不出图中的动物种类,今天的人工智能系统经常会出现莫名其妙的 bug。最新一期《自然》杂志上的这篇文章向我们介绍了深度学习为什么如此容易出错,以及解决这些问题的研究方向。
机器之心
2019/10/12
9670
Nature发文:深度学习系统为什么这么好骗?
读《Nature》论文,看AlphaGo养成
作者授权转载 作者:龙心尘、寒小阳 ◆ ◆ ◆ 文章声明 博主是围棋小白,下棋规则都记不清楚,也没有设计过棋类AI程序。这篇文章主要是阅读《Nature》论文及关于AlphaGo的相关文章的学习心得。 本文的主要目的是增进分享,交流学习,方便初学者了解AlphaGo中的算法,以及一些机器学习中的常见思路。真正的工程实现过程远比本文介绍得复杂。 本文更多是启发式地进行阐述与分析,包括一些作者结合自己的理解进行的简化处理。文章中不严谨和理解不当之处,欢迎大家批评指出,我们努力修改完善。 ◆ ◆ ◆ 围棋的业
大数据文摘
2018/05/24
7320
围棋天团告负!1v5英雄“狗”背后的原理概括
今天,中国围棋峰会进行到了第四天,AlphaGo挑战两种未曾体验过的比赛:人机配对赛和1v5的团体赛。 对于全新的比赛形式,棋圣聂卫平与AlphaGo之父哈萨比斯谈了这样的问题:如果让柯洁与AlphaGo搭档,对阵另外一台AlphaGo,究竟哪一方更厉害?参与人机配对赛的古力九段,则在赛前表示:要努力配合好AlphaGo才能有希望。 不幸的是,配对赛战到中局,跟古力合作的AlphaGo不愿再配合他,径直就要投降……但古力被逆转得实在不甘,断然拒绝投降。于是,赢棋无望AlphaGo开始乱走,不到8手棋,古
AI科技大本营
2018/04/27
1K0
围棋天团告负!1v5英雄“狗”背后的原理概括
AlphaZero登上Science封面:从小白开始制霸多个游戏
此前不久,DeepMind 还推出了 AlphaFold,成功地根据基因序列预测出蛋白质的 3D 形状,将人工智能技术应用在了科学研究领域。
机器之心
2018/12/25
5780
AlphaZero登上Science封面:从小白开始制霸多个游戏
再进化!通用算法 AlphaZero 再攻克几种棋又有何难
本文介绍了 AlphaZero 是如何利用深度强化学习解决围棋问题的。首先,AlphaZero 在无任何人类指导的情况下,通过自我对弈的方式学会下围棋。然后,它利用蒙特卡洛树搜索和深度神经网络来评估局面和选择策略。最后,通过与人类世界冠军和之前的围棋 AI 进行比较,AlphaZero 证明了其强大的围棋下棋能力。
企鹅号小编
2017/12/27
9360
再进化!通用算法 AlphaZero 再攻克几种棋又有何难
DeepMind 最新发文:AlphaZero 的黑箱打开了
AlphaZero 表明神经网络可以学到人类可理解的表征。 作者 | 李梅 编辑 | 陈彩娴 国际象棋一直是 AI 的试验场。70 年前,艾伦·图灵猜想可以制造一台能够自我学习并不断从自身经验中获得改进的下棋机器。上世纪出现的“深蓝”第一次击败人类,但它依赖专家编码人类的国际象棋知识,而诞生于 2017 年的 AlphaZero 作为一种神经网络驱动的强化学习机器实现了图灵的猜想。 AlphaZero 的无需使用任何人工设计的启发式算法,也不需要观看人类下棋,而是完全通过自我对弈进行训练。 那么,它真的学习
AI科技评论
2023/04/12
3090
DeepMind 最新发文:AlphaZero 的黑箱打开了
卡斯帕罗夫自述:从深蓝到 AlphaGo,从狭义 AI 到通用 AI
【新智元导读】柯洁誓死战胜 AlphaGo 的豪言壮语言犹在耳, 20 年前第一个被计算机击败的人类冠军、国际象棋大师卡斯帕罗夫却表示,当年和深蓝相遇,既是他的幸运,也是他的诅咒。而20年后的今天,他丝毫不怀疑,每个职业都终将感受到 AI 带来的压力,否则就意味着人类停止发展,而人类劳动逐渐被人类的发明取代,这本身就是文明的历史。 “我会抱必胜心态、必死信念。我一定要击败阿尔法狗!”对于5月23日至27日在中国乌镇与围棋人工智能程序 AlphaGo (阿尔法狗)的对弈,目前世界排名第一的中国职业九段柯洁放
新智元
2018/03/27
2.2K0
卡斯帕罗夫自述:从深蓝到 AlphaGo,从狭义 AI 到通用 AI
不只是围棋!AlphaGo Zero之后DeepMind推出泛化强化学习算法AlphaZero
选自arXiv 作者:David Silver等 机器之心编译 在 DeepMind 发表 Nature 论文介绍 AlphaGo Zero 之后,这家公司一直在寻求将这种强大算法泛化到其他任务中的可能性。昨天,AlphaGo 研究团队提出了 AlphaZero:一种可以从零开始,通过自我对弈强化学习在多种任务上达到超越人类水平的新算法。据称,新的算法经过不到 24 小时的训练后,可以在国际象棋和日本将棋上击败目前业内顶尖的计算机程序(这些程序早已超越人类世界冠军水平),也可以轻松击败训练 3 天时间的 A
机器之心
2018/05/09
7590
不只是围棋!AlphaGo Zero之后DeepMind推出泛化强化学习算法AlphaZero
从AlphaGo到Libratus,百页白皮书详解机器博弈(附报告下载地址)
AI科技评论按:计算机博弈也称机器博弈(Computer Games)。如果按英语字面意义来看,这一名词应该理解为「计算机游戏」。但从事计算机棋牌竞技研究的科学家们,所定义的「Computers Games」则是计算机像人一样会思考和决策的棋类游戏。为了与计算机游戏进行区隔,Computer Games 采用的是「机器博弈」或「计算机博弈」这一具有指代性的译名。 1997 年,IBM 深蓝战胜世界棋王卡斯帕罗夫成为了机器博弈的第一个里程碑,而在近 20 年后,AlphaGo 又横扫了围棋世界冠军李世石,升级
AI科技评论
2018/03/14
2.2K0
从AlphaGo到Libratus,百页白皮书详解机器博弈(附报告下载地址)
又一棋坛AI崛起:AlphaZero自学4小时击败最强国际象棋程序,8小时击败AlphaGo
谷歌旗下人工智能公司DeepMind将围棋AI转战国际象棋和日本将棋领域——无须人类智慧加持,已胜券在握。 AlphaZero是由谷歌旗下DeepMind研发的通用棋类AI,以不到四小时的自学击败了世界最强的国际象棋程序。 重新改进的人工智能程序AlphaZero曾多次击败世界顶级围棋选手,并扩大到学习其他棋类项目。它从零开始学习国际象棋,仅用4小时,就在100盘比赛中击败了世界顶级国际象棋程序 Stockfish 8。 据在康奈尔大学图书馆的arXiv上发表的一篇未经同行评审的研究论文称,在这100场
企鹅号小编
2018/03/05
1.4K0
又一棋坛AI崛起:AlphaZero自学4小时击败最强国际象棋程序,8小时击败AlphaGo
DeepMind创始人:AlphaGo破解围棋3000年奥义,超越人类认知极限
【新智元导读】AlphaGo之父杰米斯·哈萨比斯(Demis Hassabis)近日在母校英国剑桥大学做了一场题为“超越人类认知的极限”的演讲,解答了世人对于人工智能,对于阿尔法狗的诸多疑问——过去3
新智元
2018/03/27
1.3K0
DeepMind创始人:AlphaGo破解围棋3000年奥义,超越人类认知极限
推荐阅读
机器自学72小时堪比国际大师,深度学习到底有多厉害?
8150
翻译 | 深度学习机器72小时自学国际象棋达到大师水平
1K0
AlphaZero最革命性的一点是,它没有棋子的概念
1.5K0
智能机器通过深度学习达到国际象棋大师水平
8010
【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏
1.6K0
IBM苏中:怎样利用深度学习、增强学习等方法提高信息处理效率
8370
《自然》论文详解:AlphaGo 背后的深度神经网络和树搜索
4.3K0
从"深蓝"到 AlphaGo丨AI 在游戏领域的升级打怪之路
1.4K0
【Nature重磅封面】Google人工智能击败欧洲围棋冠军,3月挑战世界冠军!
1.6K0
Nature发文:深度学习系统为什么这么好骗?
9670
读《Nature》论文,看AlphaGo养成
7320
围棋天团告负!1v5英雄“狗”背后的原理概括
1K0
AlphaZero登上Science封面:从小白开始制霸多个游戏
5780
再进化!通用算法 AlphaZero 再攻克几种棋又有何难
9360
DeepMind 最新发文:AlphaZero 的黑箱打开了
3090
卡斯帕罗夫自述:从深蓝到 AlphaGo,从狭义 AI 到通用 AI
2.2K0
不只是围棋!AlphaGo Zero之后DeepMind推出泛化强化学习算法AlphaZero
7590
从AlphaGo到Libratus,百页白皮书详解机器博弈(附报告下载地址)
2.2K0
又一棋坛AI崛起:AlphaZero自学4小时击败最强国际象棋程序,8小时击败AlphaGo
1.4K0
DeepMind创始人:AlphaGo破解围棋3000年奥义,超越人类认知极限
1.3K0
相关推荐
机器自学72小时堪比国际大师,深度学习到底有多厉害?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档