选自int8 Blog 机器之心编译 我们都知道 DeepMind 的围棋程序 AlphaGo,以及它超越人类的强大能力,也经常会听到「蒙特卡洛树搜索」这个概念。事实上,蒙特卡洛树搜索是在完美信息博弈场景中进行决策的一种通用技术,除游戏之外,它还在很多现实世界的应用中有着广阔前景。本文中,我们会以 AlphaGo 为例子,对这一方法进行详细介绍。 长久以来,学术世界一直认为计算机在围棋这个复杂游戏上达到超越人类的水平是几乎无法实现的。它被视为人工智能的「圣杯」——一个我们原本希望在未来十年挑战的遥远里程碑。
版权申明:本文为博主窗户(Colin Cai)原创,欢迎转帖。如要转贴,必须注明原文网址 http://www.cnblogs.com/Colin-Cai/p/8457744.html 作者:窗户 QQ:6679072 E-mail:6679072@qq.com 前几天,看到博客园里有人给了一道博弈: 事先给定一个正整数N,两个人轮流给出一个2~9的整数。若之前两人所有的数和当前自己报的数,其乘积大于等于N,则赢。 比如给定数为8,A先报数8,则A赢;给定数为100
2018 区块链技术及应用峰会(BTA)·中国 倒计时 3 天 2018,想要follow最火的区块链技术?你还差一场严谨纯粹的技术交流会——2018区块链技术及应用峰会(BTA)·中国将于2018年3月30-31日登陆北京喜来登长城饭店。追求专业性?你要的这里全都有:当超强嘉宾阵容遇上业界同好的脑洞大联欢,1+1=无限可能,目前门票预购火热进行中。 活动详情: http://dwz.cn/7FI1Ch 编译 | reason_W 出品 | 人工智能头条(公众号ID:AI_Thinker) 长久以来,计算
最近正在做一个人工智能的中国象棋,所以不可避免的接触到了博弈论,因为考虑到以后还会有所涉及 (alpha-beta search),所以写成了一片文章
读书笔记: 博弈论导论 - 07 - 完整信息的动态博弈 预备知识 完整信息的动态博弈 预备知识 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。 动态博弈(Dynamic Games) 静态博弈是每个玩家同时(并且在不知道其他玩家选择的情况下)做出选择。 动态博弈引进了玩家做出选择的先后次序。 注意:玩家i做出了选择后,玩家j知道玩家i做出了选择,但是不一定知道玩家i做出了什么选择。 扩展形式博弈(The Extensive-Form
graphics模块在相关文件中已经提供,就是一个py文件,直接放在当前路径或者放到python安装文件夹下的site-packages文件夹内均可。
机器博弈是人工智能领域的重要分支,它的研究对象多以复杂的棋牌类智力游戏为主,已经得到解决的棋类游戏,几乎全部都应归功于机器博弈近半个世纪的发展。计算机解决问题的优势在于能把不易解析的问题,借助于现代计算机的运算速度优势枚举出所有的合理情形而得解;然而,博弈问题的复杂程度决定了它不能过度依赖机器的计算能力。许多待解决的或已经解决的棋类,其状态空间复杂度或博弈树复杂度量级都太过庞大,所以我们需要添加约束,并且采用合理的算法进行优化。
你还记得史努比这只可爱的小狗吗?它的主人是查理 · 布朗(Charlie Brown),那个头上只有几根毛的可爱的男孩子。其实他俩是漫画《花生》(Peanut)里的角色,其中还有一个女孩子露西(Lucy)。漫画里有一个反复出现的情节,说的是露西总是用手将橄榄球按在地上,然后招呼查理去踢那个球。但每次当查理奋力一踢时,露西总会将橄榄球拿走,一脚踢空的查理仰天跌跤,旁边的露西却哈哈大笑。
最近看到个两年前的AI案例,使用博弈树搜索算法实现AI下五子棋,什么是博弈树搜索呢?博弈就是相互采取最优策略斗争的意思。比如说下五子棋,你下一步,我下一步,这就是相互博弈。假设棋盘的大小是10*10,那就是100个点可以下, 那么第一步可选择的可能就是100, 假设是下在了A点, 那么第二步就有除了A点的剩下的99个点的可能。 假设下在了B点, 那么第二步就有除了B点的剩下的99个点的可能,假设下在了C点......
👆点击“博文视点Broadview”,获取更多书讯 强化学习,除了可以用于单个强化学习智能体和环境的相互作用,也可以用于两个或者多个智能体在某个强化学习环境下的博弈。 关于这种类型的算法,最有名的应该是蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)。 随着AlphaGo和AlphaZero算法在围棋、国际象棋和将棋等棋类领域的广泛应用,并且在这些领域内均取得了相比传统的Alpha-Beta 剪枝算法更加优异的性能,蒙特卡洛树搜索算法作为这些智能体使用的算法也被越来越多的人研究
有人说程序=算法+数据结构,虽说这样的认为有失偏颇,一个程序决定的东西实在太多,但某些方面也说明了算法是很重要的(数据结构承上启下,最终也是要为算法服务)。 算法是用来解决问题的,要理解什么是算法,先要明白什么是问题。而无论是狭义还是广义,算法都是用来处理问题,所以两者放在一起来理解会比较方便。 一、可形式化的问题 我们在《算法导论》、《数据结构》里面遇到的问题基本上都是可形式化的问题,也就是可以用数学语言准确描述的问题。此类问题定义明确,是数学意义上狭义的问题。问题的解决必须在有限的步骤内
近日,DeepMind的AI智能体DeepNash,在西洋陆军棋(Stratego)中花式战胜专业级人类玩家,成功跻身Top 3。
作者 | 西西、王晔 编辑丨陈彩娴 近日,人工智能国际顶会 AAAI 2022 正在召开,大会论文奖也陆续公布。AI科技评论获知,中国科学院自动化所的兴军亮教授团队获得 AAAI 2022 的卓越论文奖(Distinguished Paper)! AAAI 的英文全称是“Association for the Advance of Artificial Intelligence”(美国人工智能协会)。该协会是人工智能领域的主要学术组织之一,具有一定的学术权威性。 兴军亮团队此次获奖的工作是他们所开发的轻量型
AI科技评论按:计算机博弈也称机器博弈(Computer Games)。如果按英语字面意义来看,这一名词应该理解为「计算机游戏」。但从事计算机棋牌竞技研究的科学家们,所定义的「Computers Games」则是计算机像人一样会思考和决策的棋类游戏。为了与计算机游戏进行区隔,Computer Games 采用的是「机器博弈」或「计算机博弈」这一具有指代性的译名。 1997 年,IBM 深蓝战胜世界棋王卡斯帕罗夫成为了机器博弈的第一个里程碑,而在近 20 年后,AlphaGo 又横扫了围棋世界冠军李世石,升级
上篇文章,介绍了一下五子棋 AI 的入门实现,学完之后能用,就是 AI 还太年轻,只能思考一步棋。
选自arXiv 机器之心报道 距离 NIPS 2017 开幕还有半月左右,但相关奖项的信息已经开始流出。CMU 教授 Tuomas Sandholm 的个人主页显示,他和其博士生 Noam Brown
演讲嘉宾:陈小平 【新智元导读】新智元AI WORLD 2017 世界人工智能大会,中国科技大学教授陈小平教授做了以《机器人灵巧性——人工智能的新挑战》为题的分享。他介绍了以AlphaGo为代表的AI新进展、传统工业机器人的发展、当前智能机器人面临的新挑战和机器人灵巧性技术。提出现有突破重点在于:在确定性问题领域中,智能系统建造的工程可行性得到了显著提升。对于非确定性问题领域,人工智能和机器人仍然存在巨大的理论和工程挑战,机器人灵巧性是解决不确定性领域问题的一条新途径。 日前,波士顿动力发布机器人Atlas
中科院自动化所兴军亮研究员领导的博弈学习研究组提出了一种高水平轻量化的两人无限注德州扑克AI程序——AlphaHoldem。其决策速度较DeepStack速度提升超1000倍,与高水平德州扑克选手对抗的结果表明其已经达到了人类专业玩家水平,相关工作被AAAI 2022接收。 从人工智能学科诞生伊始,智能博弈研究就是人工智能技术发展创新的沃土,并且一直都是衡量人工智能发展水平的重要评价准则[1][2][3][4]。2016年,AlphaGo[2]以4:1的成绩战胜围棋世界冠军李世石,这一事件被认为是智能博弈技
>搜索策略(Search Strategies)//详细请参见http://blog.csdn.net/racaljk/article/details/18887881
机器之心编译 参与:路、晓坤 CMU 冷扑大师团队在读博士 Noam Brown、Tuomas Sandholm 教授和研究助理 Brandon Amos 近日提交了一个新研究:德州扑克人工智能 Modicum,它仅用一台笔记本电脑的算力就打败了业内顶尖的 Baby Tartanian8(2016 计算机扑克冠军)和 Slumbot(2018 年计算机扑克冠军)。此前,冷扑大师的论文《Safe and Nested Subgame Solving for Imperfect-Information Ga
本文来自微软研究院AI头条(MSRAsia),AI 科技评论获授权转载,如需转载请联系微软研究院AI头条。
【导读】NIPS 2017 开幕还有几天,最佳论文已经公布,CMU教授Tuomas Sandholm 和其博士生 Noam Brown 《Safe and Nested Subgame Solving
计算机科学家们一直对游戏 AI 乐此不疲,原因并非为了精进棋艺,而是希望在此过程中不断提升人工智能的算法和处理复杂问题的能力。实际上,游戏 AI 的历史几乎和人工智能的历史一样长,很多关于人工智能的研究,都起源于研究如何构建能够完成游戏的智能体(agent)。游戏 AI 的进化,始终与 AI 研究进展相生相伴。
Every-SG 给定一张无向图,上面有一些棋子,两个顶尖聪明的人在做游戏,每人每次必须将可以移动的棋子进行移动,不能移动的人输 博弈分析 题目中的要求实际是“不论前面输与否,只要最后一个棋子胜利,那么就算胜利” 这样的话,能赢得游戏必须赢 因为两个人都顶尖聪明,因此当一个人知道某一个游戏一定会输的话,它一定会尽力缩短游戏的时间,当它知道某一个游戏一定会赢的话,一定会尽力延长游戏的时间(毕竟都是为了追求最终的胜利嘛233) 但是!我们怎么来处理时间的?暴力枚举博弈树肯定是不可取的,so我们来研究一下这
感谢阅读「美图数据技术团队」的第 18 篇原创文章,关注我们持续获取美图最新数据技术动态。
读书笔记: 博弈论导论 - 08 - 完整信息的动态博弈 可信性和序贯理性 可信性和序贯理性(Credibility and Sequential Rationality) 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。 序贯理性和逆向归纳法(Sequential Rationality and Backward Induction) 序贯理性(Sequential Rationality) 序贯理性是一个原则:在博弈树的每一个信息集上,
【新智元导读】AlphaGo 系统基于树搜索,由神经网络驱动。然而,所有这些技术都不是新的,也被其他围棋 AI 的开发者使用。那么,是什么让 AlphaGo 如此特别?来自德国和俄罗斯的几位研究人员在《Lessons Learned From AlphaGo》一文中探讨了这一问题。他们指出,AlphaGo 实施的每一个细节都是多年研究的结果,而它们的融合才是 AlphaGo 成功的关键。 论文地址:http://ceur-ws.org/Vol-1837/paper14.pdf 围棋对 AI 的挑战难点在于棋
机器之心原创 参与:李泽南、杜夏德 今天下午 13:37,「中国乌镇·围棋峰会」人机大战的第二场比赛落下帷幕。在耗时 3 小时 7 分钟的比赛后,柯洁投子认负,AlphaGo 取得了胜利。 在 23 日的首轮比赛中,AlphaGo 以四分之一子的优势,击败了世界第一人类围棋手柯洁。赢得比赛后,这场人机大战引起了人们广泛的关注和讨论。DeepMind 也在赛后分析解读了 AlphaGo 背后的技术,表示当前版本 AlphaGo Master 的棋力,较与李世乭对弈的 AlphaGo 版本有三子提升,就连柯洁本
因为两个人都顶尖聪明,因此当一个人知道某一个游戏一定会输的话,它一定会尽力缩短游戏的时间,当它知道某一个游戏一定会赢的话,一定会尽力延长游戏的时间(毕竟都是为了追求最终的胜利嘛233)
本书英文版: Artificial Intelligence and Games - A Springer Textbook
博弈论(Game Theory) - 01 - 前传之占优战略均衡 开始 我们现在准备攀爬博弈论的几座高峰。 我们先看看在纳什均衡产生之前,博弈论的发展情况。 我们的第一座高峰是占优战略均衡。 囚徒困境(prisoner's dilemma)和占优战略均衡 囚徒困境 经典的囚徒困境如下: 警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择: 若一人认罪并作证检控对方(相关术语称“背叛”对方),而对方保持抵赖,此人将即时获释,沉默者
当时还剩下最后一个问题,那就是,我们的策略一定能够得到平局结果吗?如果我们还想要得到C4范围内的棋局结果,还需要做哪些策略定制呢?
数学建模主要模型不单独写,参考数学模型第四版教材即可,只给出编程中一些重要的算法目录,如果有方法漏写,请评论区指出,笔者添加,谢谢QAQ
原作者 Mirek Stanek 编译 CDA 编译团队 本文为 CDA 数据分析师原创作品,转载需授权 前言 本月 23 日- 27 日,在乌镇主办“中国乌镇·围棋峰会”中,备受瞩目的要数中国围棋现役第一人、天才少年柯洁与Google AlphaGo(阿尔法狗)人工智能机器人的巅峰对决。AlphaGo与柯洁对弈的三局比赛,分别于 5 月 23 、25、27 日进行。 在 23 日和 25 日的对决中,柯洁虽然发挥神勇,但还是两局均战败。AlphaGo 2-0 领先,已经赢得了三番棋的胜利。 对于人类来说
一般要做到50行以内的程序不用调试、100行以内的二分钟内调试成功。ACM主要是考算法的,主要时间是花在思考算法上,不是花在写程序与debug上。
选自Science 作者:Noam Brown、Tuomas Sandholm 机器之心编辑部 Libratus 提出了一种在大型状态空间、隐藏信息中有效地应对博弈论推理挑战的方法;它在 12 万手单挑无限注德州扑克比赛中击败了四个顶尖的人类选手,成功解决了处理不完美信息博弈的领先基准问题与长期存在的挑战。由于现实世界策略交互中的隐藏信息无处不在,因此 Libratus 引入的范式将在 AI 的未来发展和广泛应用中发挥重要作用。 近年来,人工智能已经取得了非常大的进步。很多情况下,这种进步体现在基准游戏中和
美赛马上来了,总结一下这些年参赛的算法(我打编程位),数学建模主要模型不单独写,参考数学模型第四版教材即可,只给出编程中一些重要的算法目录,如果有方法漏写,请评论区指出,笔者添加,谢谢QAQ
注意:迭代消除的过程同样也可以使用混合策略,比如说第二张图中,如果U行与D行以相同概率混合,混合结果同样严格占优M行,同样可以消除掉M行,虽然这里M行可以使用纯策略消除。因此给与我们提示,如果纯策略消除不掉的话或许可以尝试混合策略消除。
大数据文摘转载自学术头条 对棋类游戏的掌握程度,一直是判断人工智能(AI)是否真正智能的依据之一,因为这类游戏可以被用来评估 AI 代理在受控环境下自主开发和执行策略的能力。 如今,AI 在此前尚未掌握的经典棋类游戏 Stratego(西洋陆军棋)中,表现出了人类专家级一般的水准—— 以 97% 的最低胜率击败了其他 AI 机器人;在 Gravon 平台上与人类专业玩家对弈,取得了 84% 的总胜率,在年初至今和历史排行榜上都排在前三名。 值得注意的是,这一惊人表现是在没有部署任何搜索方法的
读书笔记: 博弈论导论 - 总结 总结 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记的总结。 博弈论 博弈论是关于智能理性决策者的协作和冲突的数学模型的研究。 博弈论的目的可以说是研究寻找博弈均衡的方法。 博弈论的直接目标不是找到一个玩家的最佳策略,而是找到所有玩家的最理性策略组合。 我们称最理性策略组合为均衡。 博弈论(也叫逆向博弈论)的另外一个作用是机制设计,根据期望的结果,设计一个博弈体系。 博弈论的分类 这本书中将博弈论的只是分
数据结构 数组 Array 栈 Stack 队列 Queue 优先队列(Priority Queue, heap) 链表 LinkedList(single/double) Tree/ Binary Tree Binary Search Tree HashTable Disjoint Set Trie BloomFliter LRU Cache 算法分类 线性结构 莫队 (Mo’s Algorithm) 前缀和 基本数组 向量 链接表(linked list) 栈(stack) 队列 块状链表
夏乙 问耕 假装发自加州 量子位 出品 | 公众号 QbitAI 这几天,AI圈人士纷纷前往洛杉矶附近风景宜人的长滩。 他们在这里排长队、晒太阳、看大海、听嘻哈、谈穿着,以及……顺便参加NIPS 20
最近又开始读《智能时代--大数据和智能革命重新定义未来》,这本书是由吴军博士写的,目前读完了第一章,但这篇博客主要写的是序言部分,算是我对机器学习和大数据相关知识的一个入门吧,也由此萌生了用通俗的语言写博客的想法。我想把看的书,学的知识,都总结下来,写成博客,变成一种自己的总结和锻炼文笔的机会。
AI 科技评论按:昨天晚上,卡耐基梅隆大学计算机系在读博士生 Noam Brown 和计算机系教授 Tuomas Sandholm 来到 reddit 的机器学习分版,和网友们一起来了一场「你问我答」(ask me anything)。这两个名字大家现在也比较眼熟了,他们就是今年早些时候在人机大赛中首次打败职业扑克选手的 AI「冷扑大师」(Libratus)的创造者。 具体来说,在持续了 20 天、4 位人类职业选手分别上阵的十二万手一对一无限注德州扑克中,四位职业选手一共输给「冷扑大师」1766250
大数据文摘转载自AI科技大本营 编译 & 整理:杨阳 记得豆瓣高分电影《美丽心灵》中的约翰·纳什吗? 作为获得诺贝尔经济学奖的数学家,纳什在博弈论、微分几何学,以及偏微分方程等各个领域都作出卓越贡献。为表彰他在非合作博弈理论中对均衡(纳什均衡)的开创性分析,1994年瑞典中央银行授予纳什诺贝尔经济学奖。 纳什均衡在社科中的应用可谓成功,而在科技领域中,也经常引用博弈论的逻辑来进行技术实现,比如,通过密码学和博弈论的结合实现大数据安全。当下,这一逻辑也开始应用在AI的算法上。 DeepNash——Deep
DeepMind被谷歌收购之后,一直开启着“败家烧”的模式。不过也着实“烧”出了不少成果。曾经大火的AlphaGo,编程机器人系统Alpha Code,智能体Gato……都是让业界认可的手笔。不过,尽管在AI技术上全面开花,DeepMind仍没有放弃曾经的看家本领——AI棋牌竞技。随着DeepNash的推出,棋牌界出现又一乱入者,因为它超越人类专业棋手的技能,登上了近期的《Nature》杂志。
机器之心报道 机器之心编辑部 DeepMind在游戏AI领域又有了新成绩,这次是西洋陆军棋。 在AI游戏领域,人工智能的进展往往通过棋盘游戏进行展现。棋盘游戏可以度量和评估人类和机器如何在受控环境中发展和执行策略。数十年来,提前规划的能力一直是AI在国际象棋、跳棋、将棋和围棋等完美信息游戏以及扑克、苏格兰场等不完美信息游戏中取得成功的关键。 西洋陆军棋(Stratego)已经成为AI研究的下一批前沿领域之一。该游戏的阶段和机制的可视化图如下1a所示。该游戏面临以下两个挑战。 其一,Stratego 的博
最近,加州大学伯克利分校(UC Berkeley)发布了2018秋季人工智能导论课程的全部资源,学校课程代号CS 188。
机器之心原创 作者:李泽南 AAAI 2018 大会已于 2 月 2 日在美国新奥尔良开幕。在此之前,大会获奖论文的结果已经放出,阿尔伯塔大学提交的论文《Memory-Augmented Monte Carlo Tree Search》获得了 AAAI 2018 大会的杰出论文奖。该论文作者分别为博士生 Chenjun Xiao、梅劲骋与教授 Martin Müller。 Chenjun Xiao 硕士与博士阶段均就读于阿尔伯塔大学,师从 Martin Müller 教授。 梅劲骋本科毕业于华南理工大学,研
领取专属 10元无门槛券
手把手带您无忧上云