开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

棋盘游戏AI的参数优化

是指通过调整AI算法中的参数，以提高AI在棋盘游戏中的表现和性能。参数优化是一个重要的步骤，可以使AI更加智能和适应不同的游戏场景。

在棋盘游戏AI的参数优化中，常见的参数包括搜索深度、评估函数权重、启发式搜索算法中的参数等。下面将对这些参数进行详细介绍：

搜索深度：搜索深度是指AI在决策时向前搜索的步数。增加搜索深度可以提高AI的决策能力，但也会增加计算复杂度。通常情况下，搜索深度需要根据游戏的复杂度和计算资源进行合理的设置。
评估函数权重：评估函数是用来评估当前棋局的好坏程度的函数。通过调整评估函数中各个特征的权重，可以影响AI对不同棋局的评估结果。优化评估函数权重可以使AI更加准确地评估棋局，从而做出更好的决策。
启发式搜索算法参数：启发式搜索算法是一种基于经验的搜索算法，通过设置不同的参数可以影响搜索的策略和效果。例如，Alpha-Beta剪枝算法中的参数剪枝顺序、搜索顺序等都可以进行优化。

棋盘游戏AI的参数优化可以通过以下步骤进行：

收集数据：收集大量的棋局数据，包括不同的棋局状态和AI的决策结果。这些数据可以用于训练和评估AI的性能。
设计评估函数：根据游戏规则和特点，设计一个合适的评估函数，用于评估当前棋局的好坏程度。
参数初始化：初始化AI算法中的参数，可以使用随机值或者经验值进行初始化。
参数优化：使用优化算法（如遗传算法、梯度下降等）对参数进行优化，使AI在训练数据上的表现逐渐提升。
验证和调整：使用验证数据集对优化后的AI进行评估，根据评估结果调整参数，直到达到预期的性能。

在腾讯云中，可以使用以下产品来支持棋盘游戏AI的参数优化：

腾讯云AI开放平台：提供了丰富的人工智能服务和工具，包括图像识别、语音识别、自然语言处理等，可以用于棋盘游戏AI的开发和优化。
腾讯云云服务器（CVM）：提供高性能的云服务器实例，可以用于训练和部署棋盘游戏AI模型。
腾讯云数据库（TencentDB）：提供可靠的数据库服务，可以用于存储和管理棋盘游戏AI的训练数据和模型参数。
腾讯云容器服务（TKE）：提供容器化的部署环境，可以方便地部署和管理棋盘游戏AI的应用程序。

总结起来，棋盘游戏AI的参数优化是通过调整AI算法中的参数，以提高AI在棋盘游戏中的表现和性能。通过收集数据、设计评估函数、参数初始化、参数优化和验证调整等步骤，可以逐步优化AI的性能。在腾讯云中，可以利用AI开放平台、云服务器、数据库和容器服务等产品来支持棋盘游戏AI的参数优化。

相关搜索:JavaScript中有多人棋盘游戏的框架吗？计算棋盘游戏版图(GO)背后的逻辑为tic tac toe游戏创建特定的棋盘图像中的可点击元素- web棋盘游戏康威的生命游戏创造棋盘和开启细胞一款棋盘游戏的可视化 gan的ai游戏代码 Java游戏:根据玩家的位置限制棋盘的可见性游戏AI的Java规则引擎用于"RaceTrack"游戏的AI算法用于棋盘游戏的语言(flash或HTML5/JS)重新定位当前使用Tkinter网格定位的棋盘游戏在three.js中制作突破游戏-检测棋盘的末端我如何开始用游戏计数器填充我的棋盘？linux 的jvm参数优化 linux的内核参数优化 linux内核参数的优化优化游戏角度内的距离检查如何在处理过程中修复棋盘游戏棋子的移动 iPad/Phonegap DHTML游戏的JavaScript速度优化？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

棋盘游戏游戏在人工智能游戏学习中的教育与研究

原文标题：General Board Game Playing for Education and Research in Generic AI Game Learning

03

论强化学习的根本缺陷

AI 科技评论按：本文来自斯坦福大学博士生 Andrey Kurenkov 在 The Gradient 上发表的文章。

01

5 款Linux平台上的棋牌游戏

传统意义上，游戏功能是Linux的弱项之一。近年来，由于Steam，GOG和其他将商业游戏平台的努力，这种情况有所改变，但是这些游戏通常不是开源的。当然，你可以在开源操作系统上玩游戏，但这对于开源纯粹主义者而言还不够。

00

论强化学习的根本缺陷

AI 研习社：本文来自斯坦福大学博士生 Andrey Kurenkov 在 The Gradient 上发表的文章。

02

AAAI 2020 | 清华大学：棋盘游戏做辅助，进行跳跃式标注（视频解读）

本文是对清华大学完成，被 AAAI2020 录用的论文《Solving SequentialText Classification as Board-Game Playing》进行解读。

01

ThreatGEN：Red vs. Blue--在游戏中学习网络安全技能

Derezzed Inc.（dbaThreatGEN）是一家美国小企业，位于休斯顿德克萨斯州，目前专注于新兴技术应用领域，从事网络安全（工控安全）培训、工控安全服务咨询及工控安全威胁监控的解决方案。在网络安全（工控安全）培训服务中，该公司使用先进的计算机游戏引擎构建了网络安全（工控安全）培训平台，使得该平台基于游戏化的规则结合开发的系列工控安全培训课程TGICS101、TGICS201和TGICS301进行工控安全培训。在其他的服务解决方案中，工控安全服务咨询及工控安全威胁监控均依托该公司的资深工控安全专家的经验进行实施，其创始团队成员编写《黑客大曝光--工业控制系统》一书，目前正在编写一本最新的工控安全渗透书籍，工控安全专家具有较深厚的工控安全实战经验。该公司创立时间比较久远，公司的产品和技术方向也跟随这最新技术的发展而不断变化。相对于工控安全领域，该公司是新人，在技术创新上，采用目前最流行的网络安全游戏化和人工智能化培训模式构建网络安全（工控安全）培训课程及体系。

04

对人胜率84%，DeepMind AI首次在西洋陆军棋中达到人类专家水平

机器之心报道机器之心编辑部 DeepMind在游戏AI领域又有了新成绩，这次是西洋陆军棋。在AI游戏领域，人工智能的进展往往通过棋盘游戏进行展现。棋盘游戏可以度量和评估人类和机器如何在受控环境中发展和执行策略。数十年来，提前规划的能力一直是AI在国际象棋、跳棋、将棋和围棋等完美信息游戏以及扑克、苏格兰场等不完美信息游戏中取得成功的关键。西洋陆军棋（Stratego）已经成为AI研究的下一批前沿领域之一。该游戏的阶段和机制的可视化图如下1a所示。该游戏面临以下两个挑战。其一，Stratego 的博

03

完爆阿尔法狗元，DeepMind用5000台TPU训练出新算法，1天内称霸3种棋类

本文介绍了DeepMind在AI领域的最新成果——AlphaZero，它可以在一天内自主学会下国际象棋、将棋和围棋，且超越了所有旧版AI。AlphaZero通过蒙特卡洛树搜索和强化学习，在每种游戏中挖掘数千万种走法，迅速成为专家。尽管AlphaZero在3种游戏中表现卓越，但离真正的人类智能还有很长的路要走。

00

DeepMind完爆AlphaGo，1天内就称霸3种棋类

本文介绍了DeepMind在围棋、国际象棋和将棋三个棋类上实现超人智能的AlphaZero程序，该程序在一天内自学成才，并在8小时内击败了之前最强的围棋程序AlphaGo Zero。AlphaZero使用了80个TPU和12个CPU，训练了70万步，并在30分钟内完成了对围棋、国际象棋和将棋的自学。AlphaZero通过蒙特卡洛树搜索和强化学习来评估游戏状态，并尝试不同的策略以找到最佳动作。尽管AlphaZero在三种游戏中表现出色，但它仅关注棋类游戏，而不涉及其他领域，并且目前还无法像人类那样在多种领域灵活运用。AlphaZero在人工智能领域取得了重要突破，但仍需进一步研究以解决其局限性。"

00

完爆阿尔法狗元，DeepMind用5000台TPU训练出新算法，1天内称霸3种棋类

大数据文摘作品作者：姜范波、Aileen、Yawei Xia、龙牧雪、魏子敏距离阿尔法狗元版本刷屏一个多月时间，阿尔法狗又进化了，这次不光可以玩围棋，不再是“狗”了。我一点也不惊讶。在用阿尔法狗（AlphaGo）和阿尔法狗元（AlphaGo Zero）称霸围棋世界后，当地时间周二晚，DeepMind的研究组宣布已经开发出一个更为广泛的阿尔法元（AlphaZero）系统，它可以训练自己在棋盘，将棋和其他规则化游戏中实现“超人”技能，所有这些都在一天之内完成，并且无需其他干预，战绩斐然： 4个小时成为了世

04

非得从零开始学习？扒一扒强化学习的致命缺陷

Deepmind在Alphago上的成就把强化学习这一方法带入了人工智能的主流学习领域，【从零开始学习】也似乎成为了抛弃人类先验经验、获取新的技能并在各类游戏击败人类的“秘诀”。来自斯坦福的Andrey Kurenkov对强化学习的这一基础提出了质疑。本文中，他从强化学习的基本原则及近期取得的成就说起，肯定了其成果，也指出了强化学习的基础性局限。大数据文摘对本文进行了精华编译。

00

DeepMind的机器学习模型MuZero是如何学会下棋的

DeepMind在去年年底发表在《科学》杂志上的一篇论文中，详细介绍了AlphaZero，这是一种人工智能系统，可以自学如何掌握国际象棋、日本象棋“将棋”的变体以及中国的围棋。在这些棋种的竞赛中，AlphaZero都成功击败了世界冠军。

01

AI属于00后！10岁女孩开发世界首款AI桌游，13岁少年用AI检测胰腺

今天的故事主人公是一个13岁的男孩Rishab Jain和一个10岁的女孩Samaira Mehta。

02

人类反超 AI：DeepMind 用 AI 打破矩阵乘法计算速度 50 年记录一周后，数学家再次刷新

大数据文摘转载自AI科技评论作者 | 李梅、施方圆编辑 | 陈彩娴 10 月 5 日，AlphaTensor 横空出世，DeepMind 宣布其解决了数学领域 50 年来一个悬而未决的数学算法问题，即矩阵乘法。AlphaTensor 成为首个用于为矩阵乘法等数学问题发现新颖、高效且可证明正确的算法的 AI 系统。论文《Discovering faster matrix multiplication algorithms with reinforcement learning》也登上了 Nature 封面

01

后围棋时代：AlphaGo真正的下一步，围绕TPU为谷歌谋利

【新智元导读】从经济的角度，AlphaGo对谷歌意味着什么？围棋，这个拥有2500年历史的中国传统游戏，被认为是现存最困难而且最复杂的棋盘游戏之一，也曾被认为是计算机尚未掌握的最后一个游戏。19×19的棋盘格子上的可能走法据称超过了整个已观测宇宙的原子数。围棋的玩法是对弈双方（黑子和白子）交替在棋盘网格落子，目标是围地吃字，以所围“地”的大小决定胜负。现在，DeepMind 开发的人工智能围棋程序 AlphaGo 征服了这个古老游戏。一个时代的结束 5月，在一场三番棋上，AlphaGo战胜了19岁的

DeepMind再登Science！AI「破壁者」玩心机吊打人类大师

近日，DeepMind的AI智能体DeepNash，在西洋陆军棋（Stratego）中花式战胜专业级人类玩家，成功跻身Top 3。

02

人类反超 AI：DeepMind 用 AI 打破矩阵乘法计算速度 50 年记录一周后，数学家再次刷新

作者 | 李梅、施方圆编辑 | 陈彩娴 10 月 5 日，AlphaTensor 横空出世，DeepMind 宣布其解决了数学领域 50 年来一个悬而未决的数学算法问题，即矩阵乘法。AlphaTensor 成为首个用于为矩阵乘法等数学问题发现新颖、高效且可证明正确的算法的 AI 系统。论文《Discovering faster matrix multiplication algorithms with reinforcement learning》也登上了 Nature 封面。然而，AlphaTenso

02

曾因不知NP困难怕被导师拒绝，滕尚华游戏中找到人生经验，两次获哥德尔奖

选自《量子杂志》作者：Ben Brubaker 机器之心编译编辑：王楷滕尚华教授曾两次获得理论计算机科学领域的最高荣誉哥德尔奖，在他的研究中，理论问题和实践问题长期以来一直交织在一起，然而如今他却转头聚焦于一些其他事情。滕尚华对于滕尚华而言，理论计算机科学从来都不是纯理论性的。现年 58 岁的滕尚华是南加州大学计算机科学系教授，曾两次获得哥德尔奖，该奖项每年颁发一次，旨在表彰开创性的理论工作。而他的独到之处在于经常潜心于以既实用又有趣的方式将抽象理论与日常生活联系起来。滕尚华教授于 1964

01

互联网大佬都重视的AI＠AI能解决实际问题吗？

沃特斯：人工智能打赢围棋的头条新闻，令人产生技术进步势不可挡的感觉。但随着问题性质的改变，我们将需要一些全新的方法。 📷 收藏更新于2017年12月26日 07:15 英国《金融时报》理查德•沃特斯不，你的计算机不会很快抢走你的工作。但是，在挑战它玩棋盘游戏之前，你应该三思——即使是它以前没有玩过的。看到最顶级的人类玩家输给机器不是新鲜事。谷歌(Google)的DeepMind最近更进一步：它利用自己的通用游戏算法从零开始自学，在几个小时内就成为三种不同游戏的冠军，胜过最好的定制类人工智能系统。乍看之

07

AI挑战国际数学奥林匹克竞赛，Meta神经定理证明器拿到多项SOTA

数学定理证明一直被视为构建智能机器的关键能力。证明一个特定的猜想是真是假，需要使用符号推理等数学知识，比简单的识别、分类等任务要难得多。

02

从游戏AI到自动驾驶，一文看懂强化学习的概念及应用

强化学习（Reinforcement Learning，简称RL，又译为“增强学习”）这一名词来源于行为心理学，表示生物为了趋利避害而更频繁实施对自己有利的策略。例如，我每天工作中会根据策略决定做出各种动作。如果我的某种决定使我升职加薪，或者使我免遭处罚，那么我在以后的工作中会更多采用这样的策略。

03

2022科隆游戏展开幕，多款硬核VR新游登场

（VRPinea 8月26日讯）2022年科隆国际游戏展（Gamescom 2022）已于当地时间23日晚，在德国科隆国际展览中心拉开帷幕。这是自疫情暴发后，该展会的首次线下“营业”。据了解，米哈游等我国企业也参加了本届展会。

03

动态 | AlphaZero 荣登《科学》杂志封面

AI 科技评论按：一年前，Alphabet 旗下人工智能部门 DeepMind 发布 AlphaZero，称它可以自学国际象棋、日本将棋和中国围棋，并且项项都能击败世界冠军。而今天，经过同行评议，AlphaZero 一举登上《科学》杂志封面。

01

让AI掌握星际争霸微操：中科院提出强化学习+课程迁移学习方法

选自arXiv 机器之心编译在围棋之后，即时战略游戏星际争霸是人工智能研究者们的下一个重要目标。近日，中科院自动化所提出了一种强化学习+课程迁移学习方法，让 AI 智能体在组队作战的条件下掌握了微操作的能力，该研究或许可以让多智能体 AI 方向的发展向前推进一步。该论文已被学术期刊 IEEE Transactions on Emerging Topics in Computational Intelligence 收录。该研究的代码和结果已公开：https://github.com/nanxintin/

09

AlphaGo Zero，一次成功的炒作而已？

编译 | 阿司匹林【AI 科技大本营按】2016 年 3 月，AlphaGo 击败世界顶尖职业围棋手李世石，在媒体上掀起巨大的波澜。一年多以后，AlphaGo 的升级版 AlphaGo Zero，在不采用任何人类棋谱作为训练数据的情况下，通过自我对弈，仅用 40 天就超越了所有旧版本。一时间，人们将所有最好的溢美之词纷纷送给了 AlphaGo Zero. 然而，AlphaGo Zero 真有那么伟大吗？来自斯坦福大学的计算机科学研究生 Andrey Kurenkov 从辩证的角度发表了自己对 Alp

人工智能科学论文摘要20篇（2019-07-17）

原文标题：An Overview of the Ludii General Game System

07

AI、机器学习和深度学习的关系及区别

作者：Rahul Sharma 来源：http://techgenix.com/author/rsharma/ 编译：FintechProbe 人工智能不再是科幻小说的东西。这是一个现实，而且你每天都在与AI技术驱动的应用程序互动并受到影响。如今，人工智能似乎成了所有人的口头禅，从自动驾驶卡车的制造商那里，可以行驶数千英里，而不需要对卡车司机进行人工干预，因为这些卡车司机担心，如果这些电动卡车能上路，他们就会失业。 2016年，谷歌的DeepMind AlphaGo计划与韩国棋手李世石Lee se -

08

DeepMind推出“控制套件”：为“强化学习智能体”提供性能基准

本文探讨了DeepMind Control Suite和OpenAI Gym等控制算法套件在强化学习中的重要性，并介绍了DeepMind Control Suite的主要特性和功能。同时，文章还分享了如何使用DeepMind Control Suite进行基准测试和强化学习任务的应用案例。

AI再称霸 | MIT 强化学习程序任天堂格斗游戏跻身顶级玩家（附论文）

【新智元导读】 MIT 计算机科学研究团队最近使用强化学习开发的AI程序登陆任天堂推出的对战型格斗游戏《任天堂明星大乱斗》PK 人类玩家，现已跻身顶级玩家之列。国际象棋、围棋和扑克之后，电子游戏可能会成为下一个AI称霸的地方。经典的《任天堂明星大乱斗》（SSBM）游戏很快将被 AI 征服。MIT 计算机科学和人工智能实验室开发了一个该游戏的 AI 玩家，它比任何你在游戏中遇到的对手都要强大，现在上了该游戏的全球排名榜。如果你不熟悉大乱斗游戏，稍微介绍一下。这是一个任天堂推出的对战型格斗游戏，游戏角色来

06

使用Tkinter开发Python棋盘游戏

使用 Tkinter 开发一个简单的棋盘游戏是很有趣的！下面是一个示例，演示如何使用 Tkinter 创建一个简单的五子棋游戏：这个是我通过几个夜晚整理出来的解决方案和实际操作教程。

01

DeepMind 打造 AI 游戏系统，可以玩扑克、国际象棋、围棋等，战斗力爆表

谷歌母公司 Alphabet 的人工智能实验室 DeepMind 长期以来一直投资于游戏人工智能系统。实验室的理念是，游戏虽然缺乏明显的商业应用，但却是认知和推理能力的独特相关挑战。这使它们成为 AI 进步的有用基准。

02

hdu------1281 棋盘游戏(最小覆盖点)

棋盘游戏 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others) Total Submission(s): 2492 Accepted Submission(s): 1452 Problem Description 小希和Gardon在玩一个游戏：对一个N*M的棋盘，在格子里放尽量多的一些国际象棋里面的“车”，并且使得他们不能互相攻击，这当然很简单，但是 Gardon限制了只有某些格

04

争取盟友、洞察人心，最新的Meta智能体是个谈判高手

选自Meta AI Blog 机器之心编译编辑：陈萍、蛋酱 AI 学会了「揣度人心」，这本来是世界上最难的事情之一。长期以来，游戏一直是 AI 进步的试验场——从深蓝战胜国际象棋大师 Garry

02

实现一个 TicTacToe 游戏 —— 编程训练

这里我们给大家讲讲一个好玩的编程练习，很多同学想到编程练习就会觉得与算法有关。但是往往在编程的过程中，我们要实现某种逻辑或者是功能的时候，确实是需要用到算法。但是我觉得 Winter 老师说的也挺对的。

03

商业网络培训靶场的发展态势综述

我们身处的时代，网络攻击正愈演愈烈，特别是网络空间领域上升到网络战的战略高度之后，几乎每天都有网络攻击事件发生，而目前网络安全厂商竭尽全力开发的安全软硬件在保护个人和企业的信息安全方面始终存在差距。详细来说，现今的网络安全技术及产品只解决了安全一半的问题，更关键的另一半需要我们的网络安全技术人员在关键的时候进行干预和解决。这就对我们的网络安全技术人员提出了要求，技术人员必须能够胜任网络安全的岗位的能力并拥有对应解决问题的技能。但是当前的网络安全技能培训方法在很大程度上依赖于安全专家或网络红队，这些安全专家或网络红队为网络人员的安全培训提供了具有挑战性的培训路径和彼此磨炼战术的对手。这样的培训周期长、人力培训成本高且培训的安全专家或网络红队始终不足，无法满足大规模网络人员安全培训的技能要求；而提供的网络安全培训产品在一定程度上又无法满足实战性技能培训人才的要求。

02

从"深蓝"到 AlphaGo丨AI 在游戏领域的升级打怪之路

可以说，AI的发展进化史就是AI在游戏领域的升级史。 SciShow是Youtube上热门的科普向脱口秀节目。它的内容包罗万象，无论什么问题在这里都会得到风趣又详尽的解答。在本次节目中，介绍了AI 是

08

国际泰斗：现在谈强人工智能为时尚早

人工智能快速发展，在许多领域取得重大影响，使得不少人担心可能会出现超级智能。DeepMind的联合创始人Demis Hassabis和加拿大多伦多大学教授Geoffrey Hinton两位国际泰斗在谈到强人工智能（AGI）时表示，强人工智能还有很长的路要走，目前谈之为时尚早。

02

Spring Cloud 微服务(外篇)：一次部署故障

之前只运行 NGINX 和 FBG 棋盘游戏很稳定。接着使用配置中心+注册中心+接口网关取代了 NGINX，也没有出现问题。后来再加上 UAA 认证授权中心，就总是出问题。启动 UAA 之后，接口网关就挂了；再启动接口网关，UAA 就挂了，不知道什么原因。

04

DeepMind推出深度学习与强化学习进阶课程（附视频）

机器之心报道参与：张倩、李泽南在 OpenAI 推出强化学习课程 Spinning Up 后不久。昨天，DeepMind 与 UCL 合作推出了一门深度学习与强化学习进阶课程，以在线视频形式呈现。

01

AI能解决实际问题吗？

来源|FT中文网不，你的计算机不会很快抢走你的工作。但是，在挑战它玩棋盘游戏之前，你应该三思——即使是它以前没有玩过的。看到最顶级的人类玩家输给机器不是新鲜事。谷歌的DeepMind最近更进一步：它利用自己的通用游戏算法从零开始自学，在几个小时内就成为三种不同游戏的冠军，胜过最好的定制类人工智能系统。乍看之下，这听起来像是机器与人类智能之间的鸿沟很快就会被跨过。自人工智能出现以来，人类就梦想着能够创造一个像人类头脑那样善于解决任何问题的广义智能。许多专家为DeepMind的适应性游戏大脑欢呼，艾伦人工

08

德州农工大学开源RLCard：帮你快速训练会斗地主的智能体

RLCard 是一个用于牌类游戏强化学习研究的开源工具包，其接口简单易用，支持多种牌类环境。RLCard 的目标是在强化学习与非完美信息博弈之间搭建桥梁，推动强化学习研究在多智能体、高维状态和动作空间以及稀疏奖励领域的进步。作者在论文中概述了 RLCard 的关键组件，探讨了其设计原则并简要介绍了接口，还给出了对这些环境的评估。

01

吴恩达力赞！哈佛、MIT学者用下棋证明：大型语言模型确实「理解」了世界

2021年，华盛顿大学语言学家Emily M. Bender发表了一篇论文，认为大型语言模型不过是「随机鹦鹉」（stochastic parrots）而已，它们并不理解真实世界，只是统计某个词语出现的概率，然后像鹦鹉一样随机产生看起来合理的字句。

04

随着人类科技的发展，未来世界是否会被人工智能主宰

近现代以来，人类科技的发展速度已经达到了前所未有的快速。至于人类科学如今发展到了哪一步，也许只有各领域最前沿的科学技术研究者才知道。 📷 作为一名普通人，不得不感叹科学技术的神奇。在古代人们通信要靠着要是飞鸽传书，如今远隔万里的人们不仅可以实时通话，还可以看到对方。近那几年人工智能更是快速发展，各种人工智能产品更是走进了普通人的生活。说到人工智能，AlphaGo应该大家都很熟悉，AlphaGo征服了围棋，围棋的玩法复杂多变，它被认为是世界上最复杂的棋盘游戏。如今的AlphaGo可以轻松击败人类最优秀的围棋选

05

被追捧为“圣杯”的深度强化学习已走进死胡同

2019 年过去了，我想看看 AI 进展到哪一步了。特别是深度强化学习这个被人追捧为人工智能（AGI）具有变革性的关键一步，它的算法可以让机器用一种通用性的方式像人类一样学习做任何事。

03

AI博弈论：DeepMind让智能体在非对称博弈中找纳什均衡

Root 编译自 DeepMind官方博客随着人工智能系统在现实世界中扮演越来越重要的角色，理解不同的系统如何相互作用至关重要。刚刚，DeepMind发表了一篇名为Symmetric Decomp

07

【机器人选股不看好谷歌、Facebook前景】富国银行AI建议“抛售”两家股票

【新智元导读】谷歌和Facebook无疑是全球不可忽视的AI企业，两者对AI的投入也有目共睹，可惜他们对AI的热爱似乎并未换来AI对他们的喜爱——富国银行开发的AI分析师最近将两家公司的股票都判定为“抛售”。谷歌CEO Sundar Pichai谈到人工智能时听起来像一个热恋中的少年，痴迷于寻找各种方法将AI整合进入他所做的每一个新产品中。他的公司长期以来投资AI，用40亿美元买下了英国人工智能创业公司DeepMind，并利用其能力在从中国传统棋盘游戏到改进医学诊断中击败人类，做了各种努力。同时，Fac

07

【DeepNash智能体】DeepMind-34位作者联名发表“无模型多智能体强化学习战略游戏”新基准

我们介绍了 DeepNash，一种能够从零开始学习玩不完美信息游戏 Stratego1 的自主智能体，直至达到人类专家的水平。Stratego 是人工智能 (AI) 尚未掌握的少数标志性棋盘游戏之一。这个流行的游戏有一个巨大的游戏树，大约有 10535 个节点，比围棋大 10175 倍。它具有额外的复杂性，需要在不完全信息下进行决策，类似于德州扑克，它的游戏树要小得多（大约 10164 个节点）。Stratego 中的决策是根据大量离散的行动做出的，行动和结果之间没有明显的联系。情节很长，在玩家获胜之前通常需要数百步棋，并且 Stratego 中的情况不能像扑克中那样轻易地分解为可管理大小的子问题。由于这些原因，Stratego 几十年来一直是 AI 领域的一项重大挑战，现有的 AI 方法几乎无法达到业余水平。DeepNash 使用博弈论、无模型的深度强化学习方法，无需搜索，通过自我对弈来学习掌握 Stratego。正则化纳什动力学 (R-NaD) 算法是 DeepNash 的关键组成部分，通过直接修改底层多智能体学习动力学，收敛到近似纳什均衡，而不是围绕它“循环”。DeepNash 在 Stratego 中击败了现有最先进的 AI 方法，并在 Gravon 游戏平台上获得了年度（2022 年）和历史前三名，与人类专家玩家竞争。

03

德扑AI之父转投OpenAI！Science封面研究大牛，顶会拿到手软

三年前，Noam Brown从卡内基梅隆大学（CMU）以230页超硬核论文完成答辩，拿下计算机科学博士学位。

02

算法金 | 欧氏距离算法、余弦相似度、汉明、曼哈顿、切比雪夫、闵可夫斯基、雅卡尔指数、半正矢、Sørensen-Dice

欧氏距离是两个点在 n 维空间中直线距离的度量。它是最常见的距离度量方法之一，用于计算两个向量之间的距离。欧氏距离的公式如下：

00

今天，我们来教AI下国际象棋

国际象棋可以说是最棒的棋盘游戏之一，它是战略战术和纯技术的完美融合。每位玩家开局时各有 16 枚棋子：一王、一后、两车、两马、两象和八兵，各具不同功能与走法。真人对弈可以凭借玩家的经验，步步为营。那么，对于一个机器——计算机，你该如何教会它下棋？近日，有人在 medium 上发表了一篇文章，详细解释了如何教计算机玩国际象棋。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭