Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >AI的博弈论,一份插图教程

AI的博弈论,一份插图教程

作者头像
磐创AI
发布于 2019-11-29 02:03:55
发布于 2019-11-29 02:03:55
9640
举报

概述

  • 什么是博弈论?它如何应用于人工智能(AI)?
  • 博弈论对人工智能来说是一个基本概念,我们觉得每个人都应该知道
  • 在这里,我们通过举例深入研究博弈论,并将其与人工智能联系起来

介绍

我想先问一个简单的问题——你能认出下图中的两个人吗?

我肯定你说对了。对于我们这些早期数学发烧友来说,电影《美丽心灵》(A Beautiful Mind)已经深深地印在了我们的记忆中。Russell Crowe在电影中扮演John Nash,一位诺贝尔经济学奖得主(上图左侧)。

现在,你应该还记得那个经典场景:“不要追金发女郎”。在这个场景中,约翰·纳什引用道:

“当团队中的每个人都在做对自己和团队最有利的事情时,最好的结果就会出现。”

许多人认为这是著名的“纳什均衡”的发现。虽然这场景很经典,但也不一定是对的。这个场景实际上描述了“帕累托最优”。但这对我们理解博弈论还是有帮助的。

所以在这篇文章中,我们将鸟瞰博弈论。我们还将讨论博弈论在人工智能领域的应用。我以一种即使是初学者和非技术人员也能跟上的方式来写这篇文章。

目录

  1. 什么是博弈论?
  2. 博弈论中的纳什均衡
  3. 博弈类型
  4. 人工智能中的博弈论

什么是博弈论?

什么是博弈论?我相信你在某个时候曾经遇到过这个概念,但从来没有真正深入研究过它。相信我,在人工智能领域,这是一个耐人寻味的话题。

我们先来给博弈论下一个正式的定义。

博弈论可以被认为是两个或多个理性的代理人或玩家之间相互作用的模型。

在这里,我必须强调理性这个关键字,因为它是博弈论的基础。但理性究竟意味着什么呢?

我们可以简单地把理性称为一种理解,即每个行为人都知道所有其他行为人都和他/她一样理性,拥有相同的理解和知识水平。同时,理性指的是,考虑到其他行为人的行为,行为人总是倾向于更高的报酬/回报。

简而言之,每个行为人都是自私的,都试图使报酬最大化。

既然我们已经知道了理性意味着什么,让我们来看看与博弈论相关的其他一些关键词:

  • 游戏:一般来说,游戏是由一组玩家,行动/策略和最终收益组成。例如:拍卖、象棋、政治等。
  • 玩家:玩家是参与任何游戏的理性实体。例如:
  • 在拍卖会的投标人
  • 石头剪刀布的玩家
  • 参加选举的政治家等。
  • 收益:收益是所有玩家在获得特定结果时所获得的奖励。它可以是正的,也可以是负的。正如我们之前所讨论的,每个代理都是自私的,并且想要最大化他们的收益:

博弈论中的纳什均衡

纳什均衡是人工智能博弈论方法的“基石”。纳什均衡是每个玩家选择的行动满足:

“没有玩家会想要改变他们的行动。从纳什均衡中改变他们的行为意味着他们没有达到最佳状态"

“考虑到其他所有代理人都是理性的,他们都为他们自己选择最好的行动,纳什均衡产生的行动对我来说是最好的。”

任何玩家都不可能通过改变之前的决定来增加收益。我们也可以将其视为“无悔”,即一旦做出决定,玩家便不会因为考虑到后果而后悔。

为了了解纳什均衡的作用,我们现在来解决博弈论中最常见的问题——囚徒困境。这个游戏是一个经典的例子,它说明了在代理人只关心自身利益的情况下,为了共同利益而协同行动的困难。

在这个游戏中,我们有两个犯人,Alan和Ben,他们因为同样的罪行被抓了起来,被关在两个不同的审讯室里。他们有两个选择:

  1. 保持沉默
  2. 承认罪行

假设每个人都有两个选择。总共有4种结果:

  • {沉默,沉默}
  • {承认,沉默}
  • {沉默,承认}
  • {承认,承认}

这4个结果可以方便地表示为一个博弈矩阵:

在这个表达式中,支付的形式是(Alan的支付,Ben的支付)。沿着行,我们有Alan的动作,沿着列,我们有Ben的动作。

好好思考收益。为什么有收益是负的?这是因为,根据他们的行动,他们将获得预先确定的监禁年限。

结果如下:

  1. 如果两人都保持沉默,两人都将被监禁一年
  2. 如果他们中的任何一人认罪,认罪的人将获得自由,而另一名囚犯将被判15年监禁
  3. 如果两人都认罪,两人都将被判处10年监禁

这一困境的出现是因为两个囚犯都不知道另一个囚犯做了什么。那么,你认为这个问题中的纳什均衡产生的结果是什么呢?人们凭直觉大概是认为犯人会互相合作,保持沉默。

但我们也知道,囚犯会尽力减少他们所受的监禁,这关乎他们的个人利益。即使他们保持沉默,他们仍然会被监禁一年。

实际情况是这样的:

Ben也会这么想。如果我们专注于博弈矩阵,思考过程将会变得非常有趣:

  1. 在Ben坦白的情况下,Alan最好的选择就是坦白。这将导致10年的监禁而不是15年
  2. 如果Ben保持沉默,Alan最好还是坦白,因为如果他也保持沉默,他将面临一年的监禁,而不是一个自由人

所以这个博弈矩阵和Alan的想法是完全一致的。现在,如果Ben也有同样的想法,博弈矩阵对他来说应该是这样的:

假设Ben也像Alan一样经历了理性思考过程。Ben还得出结论,无论艾伦选择什么,坦白总是有益的。现在,如果我们把这两个囚犯的理性思维叠加起来,结果是这样的:

从结果来看,最好的策略是{坦白,坦白}。即使他们中的任何一个试图偏离这个动作,他们的情况也比他们通过玩这个动作所得到的更糟。因此,{坦白,坦白}是一种纳什均衡策略

很有道理,对吧?对于纳什均衡,我们可以得出这样的结论:对于任何游戏来说,它都是一个“无悔”的解决方案,但不一定是最优的。

博弈类型

我们刚刚看到一个囚徒困境的例子,两个囚徒必须同时做出决定,我们用一个博弈矩阵来表示。这些类型的博弈通常被称为正则形式的博弈

在博弈论中,游戏可以根据许多不同的标准分为许多不同的类别。

让我们仔细看看。

代理之间的交互

直观上,我们可以根据游戏中的代理是竞争还是合作来区分游戏。

政治竞选就是一个竞争游戏的好例子,一个候选人的奖励导致另一个候选人的失败。另一方面,一场篮球比赛可以被看作是一场合作的比赛,每个球员如果互相合作就会得到更多的奖励。

代理怎么进行游戏

我们还可以根据游戏是否同时存在或是否具有广泛性来对它们进行分类

为了理解这一点,让我们以一个名为“性别之战”的问题为例。

考虑到Bob和Amy两个经常一起玩。他们很清楚对方分别喜欢出去踢足球和参加舞会。这次他们决定这次一起出去玩,他们可以给对方一个惊喜或者各自玩自己的。

如果他们打算给对方一个惊喜,他们并不知道对方的周末计划。博弈矩阵描述了4种不同的情况:

博弈矩阵清楚地解释了如果Bob和Amy彼此不配合,他们就得不到任何回报。这是一个同时进行的游戏的例子,在这个游戏中,两个玩家同时行动,并且事先不知道其他玩家的行动。

另一方面,如果他们通过告诉对方自己的行动来相互配合,游戏的形式如下:

这是一个广泛的形式游戏或“回合制游戏”的例子。在这里,每个玩家都可以看到其他玩家在玩什么动作。

这是另一个直观的例子——石头-剪刀-布的游戏是同时进行游戏中的一个很好的例子。另一方面,井字棋游戏是一种广泛的形式游戏。

信息

在博弈论中,经常会出现这样的情况:玩家的信息不完整。他们可能不知道其他玩家所有可用的策略或潜在的回报。玩家可能不知道他们在和什么样的人打交道,也不知道他们的动机是什么。

根据玩家对其他代理的了解程度,游戏大致可以分为三类:

  • 完美信息
  • 不完美信息
  • 不完整信息
完美信息:

在完美信息中,每个代理都知道:

  • 其他代理可能采取的所有操作
  • 他们在做什么
  • 他们得到了多少回报

井字游戏和国际象棋就是很好的例子。在现实世界中,完美信息游戏非常罕见。此外,机器学习深度学习方法在这些游戏中也非常有效。

不完美信息:

在这种情况下,行为人知道其他行为人的性质和动机,以及在所有可能的结果中他们会得到多少回报。但他们不知道自己在做什么。

在这里,将军知道在每个可能的情况下敌人的动机和回报。但他不知道敌人藏在哪里。因此,将军不知道他所在的确切决策节点(用虚线框表示)。不完全信息游戏在现实场景中经常遇到。

不完全信息

不完全信息是一种非常紧密地模拟现实世界的情况。在这里,代理没有关于其他代理的“类型”的信息。

即使任何给定的代理能够看到其他代理所采取的操作,他/她也不知道其他代理的动机,也不知道其他代理将从该操作中获得什么奖励。

从本质上说,不完全信息博弈是最普遍的博弈形式。

扑克是一个典型的不完全信息游戏的例子,因为玩家不知道对手手里拿的是好牌还是坏牌。

我们对扑克游戏特别感兴趣,因为它的不完全信息的性质使它很好地代表了现实世界。正因为如此,它一直被认为是不完全信息博弈的人工智能领域的一个基准问题。

人工智能中的博弈论

啊——你一定想知道这一切在人工智能的背景下意味着什么。这些不同类型的游戏和信息与人工智能有什么关系?好吧,让我们来看看!

就人工智能而言,博弈论基本上有助于做出决策。考虑到“理性”是博弈论的基础,这并不难。事实上,博弈论已经开始在人工智能中确立自己的地位——你能猜到它在哪里吗?

其中一个是生成对抗网络(GANs)的概念。它们被引述如下:

“这是过去二十年来机器学习中最酷的想法。”——Yann LeCun,人工智能和深度学习领域的领导者之一

那么博弈论是如何帮助GANs的呢?

要回答这个问题,我们需要首先了解GANs的基础知识。GAN是两个神经网络的组合,即:

  • 生成器
  • 判别器

生成器是生成随机图像的神经网络。另一方面,判别器尝试对生成的图像是属于给定的数据集还是生成的图像进行分类。

如果图像被分类为“生成的”或伪图像被判别器捕获,则生成器网络调整其参数。另一方面,如果“判别器”将生成的假图像作为数据集中的一个分类,那么“判别器”将调整其参数。

这种竞争过程一直持续下去,直到达到一种没有更多改进余地的状态。这种状态被称为“纳什均衡”。惊讶吗?

本质上,这是两个神经网络之间的竞争游戏。虽然在这种情况下,他们不断优化自己,以找到纳什均衡。

博弈论的核心实施在于信息不完全博弈。正如我们已经讨论过的,扑克是一个经典例子,它也是AI应用在不完全信息上一个不错的基准问题。

不完全信息非常重要,因为现实世界中的问题常常属于这一类。迄今为止,在人工智能的历史上,机器学习和深度学习方法在不完全信息游戏方面还暂时未取得特别大的成功。

其中一个这样的游戏是德州扑克。这是一个不完美信息游戏,因为对手的信息隐藏在他手中的牌中。这是一个非常具有挑战性的问题,考虑到在游戏中这个扑克有10的161次方的可能性

具体来说,可观测宇宙中的原子总数是10的82次方!

因此,使用蛮力建模这个游戏是不可能的。也有人尝试过使用深度学习和深度强化学习,但效果一般。

不过,由美国卡内基梅隆大学(Carnegie Mellon University)的托马斯•桑德赫姆(Tuomas Sandholm)教授和人工智能研究员诺姆•布朗(Noam Brown)开发的名为Libratus的人工智能程序,迄今为止的表现超过了以往任何一种方法。Libratus已经赢了赢过两万多次扑克牌的世界冠军。Libratus的神奇之处在于它不使用任何机器学习方法!

博弈论是Libratus的核心思想。与深度学习或强化学习方法相比,它的计算能力相对较低。为了了解更多关于博弈论在Libratus的发展中是如何应用的,以及博弈论在未来如何成为人工智能的一部分,我强烈推荐Lex Fridman和Tuomas Sandholm之间的人工智能播客: https://youtu.be/b7bStIQovcY

另一方面,人们经常讨论将机器学习和深度学习研究转移到真实的用例。由于现实世界中的案例通常是不完整信息游戏,因此大多数机器学习和深度学习方法在这方面都存在困难。

由于博弈论方法在真实用例中的通用性,它们正逐渐获得发展势头。最好的例子是Milind Tambe的工作,她是“社会公益AI”的负责人。利用博弈论的概念,米琳德坦贝处理现实世界的问题如下:

  • 公共安全
  • 野生动物保护
  • 公共卫生等

我强烈建议大家看看这段视频,看看Tambe教授是如何使用博弈论解决与上述应用相关的现实问题的。视频播放五分钟后,你将会看到博弈论是如何在真实的用例中实现的:https://youtu.be/O2su1u2AXG0

结尾

在这篇文章中,我们讨论了博弈论的基本原理,并简要介绍了基本的主题。我们甚至谈到了博弈论是如何在机器学习领域及其在现实世界中的应用。

这是一篇介绍性的文章——在以后的文章中,我们将更深入地讨论博弈论以及如何将它应用到人工智能领域,那这篇文章中,我将从技术角度进行分析。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-11-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 磐创AI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
你知道“现代计算机之父” 冯·诺依曼提出的博弈论吗?
你是,我是 aoho。今天和大家聊聊最近所用到博弈论的相关理论和算法,准备几篇文章来具体介绍下博弈论。
aoho求索
2021/11/09
3.2K0
你知道“现代计算机之父” 冯·诺依曼提出的博弈论吗?
【AI VS 人类新高峰】冷扑大师发明人:用于策略推理的超人AI
【新智元导读】 “冷扑大师”libratus发明人之一的Tuomas Sandholm在新智元AI WORLD207世界人工智能大会上进行分享。他介绍了libratus是如何工作的,包括三大部分:抽象
新智元
2018/03/21
8380
【AI VS 人类新高峰】冷扑大师发明人:用于策略推理的超人AI
浅谈博弈论
感谢阅读「美图数据技术团队」的第 18 篇原创文章,关注我们持续获取美图最新数据技术动态。
美图数据技术团队
2018/09/18
1.4K0
浅谈博弈论
德扑 AI 之父解答 Libratus 的13个疑问:没有用到任何深度学习,DL 远非 AI 的全部
AI 科技评论按:昨天晚上,卡耐基梅隆大学计算机系在读博士生 Noam Brown 和计算机系教授 Tuomas Sandholm 来到 reddit 的机器学习分版,和网友们一起来了一场「你问我答」(ask me anything)。这两个名字大家现在也比较眼熟了,他们就是今年早些时候在人机大赛中首次打败职业扑克选手的 AI「冷扑大师」(Libratus)的创造者。 具体来说,在持续了 20 天、4 位人类职业选手分别上阵的十二万手一对一无限注德州扑克中,四位职业选手一共输给「冷扑大师」1766250
AI科技评论
2018/03/14
1K0
德扑 AI 之父解答 Libratus 的13个疑问:没有用到任何深度学习,DL 远非 AI 的全部
DeepMind再登Science!AI「破壁者」玩心机吊打人类大师
近日,DeepMind的AI智能体DeepNash,在西洋陆军棋(Stratego)中花式战胜专业级人类玩家,成功跻身Top 3。
新智元
2023/01/08
6210
DeepMind再登Science!AI「破壁者」玩心机吊打人类大师
我有一个大胆的想法!
一款名叫“Pluribus”的AI扑克牌机器人在六人无限制德州扑克这项复杂游戏中,碾压了人类职业选手!——这是AI机器人首次在规模超过两人的复杂对局中击败顶级人类玩家。
量化投资与机器学习微信公众号
2019/07/17
1.3K0
我有一个大胆的想法!
博弈论基础mooc答案_博弈论考试题及答案
1、“博弈的本意是什么? A、摔跤 B、下棋 C、赌博 D、游戏 参考答案:B 2、古时“弈”字,就是指 A、跳棋 B、象棋 C、五子棋 D、围棋 参考答案:D 3、按照博弈方
全栈程序员站长
2022/11/04
2.3K0
AI攻陷多人德扑再登Science,训练成本150美元,每小时赢1000刀
六人无限制玩法是德州扑克最受欢迎的游戏方式,Facebook 与 CMU 的成果是第一个在拥有两个(或以上)人类玩家的比赛中击败人类专业选手的 AI。
机器之心
2019/07/18
1K0
AI攻陷多人德扑再登Science,训练成本150美元,每小时赢1000刀
通俗理解博弈论相关术语
囚徒困境是博弈论中最经典的例子: 两个共谋犯罪的人被关入监狱,不能互相沟通情况。如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;若一人揭发,而另一人沉默,则揭发者因为立功而立即获释,沉默者因不合作而入狱十年;若互相揭发,则因证据确实,二者都判刑五年。
zstar
2022/06/14
8370
通俗理解博弈论相关术语
Casper与V神的博弈论(过节了,文末送大礼)
博弈论思想历史久远,比如中国古代的《孙子兵法》。早年的博弈论最初主要研究象棋、桥牌、赌博中的胜负问题,人们对博弈局势的把握只停留在经验上, 没有向理论化发展,正式发展成一门学科则是在20世纪初。
区块链大本营
2019/03/08
7840
【重磅】AI击败顶级德扑玩家的秘密!德扑AI创造者现身reddit,全面解答34个提问,详解Libratus的现状和未来
翻译:刘畅、reason_W 编校:reason_W 编辑:鸽子 今年上半年,继AlphaGo多次升级连克人类高手之后,德州扑克终于也迎来了它的“破壁人”——人工智能Libratus。1月30日,来自CMU的人工智能Libratus战胜了顶级德州扑克玩家。然而比赛时,Libratus的创造者却是对其运作方式遮遮掩掩,这大半年关于Libratus的技术细节也少有曝光。直到这个月——先是在NIPS上取得最佳论文奖,接着15号《Science》杂志就发表其预印版论文,全角度解读Libratus技术细节。而L
AI科技大本营
2018/04/27
1.2K0
【重磅】AI击败顶级德扑玩家的秘密!德扑AI创造者现身reddit,全面解答34个提问,详解Libratus的现状和未来
【愚公系列】软考高级-架构设计师 120-数学与经济管理
数学与经济管理是指数学方法和工具在经济学和管理学领域中的应用和研究。数学在经济管理中扮演着重要的角色,可以帮助分析和解决各种经济和管理问题,提高决策的科学性和效率。
愚公搬代码
2024/08/20
3340
读书笔记: 博弈论导论 - 总结
读书笔记: 博弈论导论 - 总结 总结 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记的总结。 博弈论 博弈论是关于智能理性决策者的协作和冲突的数学模型的研究。 博弈论的目的可以说是研究寻找博弈均衡的方法。 博弈论的直接目标不是找到一个玩家的最佳策略,而是找到所有玩家的最理性策略组合。 我们称最理性策略组合为均衡。 博弈论(也叫逆向博弈论)的另外一个作用是机制设计,根据期望的结果,设计一个博弈体系。 博弈论的分类 这本书中将博弈论的只是分
绿巨人
2018/05/18
2.2K0
学界丨从科学把妹说起,为何博弈论能成为深度学习的未来?
AI 科技评论按:作者Carlos Perez是一名软件开发者,著有《深度学习的设计模型》一书。他在这篇文章中提及了我们熟悉的概念——博弈论,并认为这一概念将会更广泛地应用于机器学习中。 在电影《美丽心灵》中,“如何科学把妹”让我们得以直观地理解约翰·纳什的博弈论,但实际上不完全信息博弈论中的近似纳什均衡也已经出现在一些机器学习的论文中。其中原因何在?雷锋网为读者们编译了他在KDnuggets上的文章,一起来看看吧。 如果你一直是我文章的读者,那么你应该知道,对于许多深度学习的资深从业者来说,新的架构设
AI科技评论
2018/03/09
1.4K0
学界丨从科学把妹说起,为何博弈论能成为深度学习的未来?
AI赌神超进化:德扑六人局击溃世界冠军,诈唬如神,每小时能赢1千刀 | Science
两年前的Libratus,历时20天战胜4位顶级德州扑克选手,但只能1v1。现在全新的赌神Pluribus,终于取得突破,称霸多人局:
量子位
2019/07/17
7000
AI赌神超进化:德扑六人局击溃世界冠军,诈唬如神,每小时能赢1千刀 | Science
纳什均衡和贝叶斯均衡区别:不完全信息
纳什均衡和贝叶斯均衡是博弈论中的两个重要概念,它们之间存在显著的差异。以下是对两者的详细比较:
zhangjiqun
2024/12/14
2790
纳什均衡和贝叶斯均衡区别:不完全信息
Science:DeepMind又一突破,AI玩转了西洋陆军棋,跻身历史top3
大数据文摘转载自学术头条 对棋类游戏的掌握程度,一直是判断人工智能(AI)是否真正智能的依据之一,因为这类游戏可以被用来评估 AI 代理在受控环境下自主开发和执行策略的能力。 如今,AI 在此前尚未掌握的经典棋类游戏 Stratego(西洋陆军棋)中,表现出了人类专家级一般的水准—— 以 97% 的最低胜率击败了其他 AI 机器人;在 Gravon 平台上与人类专业玩家对弈,取得了 84% 的总胜率,在年初至今和历史排行榜上都排在前三名。 值得注意的是,这一惊人表现是在没有部署任何搜索方法的
大数据文摘
2023/04/10
4110
Science:DeepMind又一突破,AI玩转了西洋陆军棋,跻身历史top3
DeepMind VS Meta:实现纳什均衡理性最优解,还是多人非零和博弈算法更强大?
大数据文摘转载自AI科技大本营 编译 & 整理:杨阳 记得豆瓣高分电影《美丽心灵》中的约翰·纳什吗? 作为获得诺贝尔经济学奖的数学家,纳什在博弈论、微分几何学,以及偏微分方程等各个领域都作出卓越贡献。为表彰他在非合作博弈理论中对均衡(纳什均衡)的开创性分析,1994年瑞典中央银行授予纳什诺贝尔经济学奖。 纳什均衡在社科中的应用可谓成功,而在科技领域中,也经常引用博弈论的逻辑来进行技术实现,比如,通过密码学和博弈论的结合实现大数据安全。当下,这一逻辑也开始应用在AI的算法上。 DeepNash——Deep
大数据文摘
2023/04/10
4850
DeepMind VS Meta:实现纳什均衡理性最优解,还是多人非零和博弈算法更强大?
AI博弈论:DeepMind让智能体在非对称博弈中找纳什均衡
Root 编译自 DeepMind官方博客 随着人工智能系统在现实世界中扮演越来越重要的角色,理解不同的系统如何相互作用至关重要。 刚刚,DeepMind发表了一篇名为Symmetric Decomp
量子位
2018/01/24
1.2K0
博弈论(Game Theory)入门学习笔记(持续更新)
注意:迭代消除的过程同样也可以使用混合策略,比如说第二张图中,如果U行与D行以相同概率混合,混合结果同样严格占优M行,同样可以消除掉M行,虽然这里M行可以使用纯策略消除。因此给与我们提示,如果纯策略消除不掉的话或许可以尝试混合策略消除。
全栈程序员站长
2022/11/04
2.5K0
博弈论(Game Theory)入门学习笔记(持续更新)
推荐阅读
相关推荐
你知道“现代计算机之父” 冯·诺依曼提出的博弈论吗?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档