AI中的心智理论：认知科学与多智能体博弈

原创

用户11764306

发布于 2026-04-27 12:20:39

1240

AI与心智理论：对Nitay Alon的访谈

在这次访谈系列中，我们采访了AAAI/SIGAI博士联盟的参与者，以了解他们的研究。我们与Nitay Alon进行了交流，他的研究处于认知科学与AI的交叉领域。我们讨论了心智理论这个引人入胜的话题，它在欺骗环境中的表现、多智能体系统、该领域的跨学科性质、何时使用心智理论以及何时不使用等问题。

能否先简单介绍一下你自己、你在哪里学习以及你的研究概况？

我是Nitay，一名即将从希伯来大学和某机构（原马克斯·普朗克控制论研究所）毕业的博士生。广义上讲，我的研究与认知科学、AI以及这两个领域的交叉点相关。人类有一个惊人的特质，叫做心智理论。它几乎像是一种精神超能力。我们可以用它来尝试解读他人的想法。例如，当我们看到有人痛苦或快乐时，我们可以尝试提出一个合理的解释来论证为什么会这样。我们也使用同样的精神超能力进行言语、非言语、字面和比喻性的交流。

我们的研究提出了一个不同的问题：为什么我们从一开始就拥有这种超能力？这种超能力是在什么情境下进化出来的？在我的研究中，我们发现是欺骗推动了这种超能力的发展。沟通或协调并不需要很多心智理论。但是当你拥有强大的心智理论，当你能真正心智化他人，比如“我知道你知道我知道你知道”，或“我认为你认为我认为你认为，但我知道别的东西”，这在欺骗环境中会给你带来巨大好处。我的工作始于试图理解心智理论在欺骗环境中扮演的角色。

我发表的第一篇论文表明，智能体可以利用这种特质来扭曲他人的感知。一个智能体可以说服其他智能体自己更喜欢苹果而不是橙子，以获得折扣券。但反过来，如果其他智能体意识到自己正被欺骗或操纵，他们就会学会怀疑，学会打折和不信任。因此存在一场有趣的认知军备竞赛。

在后续研究中，我们提出，如果存在这场认知军备竞赛，为什么我们不都是无限智慧的或拥有无限的心智理论？那篇论文表明，拥有过多心智理论或过度心智化会导致偏执行为。这对AI安全以及计算精神病学等领域都有影响。我们提出了一个模型，描述了在欺骗性敌对环境中非常有益的同一特质，在转换到良性环境时可能非常有害。

为了总结这个项目，我试图提出一个新模型，这是最近发表在《AI研究杂志》上的一篇论文，该模型表明我们可能需要将心智理论与完全非心智模型基础的东西（如启发式方法）混合起来。所以，如果我与某人互动，试图预测他们的下一步行动，但出于某种原因总是失败——“我以为你会说红色，你说了绿色；我以为你喜欢香草，你更喜欢巧克力”——那么我脑海中应该有一个触发器说：“好吧，我无法再正确地为你的心思建模了，也许我会尝试一些完全基于启发式的方法，就像你跟别人玩游戏一样玩这个游戏”。这在一定程度上缓解了思考太少容易被欺骗、思考太多容易产生偏执行为的问题。折衷有助于平衡。

有趣。那么这是高度跨学科的，你需要借鉴多个领域。

是的，这是高度跨学科的。我很幸运能与非常优秀的人共事，包括我在希伯来大学和某机构（原马克斯·普朗克协会）的导师，以及来自世界各地的不同领域的合作者，如计算精神病学、发展心理学、经济学、多智能体系统。我的研究反映了我个人的偏好和天性，即多学科性。

那么你的背景是什么？你是如何进入这个研究领域的？

说来话长！本科时我在校园里转了转。我从经济学开始，然后意识到我非常喜欢数学，所以开始学数学。然后我意识到我并不真的喜欢数学，但我非常喜欢统计学。所以我最终修了统计学和经济学双学位。之后我攻读了统计学硕士，我非常喜欢。我喜欢对不确定性建模，思考如何量化世界中的不确定性。然后我在业界工作，我非常喜欢，但我觉得我需要做更多的研究。仍然有一些问题困扰着我，让我不得安宁，所以我开始了博士生涯。

激发我对心智理论和欺骗兴趣的，是一个晚上我和大儿子在一起。那时他大约四岁，像他那样的孩子，他到处玩，我告诉他：“在某个时间点我们必须停下来做个决定。你接下来想做什么？你想看会儿电视还是听睡前故事？” 我可以看到他的小脑袋在飞快地转动。他在试图推断我为什么问他的偏好。他是个非常精明的孩子，所以他察觉到我想弄清这两件事中的哪一件以后可以用来以父母的方式威胁他，让他不再调皮。然后他说：“嗯，你知道吗，我非常不喜欢电视，睡前故事是我的最爱。” 作为父亲，同时也是研究者，我感到很惊讶。他能很快读懂我的心思，明白我试图了解他的偏好，并且通过向我反向报告他的偏好给出了一个非常有欺骗性的回答。

我和一位同事分享了这件事。他觉得很有趣，我的儿子能这么快地运用大量心智理论并报告虚假的偏好。我向我的导师们提出了心智理论和欺骗的想法，他们非常喜欢。所以我认为，我对研究的兴趣不仅反映了我经济学、统计学和计算机科学的背景，也反映了我非常喜欢通过观察人来获得研究想法这一事实。这不仅仅是试图证明定理的纯理论研究，而是更多地试图理解支配我们行为的机制，研究当这些机制变得不适应时会发生什么，监测并修复这种不适应。

能够从现实生活中获取想法并将其转化为研究，这很好。你的研究中是否有一个特别有趣的方面或项目？

我觉得非常有趣的一件事是思考为什么人类很难无限递归。我们从先前的研究中知道，当人们玩竞技游戏时，他们的思考大致在一个层次范围内，比如“我认为你认为”，或者“我认为你认为我认为”，但我们并不会真正地无限递归。这很有趣，因为在博弈论中，纳什均衡的概念确实要求智能体无限递归。我们作为人类的能力与我们期望拥有的规范行为之间存在一个有趣的观察矛盾。在我们关于心智理论不适应的论文中，我们提供了一条有趣的路径来解释为什么我们不会无限递归。这是因为，如果你比所有人都聪明，这可能是特定问题的正确解决方案，但如果你总是把这种能力归因于他人，那么a) 这是一种认知努力（我们能够用数学方法量化它），b) 它会导致非常糟糕的结果，因为你总是将恶意和能力归因于他人。而有时他人就是单纯直接，他们说真话，没有隐藏的意图，不试图混淆，没有含糊其辞。如果你过度思考或过度心智化，你最终会伤害自己。

我认为这对我们来说是一个有趣的结果，因为现在AI行业对心智理论如何集成到大语言模型中以及大语言模型中心智理论的出现有很多炒作。在某种程度上，我们能够在那个地图上钉上几颗图钉，指出它们拥有一些心智理论是很好的，但我们需要确保它们不会有太多心智理论。我们也不想声称它们有心智理论，因为人们可能会过度思考它们会做什么。如果你考虑现在最热门的智能体AI世界，智能体试图推断其他智能体试图做什么或达成什么，我们还需要找到某种方法来调节这一点。

这就是我最近的工作，我认为这非常令人兴奋，因为它为在正确或有益时使用心智理论（或他人的模型），但在它们不再有意义时抛弃它们铺平了道路。这是我期待在未来研究中继续做的事情，因为我认为这很有趣地反映了人类的适应方式。在某些情况下，我们进行深入的战略思考，比如当我们玩复杂的游戏或处于竞争情境时。但在其他情况下，比如当我们在朋友和家人一起或只是去买一杯咖啡时，我们并不真正思考他人的想法。我们只是遵循预定义的模式，在那种情境下并不真正需要考虑他人。

自从你开始攻读博士学位以来，AI领域发生了很大变化。这是否以及大语言模型似乎无处不在的事实，对你的研究产生了怎样的影响？

在某种程度上，大语言模型无处不在。我使用过大语言模型，我认为它们是非常令人兴奋的工具。但归根结底，作为智能体，它们确实遵守着人们在四五十年代开始思考智能体系统时制定的相同原则。所以某种程度上，我们拥有一个新的工具或新的机制，它不是在符号语言中运作，而是在自然人类语言中运作。它扩展得非常棒，但归根结底，它仍然会遵守AI社区在三、四、五十年前思考多智能体系统时已经绘制出的相同边界和问题：合作、诚实、沟通、噪声沟通、信任、委托代理问题。现在，我周围的许多人将他们大部分的编程任务卸载到像某机构的代码助手（原Cloud Code）或某机构的编程助手（原Copilot）这样的应用上。你如何验证你得到的答案就是你一直在寻找的东西？这是一个来自博弈论的经典委托代理问题。如果有多个智能体互动在一起，这些智能体结构，我们如何强制协调？这些问题是由奠基者冯·诺依曼或纳什假设并解决的经济学问题，我们凭什么期望大语言模型在那种意义上会有所不同？

你研究的下一步是什么？

我即将答辩并提交博士论文，我已经计划在美国进行博士后研究。我对此感到非常兴奋，并期待着继续我的研究。我刚刚在以色列获得了一个大型奖学金，罗斯柴尔德基金会奖学金。

我未来的研究将真正集中在适应性心智理论和资源理性心智理论这个想法上。当你思考像推理、心智理论这样复杂的认知任务时，它们确实对认知要求很高。在许多情景喜剧中，他们使用心智理论来嘲讽情境。例如，在《老友记》或《宋飞正传》中，总会有一个场景，比如“他们知道我们知道他们知道我们知道吗？” 这是一个非常简单的递归心智理论，没有人能跟踪下来。我的直觉是，人类在获得某些社交线索时会激活心智理论。我认为，我们适应心智理论的能力的一部分——这与我博士论文中关于不适应心智理论的工作形成对比——是通过元学习这些社交线索。我们对哪些情况需要我们真正集中注意力、了解信息、并跟踪他人所做的所有事情有很好的直觉。所以我们学习这些环境线索，何时应该激活你的心智理论，何时应该只使用另一种机制与人互动。就像在这次采访中我试图做的那样，我真的在思考我的措辞，理论化你的思想和读者的思想。他们会如何解读我的话？他们会如何领会言外之意？我够清楚吗？我太含糊了吗？这是一项认知要求很高的任务。所以我想探索这一点。

我未来研究的一部分将是研究我们如何学习何时激活心智理论、何时关闭它，以及在任何情况下需要哪种心智理论。所以这与我之前的研究路径相同，但这次我采取了一个稍微不同的路线。

有趣！最后，我想问一下你在AAAI组织的“AI中的心智理论”研讨会。那进行得怎么样？

我很幸运有一个非常强大的合作者网络。第一次AI心智理论研讨会是一年前在某地（原费城）举行的，我们能够邀请到出色的主题演讲者，并吸引了社区的广泛关注，因为心智理论是一个有趣的问题。尤其是在今天，AI中的心智理论就是热点。今年，在某地（原新加坡），我们再次举办了研讨会，不同的主题演讲者，不同的听众，同样的兴趣，同样的炒作，同样的热情。我认为我们确实在连接不同的社区。某机构的Joe Barnby（原ECU (Perth) and King‘s College London）是一位认知科学家，他将这个视角带入了研讨会，这是非常有价值的。某机构的Stefan Sarkadi（原King’s College London），现在也在某地（原林肯）领导一个国防和网络安全中心，他带来了心智理论、欺骗和操纵的其他方面。某机构的Reuth Mirsky（原Tufts）带来了人机交互、目标识别和多智能体系统的方面。所以我认为，我们四位组织者中的每一位都带来了自己不同的背景和风格，这四种风格的混合使得研讨会——如果我可以这么说的话——受欢迎、有趣且相关。它吸引了来自社区的许多人，因为我们一起击中了所有这些不同的音符。

我们正在为《自主智能体与多智能体系统》期刊制作一期关于AI心智理论的专刊。其理念是汇集来自不同社区、研究心智理论不同方面的人们。在我们举办的每一个研讨会上——我们非常期待未来的研讨会——我们都试图邀请来自心理学、语言学、AI、精神病学、规划目标识别的主题演讲者。这些社区中的每一个都对我们理解心智理论做出了重大贡献，因此许多其他社区可以采纳这些贡献，然后将其应用到自己的领域。我认为AI中的心智理论在未来几年将继续存在。

如果有人对心智理论研究感兴趣，请随时联系组织研讨会的我们四人中的任何一位。我们总是对合作感兴趣。这是一个激动人心的领域，也是心智理论研究的美好时代，所以我强烈鼓励任何希望做出贡献、提出问题或学习更多的人。

关于Nitay

Nitay Alon是耶路撒冷希伯来大学和某机构（原MPI for Biological Cybernetics）计算机科学专业的博士候选人。他的研究重点是深度强化学习与计算认知科学的交叉领域，特别是研究心智理论在混合动机博弈中的作用。他的博士工作由某教授（原Jeff Rosenschein）和某教授（原Peter Dayan）指导。

Alon的工作特点是跨多个学科的应用。他使用经济学视角在IPOMDP框架内形式化了欺骗和怀疑，引入了信息论度量来量化策略性信念操纵。他在计算精神病学方面的研究探索了k级认知层次模型，以证明社会功能障碍可能源于过度的递归推理。此外，他最近的工作（发表在JAIR上）通过使用离策略反事实异常检测来减轻层次设置中的欺骗，从而解决了智能体的鲁棒性问题。

除了研究之外，Alon还创立并组织了AAAI旗下的ToM4AI研讨会，他主持过国际研讨会并管理过同行评审过程。他是《自主智能体与多智能体系统杂志》的客座编辑，也是《AI中的心智理论：基础、模型与伦理含义》（进行中）一书的合著者。Alon是即将在某机构（原MIT）入职的博士后研究员，由2026年罗斯柴尔德奖学金资助，他拥有某大学（原特拉维夫大学）统计学与机器学习专业的硕士学位。FINISHED

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

计算机