DeepMind 官方博客今日更新,介绍了理解AI 智能体间合作原理的最新研究:
“我们采用深层多代理强化学习来模拟AI 智能体间合作的出现。新的连续社会困境的概念允许我们模拟理性代理如何互动,并根据环境的性质和代理的认知能力达到或多或少的合作行为。研究可以使我们更好地理解和控制复杂的多代理系统的行为,如经济,交通和环境挑战。”
自私的人经常通过合作来实现伟大的事情。为什么会是这样的情况,在什么样的情况下,他们会只考虑自己的最佳利益,忽视别人?
DeepMind通过使用强化学习技术,让AI 智能体通过电子游戏“囚徒的困境”类游戏模拟竞争与合作关系。
在结论部分,DeepMind 写道:总之,我们的研究表明,我们可以将现代的深层多智能体强化学习AI技术应用到到社会科学中古老的问题,探寻诸如“合作的出现”的奥秘。我们可以把经过训练的人工智能体作为经济学理性代理模型“经济人”的近似物。因此,这样的模型给予我们独特的能力,在模拟人和人相互作用的智能体间进行策略预测和干预。
论文摘要
数十年来,诸如“囚徒困境”这样的Matrix Games已经引领了关于社会困境的研究。然而,它们不可避免地把合作或孤立的选择当作一个行动基础来看待。在现实世界的社会困境中,这些选择的扩展只是暂时性的。合作带有一种策略性,而非行动基础。我们介绍了sequential social dilemmas 的概念,它共享了Matrix Games 社会困境中的混合激烈结构,同时要求智能体学习在自己的策略意图中运用的policies。我们分析了多个自利独立智能体所学习的policies 的动态,每一个都使用了我们自己的深度Q-network。实验使用了两个马尔科夫游戏:一个是收集水果;另一个是Wolfpack 狩猎游戏。我们描述每个领域中的学习行为如何随着包括资源丰度在内的环境因素而变化。我们的实验表证明了,AI 智能体间,竞争是如何从共享资源中出现的,并且也并阐明现实世界社会困境连续性的本质如何影响合作。
论文地址:https://storage.googleapis.com/deepmind-media/papers/multi-agent-rl-in-ssd.pdf
智能体在两个游戏:收集水果和Wolfpack 狩猎游戏中的表现。