AI再称霸 | MIT 强化学习程序任天堂格斗游戏跻身顶级玩家（附论文）

新智元

发布于 2018-03-27 11:30:10

1.4K0

发布于 2018-03-27 11:30:10

文章被收录于专栏：新智元

【新智元导读】 MIT 计算机科学研究团队最近使用强化学习开发的AI程序登陆任天堂推出的对战型格斗游戏《任天堂明星大乱斗》PK 人类玩家，现已跻身顶级玩家之列。国际象棋、围棋和扑克之后，电子游戏可能会成为下一个AI称霸的地方。

经典的《任天堂明星大乱斗》（SSBM）游戏很快将被 AI 征服。MIT 计算机科学和人工智能实验室开发了一个该游戏的 AI 玩家，它比任何你在游戏中遇到的对手都要强大，现在上了该游戏的全球排名榜。

如果你不熟悉大乱斗游戏，稍微介绍一下。这是一个任天堂推出的对战型格斗游戏，游戏角色来自任天堂的各种游戏。可爱的外观掩盖了游戏的战略深度，正如论文摘要中写道：“SSBM 的环境具有复杂的动态性和部分可观察性，使其对人类和机器都相当有挑战性。而且多人角色对战更是挑战。”

由 Vlad Firoiu 带领的这个团队训练了一个神经网络模型，通过喂给它所有的游戏元素（玩家、壁架，等等）的坐标，以及游戏激励，进而使模型在游戏中获得胜利。这个模型不会像其他一些系统那样通过观看屏幕来学习，而更像是一个游戏里的计算机玩家，从头开始学习。

正如其他计算机模型也经常出现的情况，它的打斗风格混合了传统特征和新奇特征。Firoiu 写道：“它使用了人类的技巧和一些奇怪的新技巧，两者都受益于更快的人类反射活动。这有时候会非常保守，因为直到它看到对手开始攻击前，它不愿意先攻击。其他时候，它很危险，会演变成快速杀死对手的风格。”

视频内容

上面的视频是该系统与全球排名前100的几名玩家的对战，可以看到，总体来说它赢的情况比输的情况多。但它的射弹不够好（在玩鹰队长时），而且它还有一个秘密弱点：

“如果对手缩在角落里很长一段时间，它会变得怪异，最终自杀，”Firiou写道。他补充说：“这应该对把在模拟环境中训练的智能体放入现实世界是个警告。”

这不是一项能得诺贝尔奖的非常伟大的研究，但与围棋、Doom 等游戏一样，这类研究是了解现有学习模型和技术在新环境中会如何表现的好方法。

这个程序跟AlphaGo有很多相像之处，也可以通过自我对抗进行学习。

论文摘要

最近，AI 在游戏中的能力获得了爆发式的进步。许多传统的强化学习任务，从Atari 游戏到汽车控制再到棋盘游戏，这些问题都可以用一些非常通用的算法得到解决，这些算法都基于深度学习，也就是从经验中进行学习，对某一领域并没有储备过多的专业知识。在本项研究中，我们将会研究这些方法在游戏Super Smash Bros. Melee (SSBM)（任天堂明星大乱斗）中的表现。SSBM 游戏的环境中有着非常复杂的动态以及部分的观察（而非全局的），使得游戏难度大增，不管对人或者机器来说，要玩好这一游戏都是具有很大的挑战性的。此外，多玩家的模式也增加了游戏的难度，因为最近强化学习取得的进步大多数都集中在单一智能体的环境中。虽然如此，我们将通过本研究展示，要训练在这种环境下胜过人类玩家的智能体是可能的，这在多人玩家的电子游戏中是一个最新的成果。

方法

使用了两个主流的无模式（model-free ）强化学习算法：Q-learning 和 Policy Gradient Methods。在标准上，论文遵守了这两种技术的前期简要综合研究成果。然后，研究使用 “s” 来表示状态，然后用 “a” 表示行动，使用 “r” 来表示回报，所有者三个表示可能会被一个时间步（ time step）来进行优化。另外，大写字母代表随机变量。

Q-learning：