Deepmind推出的星际争霸II项目AlphaStar,这是第一个打败顶级职业选手的人工智能。在12月19日举行的一系列测试赛中,AlphaStar先后以5:0的相同比分击败了来自Team Liquid战队的Dario “TLO” Wünsch和Grzegorz "MaNa" Komincz。就在昨天也就是2019年1月24号的表演赛上AlphaStar0:1负于MaNa但这并不影响他以10:1的悬殊总成绩胜出。
几十年来,游戏一直被用作测试和评估人工智能系统性能的重要方法。随着能力的提高,研究开始寻求越来越复杂的游戏,捕捉解决科学和现实问题所需的不同智能元素。近年来,星际争霸被认为是最具挑战性的即时战略(RTS)游戏之一,也是有史以来最经久不衰的电子竞技之一,已成为人工智能研究的“重大挑战”。
AlphaStar的行为是由深度神经网络生成的,该神经网络接收来自原始游戏界面的输入数据(单位及其属性列表),并输出构成游戏内动作的一系列指令。更具体地说,神经网络架构将变压器躯干,与具有指针网络的自动回归策略头和集中值基线的深度LSTM核心相结合,应用于单元。这种先进的模型将有助于机器学习研究中的许多其他挑战,包括长期序列建模和大输出空间,如翻译,语言建模和视觉表示。
AlphaStar还使用了一种新颖的多智能体学习算法。神经网络最初是由暴雪发布的匿名人类游戏的监督学习训练的。这使AlphaStar能够通过模仿学习星际争霸阶梯上玩家使用的基本微观和宏观策略。这个初始模拟在95%的比赛中击败了内置的“精英”级AI – 相当于一个人类玩家的黄金级别。
AlphaStar的训练模式
首先会构建一个AlphaStar league,作为数据库,第一代AlphaStar是从人类的比赛视频里面学习游戏,而后会演化出新的AlphaStar,第一代版本的AlphaStar被冻结,新的AlphaStar会继续演化,每一代AlphaStar都会在彼此的对战中进化,大量实战的同时保证对战质量的提升。
通过暴雪的联赛系统,和天梯上各个分段的人对战,从而判断和进化AlphaStar的能力
研究人员发现AlphaStar在不断地训练当中,不仅仅提高自己的策略,而且不断更新自己的兵种搭配。
虽然理论上来说机器的APM(每分钟操作的次数)可以达到每分钟成千上万次,但是AlphaStar在与mana和TLO的实战当中,APM却只有280左右,这是因为AlphaStar的训练基础是基于对录像的分析和人类行为的模拟。这也恰恰是AlphaStar在2019.1.24号线下赛被mana针对并击败的原因。
虽然星际争霸只是一个游戏,但我认为AlphaStar背后的技术却可以用来解决其他很多问题。比如它的神经网络架构能够从已有的信息中对很长时间内的可能行为进行建模。星际争霸的每一帧都需要输入各项数据,神经网络能够预测到每帧之后游戏剩余部分的行动顺序。在很长的数据序列上进行复杂预测,这可以应用在天气预报、气候建模、语言理解、医疗等各个方面。
当然了这篇文章作为我上一篇文章“无人生还”的智能期货时代的续篇,我也是希望大家能从Deepmind对于AlphaStar的研究和开发中受到启发,能够对自己交易模型的建立起到帮助。
领取专属 10元无门槛券
私享最新 技术干货