钛媒体注:本文来源于微信公众号量子位(ID:QbitAI),乾明、铜灵编译整理,钛媒体经授权转载。
几天前,DeepMind开发的AlphaStar以10-1的战绩打败星际2职业高手,引发了极大的关注。
DeepMind表示,自己能够赢,全靠策略。
但这个说法,遭到了大量的质疑,无论是的Reddit和Twitter上,还是知乎和微博上,大多人都持有的观点是:
AlphaStar能赢,全靠手速。
比赛中的一些时间段,AlphaStar的APM能够达到1000+,而最顶级的人类选手不过500+。更何况,AlphaStar的有效操作也几乎是炸裂的。
虽然这种情况没有持续多久,但手速快慢以及精确度,对于星际2太重要了。
在这些质疑中,有一篇文章引发了很多人的关注,Medium上的鼓掌超过了1.3K,Reddit上的Vote也已经逼近700。
这篇文章的作者是一名来自芬兰的小哥,名为Aleksi Pietikäinen,目前在芬兰最大的金融公司OP Financial Group工作,自称是星际2粉丝,对开发AI也有研究。
他在文章中以充分的论据指出,在比赛中,AlphaStar在操作速度和精准度上远远超过了人类,这在很大程度上影响了战局。DeepMind声称已经限制AI执行超越人类能力的行为,但他们没有成功做到这一点。
通常情况下,APM是反映玩家水平的一个重要标准。
目前,星际2中公认的顶尖人类高手是芬兰的职业选手Serral,在2018年WCS上,9场重要比赛赢得了7场,一举夺冠,创造了历史记录。
他的手速很快。很多人都认为他应该是世界上最快的。有多快呢?看下面的动图:
但即便如此,Serral也不能够长时间将APM维持在500以上。虽然有个800+的爆发,但也只是持续了几分之一秒,也很可能是垃圾操作。
AlphaStar呢?爆发后APM能够达到1500+,有时候能够在APM达到1000+的时候维持5秒钟,而且大部分是有效操作。
一分钟1500个操作,就相当于一秒钟25个操作。这对于人类来说,是不可能做到的。
而且,5秒钟的时间在星际2中,也是一段非常长的时间。尤其是在重要的场景中,5秒的高效快速操作,将会为后期赢得胜利奠定关键的基础。
下面的动图,是第三场比赛中,AlphaStar对Mana的一场交战场景,AlphaStar的APM达到了1000+,并维持了5秒。
在第四场比赛中,APM达到了1500+:
虽然不乏有人说,AlphaStar的平均APM只有277,仍然是可以接受的。但无论如何,它持续的爆发,是人类远远做不到的。
如果把有效操作和垃圾操作考虑在内,AlphaStar就更逆天了。
人类玩家的APM中,有很多都是无效操作,这些操作并不会游戏产生有效影响。
考虑了这些因素之后,衡量一个玩家手速与精确度时,就有了一个新指标:EPM。
剔除掉无效操作之后,Serral的EPM能够达到344,每秒钟有5-6次有效操作。这几乎是闻所未闻的,以至于很多人都不敢相信这是真的。
如果,AlphaStar能在没有垃圾操作的情况下进行游戏的,这就意味着它的峰值APM就等于它的EPM了。速度能达到最顶尖的人类选手的4倍!
虽然AlphaStar团队表示,这些APM并不全是有效操作。但无论如何,人类都是没办法复制AlphaStar这些操作的。
在败给AlphaStar之后,MaNa谈到了比赛的感受。他说,AI最好的一面是单位控制,在我们情况差不多的时候,AlphaStar能轻松获胜。
但最糟糕的一面也是如此,AI非常确信自己能够通过单位控制获胜,以至于没有做其他任何事情,导致最后一场失利,比赛中没有多少关键的时刻,它能赢在于机制。
这也不是DeepMind想要看到的情形。
AlphaStar团队也致力于开发不超越人类操作能力的智能体。联合负责人David Silver反复表示,AlphaStar不会超过人类选手的表现。
首席设计师也说,让系统能够“像人一样”训练是可取的,如果只是通过很高的APM来将游戏推向极限,听起来可能很酷,但这并不能用来评估智能体的真实能力。
如上所述,AlphaStar的研发团队对AI系统的APM进行了限制的。Aleksi Pietikäinen推测,可能会限制以下方面:
1、整个游戏中的平均APM。
2、短时间内的爆发APM。将APM限制在每秒4-6次是一个合理值。Serral有效操作每秒钟还不到6次。
但与Mana对战的AlphaStar最高每秒操作25次左右,这比人类选手最快情况还要高,因此Aleksi Pietikäinen认为出现这种情况是不合理的。
3、点击间隔。即使AI的点击速度被限制了,它仍然可以在瞬间执行完动作,不用去考虑人类面临的鼠标点击间隔问题。
三个原则确定后,接下来需要去训练模型了。DeepMind的方法是,下载了上万条人类高级玩家打游戏的视频,开始模仿学习。
在这个阶段,AI会试图模仿人类在游戏中所做的一切,包括无效操作。因为在输入给模型的视频中,人类确实进行了很多无效操作,AI也会学到。
AlphaStar的最大爆发APM,最初与人类在同一起跑线。上面也说到过,因为此时AlphaStar执行的大多数操作都是无效的,因此在对战中没有有效的APM支撑,并不占优势。
但无效操作太多会一直拖慢训练进度,为了加速开发,DeepMind团队改变了对APM的限制,允许出现高爆发,Oriol Vinyals在Reddit的AMA中也提到了这一点:
5秒的时间段内APM最大为600,15秒内APM为400,30秒时间内为320,60秒内为300。如果AI在此期间内执行了更多操作,系统会选择删除/忽略操作。
乍一看DeepMind对星际2的AI的设置合情合理,但如果细想前面讨论过的人类的爆发速度及操作精确度与点击间隔时间,又不是那么回事。
举个人类无效操作的最典型例子:想指挥单位移动、攻击,就要用鼠标点击地图上某个位置,这时候,人类的点击速度会尽可能最快,这些点击中也就有很多是无效的。
AI也会跟着学到这些无效操作。
而人类的点击速度是有限的,所以AI一开始学到的操作速度也会受到同样的限制。而它后来表现出的超人手速和这个人类速度相比,之间差了很多额外的“自由”APM。AI可以在这些自由APM上随意实验。
在交战的时候,AI就会拿这些自由APM来实验,从中学会能得到更好成绩的新行为模式,舍弃原本的无效操作。
这对人类来说,似乎是非常不公平的事情。
既然AI学会了更有效的操作,为什么DeepMind没有重新启用推出SC2LE环境时的180 APM严格限制呢?
这可能是因为,AI偶尔还是会有无效操作出现,这会明显吃掉它的APM资源,在交战时伤害到它的表现。
在DeepMind给出的官方资料中还有一些疑点。
在APM统计中看出,虽然Mana的APM平均值更高,但AlphaStar的“长尾”远远高于人类,在这些情况下AI用人类无法企及的精确度完成任何操作足矣。
可以看到,TLO的APM甚至到了2000,这个数值高得似乎有些离谱,这种情况可能是通过加速键盘实现的,这也会带来无效操作。
但DeepMind并没有解释TLO的APM是怎么来的,但这样会让人误以为AlphaStar的操作是合理的。
最后需要说明的一点是,这篇文章只是Aleksi Pietikäinen的观点。
也有一些人认为,就算AlphaStar的APM爆发突破了人类范畴,但它带来的突破性进展及其背后的意义,也是毋庸置疑的。
领取专属 10元无门槛券
私享最新 技术干货