下文整理自
1-10落败,5分钟崩盘!星际2职业高手史上首次被AI击溃,AlphaStar一战成名
。
链接中文字冗长,通读后判断为拼自几篇或中或英的文章,
故结构不清晰且内容有重复。
虽是外行,仅出于个人喜好,洗稿后发于此。
旨在用简明文字叙述出阿尔法星和人类打星际2的事,
给有兴趣但无时间看长文和过多名词的人。
专业名词和科学解释已省略,资料未查证,可能有硬伤,请指正。
欢迎讨论。
谷歌DeepMind开发的AI程序AlphaStar,在《星际争霸2》中10-1战胜职业高手TLO和MaNa。
2003年,人类就开始尝试用AI解决即时战略(RTS)游戏问题。当时AI还未解决围棋问题,而RTS比围棋还要复杂。比如,围棋动作空间只有361种,而星际2大约是1026。
为了在游戏中获胜,必须在宏观战略和微观操作之间取得平衡。平衡短期和长期目标并适应意外情况的需要,对脆弱和缺乏灵活性的系统构成巨大挑战。解决这个问题,需要在几个AI研究挑战中取得突破,包括:博弈论、不完美信息、长期规划、实时、更大的操作空间。为此,DeepMind与暴雪2017年合作发布了一套名为PySC2的开源工具,在此基础上,结合工程和算法突破,才有了现在的AlphaStar。
实际上,此次人机大战主要内容并不是直播,而是回顾结果。相关信息简单交代如下:
第一场比赛,2018年12月12日,AlphaStar对TLO,5-0。
比赛中阿尔法星的APM中值是277,TLO为390。TLO说第四局对方打法完全改变,如同换了AI。其实,他每次对阵的AI 都不同。此役用的神族,而TLO主练虫族。
第二场比赛,2018年12月19日,AlphaStar又训练一周,对战MaNa,5-0。
第四局阿尔法星的APM几乎失控,飙到1000多。MaNa感叹AI牛逼的微操。
现场直播,2019年1月25日,AlphaStar对战MaNa,0-1,人类终于扳回一局。
MaNa开局打法疑似为上月和AlphaStar学的战术。此场比赛的阿尔法星为第二版——视野切换版。(智能体在游戏时虽然和人类能看到的小地图差不多,但人类需要明确合理的分配注意力,来决定到底要看哪片区域。这次的视野切换版和人类观察地图的方式相同。)
AlphaStar靠深度神经网络学会打星际。网络从原始游戏界面接收数据,素材来自暴雪发布的匿名人类玩家的游戏实况,学习游戏的宏观和微观策略,然后输出一系列指令,组成游戏中的某一个动作。为训练AlphaStar,DeepMind用谷歌三代TPU搭建了一个高度可扩展的分布式训练环境,支持许多智能体一起从几千个星际2的并行实例中学习。每个智能体用了16个TPU。智能体联赛进行了14天,相当于让每一个智能体都经历了连打200年游戏的训练时间。此过程像人类选手——从星际争霸诞生起,不断学到新策略,摒弃旧策略。除此之外,要鼓励联赛中智能体的多样性,所以每个智能体都有不同的学习目标。这是“多智能体学习算法”。最终的AlphaStar智能体,是联赛中所有智能体的策略最有效的融合,只要普通台式机,普通GPU就能跑。
AlphaStar的技术未来可用于气候建模、语言建模、视觉表示等需要长序列的应用场景。
DeepMind全部11局对决视频:
https://deepmind.com/research/alphastar-resources/
之前十局比赛的纪录片,腾讯可搜。
未来,如果不希望职业被机器人替代,
要不做个“教”人工智能学习的数据贴标人,
要不就做个产出中有无可替代情感成分的人吧。
不知道现在开始玩星际会不会年纪太大。。。
吃鸡容易,速隐刀难。
感谢看到这里,
头图来自电影《机器管家》。
领取专属 10元无门槛券
私享最新 技术干货