研究人员指出,与传统的棋盘游戏和雅达利游戏相比,MOBA 这种即时的策略游戏需要高度复杂的动作控制,而且其环境也往往更加复杂。
以《王者荣耀》为例,单单是 1v1 的情况下,玩家随时要面临 10^600 种可能状态,以及 10^18000 种可能行动。AI 不仅要学会计划、攻击和防御,还要学会使用技能组合、诱导或欺骗对手,同时还要应对场景中的各种危险,如野怪和防御塔。
腾讯研究人员的系统对图像特征和游戏状态信息进行了编码,令每个单位和地方目标都转化为数字形式。该框架在总共 60 万个处理器核心和 1064 张显卡(包括英伟达 Tesla P40s 和英伟达 V100s)上运行,处理了 16000 个包含非隐藏的单位属性和游戏信息。
训练一名英雄需要用到 48 块显卡和 18000 个处理器核心,以 80000 个样本每秒的速度进行训练。系统一天的训练量,就相当于人类花费 500 年所积累的经验。
论文的合著者指出,「绝悟」的Elo 等级分(一个衡量各类对弈活动水平的评价方法)来自于一个计算零和游戏中玩家相对技能水平的系统,在预料之内随着训练而稳步上升。
「绝悟」每 133 毫秒执行一次操作,相当于一个顶级业余选手的响应时间。根据研究人员的说法,它在 80 小时内变得相对稳定,不到 30 小时就已经能够击败排位前 1% 的《王者荣耀》玩家了。
「绝悟」最早在今年 8 月在吉隆坡举办的《王者荣耀》最高规格电竞赛事上亮相,当时「绝悟」在比赛特设环节与职业选手的 5v5 对战中获胜,而且在同一天的 ChinaJoy 上,也在首日创造了 504 场测试仅输一场的战绩。
在 ChinaJoy 上,「绝悟」也与五位职业选手进行了对战。尽管对手都是极强的职业选手,但「绝悟」当时做到了场均 5 杀,而场均死亡次数仅有 1.33。在 ChinaJoy 为期四天的公开挑战中,「绝悟」与现场玩家的 2100 场比赛中,胜率为 99.81%,AI 控制的 8 名英雄中,有 5 名获得了 100% 的胜率。
腾讯的研究人员表示,他们计划在不久的将来把他们的框架和算法都开源,以促进 MOBA 这样的复杂游戏的研究。
来源:VB
领取专属 10元无门槛券
私享最新 技术干货