自打2017年期,人类就陷入了被人工智能疯狂“支配”的恐惧之中,此前无论是围棋几番战的昏天暗地还是灵活到足以在手中把玩核桃文玩的Dactyl,都让人们见识到了人工智能的强大。而今早的游戏圈,号称拥有最强运营能力的玩家再一次倒在了人工智能的脚下。
北京时间今天凌晨,人类和OpenAI Five展开了一场关于《Dota2》的人机大战,人类的代表是由半职业Dota大神所组成的战队,比赛的赛制为BO3(三局两胜)。在外界看来,这本是一次火星撞地球的大战,但结局却出乎所有人的意料。OpenAI Five拿下前两盘,轻松将人类《Dota2》选手击败,正如一名玩家所说:“这次,真的是人类一败涂地了!”
而在无关胜负的第三局比赛中,主办方让现场的观众为OpenAI Five选择了一套由小鱼人、隐刺、 斧王、 流浪、 痛苦之源组成的阵容,而人类方的阵容则是死亡先知、死灵法师、巫魔巫师、巫妖、直升机,最后,AI五个脆皮的弱势阵容,让人类战队稍稍挽回颜面。
一而再再而三的惨败让不少的玩家都心生疑惑,为何人类在于人工智能的游戏对决方面从来都是胜少负多呢?关于这个问题我们还需要从人工智能尝试游戏的教导方法说起。根据OpenAI研发人员的介绍,目前最热门的用来教导机器人玩游戏的方法之一,也就是OpenAI所使用的技术,名为强化学习。该技术的运作原理是:你给机器人一个目标,比如收集硬币,当机器人完成目标时给予它奖励。机器人用来完成任务的动作被其系统认为是较好的方法,因而当下一次尝试完成任务时,机器人更有可能继续采用那些动作。经过成百上千甚至上百万次的尝试以后,策略就会形成。例如,OpenAI玩《Dota 2》的机器人在两周内与自己进行数百万次的游戏对抗。在每一场比赛中,机器人的奖励都从为自己获得分数转变成到增加整个团队的分数。该研究小组称这是“团队精神”。需要注意的是这可不是简单的“熟能生巧”,而是一种有任务、有目的的多次尝试并且经验汇总。
当然,OpenAI的游戏追求不仅仅是为了在游戏中打败职业选手,而是学习如何做出成千上万个小决定来实现更大的最终目标。一个例子是OpenAI的另一个项目,它使用与《Dota 2》机器人一样的学习系统和算法:它的研究人员设计了一种算法来控制机械手,机械手能够握住一个物体,并用手指操纵它进入特定的方向。
OpenAI技术人员乔纳斯·施耐德(Jonas Schneider)告诉Quartz,这两个项目是在大约同一时间启动的。但他指出,当《Dota 2》团队在去年的比赛中展示了它们打败人类职业选手的进步时,机器人团队意识到了强化学习系统的潜力。这些实验使用的是OpenAI开发的一个名为Rapid的程序,该程序可协调数千个处理器来同时运行数百个强化学习算法。每一个算法都驱动机器人来玩游戏或者模拟手部移动动作,然后在实验结束后将机器人学到的东西同步给其他的机器人。利用比普通笔记本电脑高出数千倍的计算能力,机械手能够展现出令人惊叹的灵巧性,完全不需要人类通过编码来告诉它们该如何移动每一根手指。
对于OpenAI的机器人团队来说,《Dota 2》似乎是证明了这种技术能够在未来用于更加复杂的工作。《Dota 2》系统使用的计算能力是机械手的20多倍,训练时间为两周,而后者只有两天——这意味着机器人团队有望攻克需要更多时间去学习的问题。
领取专属 10元无门槛券
私享最新 技术干货