回顾去年8月OpenAI首次进入Dota 2的世界的场景,当时OpenAI在1V1的比赛中击败了人类顶尖选手Dendi。Open AI CTO Greg Brockman 表示将会转战 5 v 5,战胜人类世界级玩家不是“梦”。
这个梦似乎很快就成真了,今年6月底,OpenAI宣布,由五个神经网络组成的团战AI战队OpenAI Five,在电子竞技游戏Dota 2中5 V 5模式中击败了人类的业余玩家。
从那时起,OpenAI Five就一直想要挑战全世界最顶尖的Dota2职业玩家,然而,8月23日,在51分钟的比赛之后,OpenAI经历了一场完败。
据了解,这一次,有很多参赛队伍都想报名与AI比赛,于是OpenAI遇到了它的第一个对手:来自巴西的战队painN。虽然是本届TI8比赛中第一支被淘汰的队伍,但它仍是目前为止全球最为强大的18支队伍之一。
有了之前的AlphaGo围棋的胜利,在这场比赛开始之前,人们纷纷预测OpenAI 能够稳赢。但是竞技比赛实际上并没有这么简单,虽然OpenAI能在最短的时间内做出较快的反应,它在操作反应等方面比较有优势,但在整体策略与合作上,人类还是占据一些优势的。
这场的人机大战阵容如下:
• OpenAI 天辉方:
直升机、巫妖、死亡先知、冰女、潮汐
• paiN 夜魇方:
莱恩、死灵法师、巫医、火枪、斧王
经过51分钟的战斗,最终,paiN 的人类玩家在团灭 OpenAI 。OpenAI Five在今日遭受的当头棒喝,或许,我们可以从它之前的故事里,得到一些启示。
AI与人类之间的较量,一直都是计算机领域有趣的传统,从Deep Blue到AlphaGo再到现在的Dota2。但与围棋和国际象棋等回合制的游戏不同,在AlphaGo与人类对战的时候,人工智能总会有一定的时间进行思考。但是Dota2需要的是大量的事实决策和队友之间的默契配合。
过去的几年,游戏研究为机器学习领域带来了许多重大突破。 在2015 年,Google的 DeepMind 在Nature上发表了一项研究:他们开发出了深度强化学习(具体为 Deep Q Network)来训练 AI 玩家,在 Atari 2600 的一系列游戏中,表现接近甚至超过了人类的水平。到了第二年, AlphaGo 横空出世,基于蒙特卡洛树搜索和强化学习,它在和韩国围棋大师李世乭的较量中以 4:1 胜出;又过一年,AlphaGo 进化为 AlphaZero,不依靠人类知识,紧靠自我博弈,在国际象棋、日本将棋和围棋这三种棋类游戏中实现超过人类的水准。
将AI运用在游戏当中,一直是机器学习的热门课题。游戏中提供了很多人机交互的机会,而且游戏充满了复杂性和趣味性。就拿Dota2来说,它有 115 个可用英雄,每个英雄 1-10 个技能不等,上百件物品,20 几个塔、数十个 NPC,5v5 组成天辉和夜魇两派,在三条线路上互相博弈,从中衍生出包括对线、打野、Gank、团战、插眼等不同的战术和安排。
OpenAI正是采用了一种强化学习的机器学习,将AI投入到虚拟环境中,通过自学反复试验来达成目标。Brockman 称:“刚始时机器人完全随机地在地图上闲逛。几个小时以后,开始学习基本的技能。对于人类来说,需要 1.2-2 万小时的练习才能成为专业选手,这意味着 OpenAI 的机器人每天的练习量都相当于 100 个人类的练习时间。”
但事实上OpenAI有很多的限制,在 115 个不同风格的角色中,它们只能玩其中 5 个,仍然没有充分体验到 DOTA 2 的复杂性。OpenAI在训练中所有参数都是随机的,只能靠不断训练,摸索使用这些技能的方法。但是它并没有真正理解这些技能,有些技能很直接,例如冰女的大招放出来就一定会有伤害;有些则相对复杂,比如炼金术士,它的二技能「不稳定化合物」是一把双刃剑:5 秒内放出去可以晕眩敌方英雄造出伤害,超过 5.5 秒就会伤害自己。
对 AI 而言这就是一个头疼的问题:我到底是放还是不放?于是在很长时间的自我对抗中,AI 始终认为炼金术士的二技能都没什么用。这和人是完全不一样的,没有人会因为炼金术士的二技能伤血而不使用它。
这样看来,OpenAI 不是不想放开限制,而是 AI 需要学习的东西太多了,时间却很有限。从这个角度来看,OpenAI的Dota之旅,才刚刚开始。
领取专属 10元无门槛券
私享最新 技术干货