据theverge消息,在上周Dota2的三场比赛中,两支职业玩家队伍战胜了由Elon Musk创立的研究实验室OpenAI组建的一组AI机器人。这让人们开始怀疑AI的能力达到某种上限了?又或者这证明某些技能对于计算机而言过于复杂?
答案是否定的。这对于机器人来说只是进步中的一个“颠簸” ,通过机器学习,AI机器人终将征服游戏。
这次参与比赛的五个机器人由OpenAI创建,它们使用相同的算法但独立运行进行训练。在训练过程中,工程师并未按照
Dota 2
的规则对机器人进行编码,而是在游戏中设置带有奖励的任务,引导机器人进行自主学习。在这种及其低效的学习方式下,每个机器人每天仍然要训练相当于人类180年的训练量。如果需要一个12000到20000小时的练习才能掌握某项技能,那么机器人每天都要经历“100次的人生”。
运行这些算法,使机器人以极快的速度播放游戏是一个巨大的挑战。这大约需要256个GPU和128000个CPU核心,才能使OpenAI拥有足够的处理能力。这也就是为什么专家经常将OpenAI Five作为一个工程项目和研究项目进行讨论的原因。
其实这三场比赛的结果是较为平均的,第一场和第三场是人类领先,第二场机器人是获胜者。但我们在比赛中发现,一旦人类抢先获得了相当大的优势,且人工智能对于胜率的预测不足50%时,机器人就不会冒险争夺优势。评论员猜测这可能是因为人工智能首选“以90%的确定性获胜1分,胜率为50分,确保率为51%。”不足这一标准人工智能就容易“消极怠工”,也是人工智能失去这场比赛的原因之一。
机器人往往在近战中表现出色,但与人类在长期战略的比较中还有一定欠缺。比如在于中国职业玩家“老传说俱乐部”的对决中,玩家选择了不对称策略,一名玩家收集资源增强英雄,其他玩家辅助对他进行干扰。尽管这是人类玩Dota的惯用风格,但机器人并未察觉。
这个战略问题不仅对OpenAI很重要,对于人工智能研究也尤为重要。因为使用这种方法创建的AI通常强调
即时
支付而不是长期奖励,所以缺乏长期规划通常被视为强化学习的一个主要缺陷。而构建一个长时间工作的奖励系统是困难的,因为系统习惯于在机器人完成进行某些操作时给予奖励,而不是引导机器人对未来情况进行预测而预留某些操作。
在这场Dota比赛中,人工智能是否赢得比赛并不那么重要,失败是人工智能最好的学习方式。它告诉我们AI能做什么、不能做什么以及将来会发生什么,并为研究人员提供新的方向,使研究人员开发出在未来几十年内为世界提供动力的人工智能技术成为可能。
编辑:青葙子
您的关注,就是我最大的动力
领取专属 10元无门槛券
私享最新 技术干货