最新消息:一种名为Agent57的人工智能已经学会在Arcade学习环境中玩所有57款雅达利(Atari)电子游戏,这是一组经典游戏,研究人员用它们来测试深度学习模型的极限。由DeepMind开发的Agent57使用相同的深度强化学习算法,即使在以前的人工智能难以应付的游戏中,也能达到超人的水平。能够学习57种不同的任务使得Agent57比以前的AI更加通用。
游戏里有什么?游戏是测试人工智能的好方法。它们提供了各种各样的挑战,迫使人工智能提出一系列的战略,但仍然有一个明确的衡量成功的指标——训练的目标。但事实证明,雅达利的四场比赛尤其难以击败。在蒙特祖玛的《复仇与陷阱》中,AI必须尝试许多不同的策略,然后才能找到获胜的策略。在Solaris和Skiing滑雪游戏中,动作和奖励之间可能会有很长时间的等待,这让人工智能很难知道哪些动作获得了最好的回报。
为了应对这些挑战,Agent57整合了DeepMind对其Deep-Q网络所做的多项改进,这款AI在2012年首次击败了几款雅达利游戏,包括一种记忆形式,它可以根据之前在游戏中看到的东西做出决定,以及奖励系统,鼓励AI在确定战略之前更充分地探索自己的选择。然后,这些不同的技术由元控制器管理,元控制器在使用特定策略和进行更多探索之间进行权衡。
为什么重要:尽管他们取得了成功,我们今天所拥有的最好的深度学习模式并不是万能的。大多数人往往擅长一件事,而且只擅长一件事。在深度学习中,训练人工智能超越一项以上的任务是最大的开放挑战之一。学习57种不同任务的能力使得Agent57比以前的游戏AI更加通用,但是,有一点经常被忽略,就是它仍然不能一次学习玩多个游戏。Agent57可以学习玩57款游戏,但不能同时学习玩57款游戏。它需要为每个新游戏重新训练,即使它可以使用相同的算法来做到这一点。在这方面,Agent57与AlphaZero类似,后者是DeepMind的深度强化学习算法,可以学习下棋、围棋和射击——但不是一次全部。对于人类婴儿来说容易获得的学习通用性,仍远远超出了AI的能力范围。
领取专属 10元无门槛券
私享最新 技术干货