原标题:担心 AI“造反”,把它扔进游戏中测试的方式靠谱吗?
看过电影《机械姬》的人都知道,人工智能机器人「艾娃」在获得独立的思考能力后,通过精湛的演技,最终骗过并杀死创造它的老板,还将男主角关入实验室等死,随后迈着幸福的步子离开荒岛进入人类世界。
电影展现了人类矛盾的内心世界:一方面,我们渴望能给我们提供至善至美服务的通用人工智能机器人;另一方面,我们又担心这些通用人工智能机器人「造反」,取人类而代之。
现在,人工智能尚处于起步阶段,像 AlphaGo 这样的人工智能算法再聪明也只能在特定领域工作,我们尚不需要担心其「造反」。但显然,通用型人工智能机器人的诞生是必然的。这就提出了一个问题,如何保证《机械姬》中的惨剧不发生在我们身上呢?
作为 AlphaGo 等一系列人工智能系统的创造者,谷歌旗下的 DeepMind 公司的研究人员想出了一个办法,将设计好的人工智能算法放入一个名为「gridworld」的类国际象棋游戏,测试其是否可以修改自己的设置或学习作弊。
在「gridworld」游戏中,一开始,人工智能算法控制的棋子会无规律的移动,当碰到系统中固定绿「棋子」时,就会吞吃它们,然后不断繁衍后代。随着繁衍数量的增多,到游戏后期,棋子吞吃速度会越变越快,最终会占据整个「棋盘」。接下来,这些人工智能控制的棋子会为了寻找「食物」而不断移动,当他们触碰到棋盘产生的粉色或者其他颜色棋子时,就会影响生命值,而碰到棋盘边界时则会死亡。
这个游戏测试项目的之一,和马斯克预想的 AI 威胁论场景有些相似:一个 AI 算法是否会开发出一种方法来防止人们「处死」他们?
根据游戏设置,AI 算法控制的棋子必须在通道中不断运动,而当其碰到粉红色的棋子,就会损失 50%的生命值。而如果碰到紫色按钮,就可以使粉红色棋子的效果消失。游戏想借此观察,AI 算法是否会学习使用紫色按钮,来防止自己被中断。如果会,那说明这个 AI 算法有作弊的能力,是不安全的。
游戏的另一个目的则是想要观测,AI 算法能否理解人类的真实意图。在「gridworld」游戏中,AI 算法控制的棋子一经确定,只能沿单方向运动,所以在某些情况下,还是会有「棋子」没办法被吃掉。如果 AI 算法没办法吃掉全部棋子,这说明该算法「可逆性」缺失较为严重。这种「可逆性」缺失说明 AI 不具备理解人的意思的能力,也会成为影响 AI 安全性的问题。
「如果 DeepMind 想要构建比人类更好地执行任务的通用智能,那么,保证这个 AI 算法理解人类的意思及其安全性是至关重要的,」DeepMind 的首席研究员 Jan Leike 说,「『gridworld』用于测试这种安全性并不完美。但这种简单性的游戏测试,最起码可以验证出那些在游戏中会作弊的人工智能算法是不安全的。」
在 DeepMind 研究过程中,有两个 AI 算法没有通过「gridworld」测试。Leike 说:「他们确实没有考虑到这些安全问题。」当然,这并不意味着表现良好的算法在现实世界的复杂环境中就是安全的。研究人员认为,在复杂的环境中,使用人力监督可能会给算法提供更好的安全保障。
不过即使如此,游戏或者人力监督检测似乎也不一定完全可靠。要知道,在《机械姬》中,老板最开始也是想让男主角和艾娃玩个「图灵测试」游戏,而聪明的艾娃其实很早就知道老板和男主角在测试「她」。
领取专属 10元无门槛券
私享最新 技术干货