【新智元导读】加利福尼亚大学伯克利分校和马克斯普朗克信息学研究所的研究提出了一种能够自我解释的算法,有助于让人类理解机器学习的决策过程。这种被称为“指向和对齐”的系统可以指向用于做出决策的数据,并证成为什么使用这种方法。随着机器学习应用增多,黑箱问题也愈发严峻,这项研究提升了机器自我解释能力,也为更加可靠的应用打下了基础。
自我意识,或者说自我理解和解释的能力,是人工智能和人类智能之间最大的区别之一。虽然我们可能不能完全了解自己,但我们可以为大多数情况下的决策说出理由。
另一方面,AI 算法通常仅被编程为基于它们学到的数据而提供答案。也就是说,我们可以看到他们的结论,但大多数时候,我们不知道系统如何到达结论。这限制了我们在发生错误时改善AI的能力,也限制了我们在它们做出我们所不会做的决定时向它们学习。现在,一个不断增长的研究领域正在寻求改变。
考虑 AI 如何识别图片中的人。给定一个数据点(人的图片)的集群,AI 将从中找到模式(不同的个体),并绘制一条线(包含特定的人)。通常,这些数据的集群是如此复杂,以至于很难追溯机器画出的线。如果它错了,我们很难弄清楚为什么。
来自加利福尼亚大学伯克利分校和马克斯普朗克信息学研究所的新研究带来了一个可能的解决方案。这种AI算法以两种方式分析数据:一种方式回答原始问题,另一个识别用于回答问题的数据,并可以把数据翻译成正常英语。这个方案不是从事后追溯为什么发生了事情,而是记录了一路上的过程。
根据在 ArXiv 上发表的未经审查的研究论文,该算法目前唯一能做到的是识别图片中的人类行为,如打棒球或骑自行车。它对两组信息进行训练,一组用于确定图片中发生了什么,另一组用于回答“为什么”。
第一组使用人类活动的图像,将它与图像的描述相关联,然后与对特定任务的解释相关联。图片描述可以是一个人拿着两个杂耍球,而解释则指向正在运动的第三个球。第二个数据集由具有三个相关问题的图像组成,每个问题有10个答案,例如:“这个人是否游泳?不,因为……这家伙不在水边。”
因此,当神经网络被要求解释为什么它说一张图片显示棒球时,它会回顾一下用于该决策的数据,识别一个球拍,然后识别与摇摆的球拍位置相关的人,并且说“玩家正在摆动球拍。“
研究人员将这称为“指向和对齐”系统,因为它可以指向用于做出决策的数据,并证成为什么使用这种方法。
尽管人工智能算法在语音识别和自动照片标记中流行,大多数这样的系统很难理解,即使他们的设计师也很难理解。如果软件出现故障,就像 Google 照片应用程序错误地将黑人标记为大猩猩一样,研究人员无法快速确定他们的软件出现了问题。
“工程师们开发了能工作的深度学习系统,例如,它们可以自动检测猫或狗的面部,而不必知道他们为什么工作,也无法显示系统决策背后的逻辑”,Microsoft 研究员 Kate Crawford在新媒体与社会杂志上表示。
这个问题触碰到了机器学习的核心——当算法学习时,它需要利用数据,例如人类做任务的图片和相关文本,从中提取重要信息,然后将这些片段分类成只有它可以整体了解的数据集群。独立于直接人为干预而进行的学习过程使得这些算法不像汽车或交通灯;我们知道为什么汽车能工作,以及它们是如何构建的,但神经网络彻底改变了这个范式。
波士顿大学计算机科学教授 Kate Saenko 说:“我们没有在传统意义上'设计'深度神经网络,我们只设计他们的学习算法并为其提供数据,而系统自己学到其他部分。”
这就是为什么伯克利和普朗克研究所的研究是重要的:它从机器的头脑中选择一个想法,并将其翻译为人类语言。机器不再只能将其决策显示为一系列数学方程,它在解释自身结果方面将获得巨大提升。
弗吉尼亚理工学院的Devi Parikh说,“困难的是以人类可以理解的方式解释个别的决定。”Parikh 担任欧洲计算机视觉会议的主席,并作为访问研究员在 Facebook 工作。如果你看看以机器可读的形式呈现的决策理由,它看起来会像一组极长的数字字符串,可能长达几十万位。像伯克利和普朗克研究所这样的系统会利用这些数字,从中发现共同点,以确定机器正在看什么,并在一个人类能读懂的句子中描述它。
他们的工作不是对问题的完整解决 —— 它只在一个非常具体的情境下工作。但它指向一个未来,在这个未来中我们可以简单地要求机器解释它们的行动,并得到一个容易、清楚的答案。当我们把更重要的决定例如自动驾驶放在AI的手中时,这将变得越来越重要。
不过,如果机器学会了说谎,那就会是一个完全不同的故事了。
相关论文:https://arxiv.org/pdf/1612.04757v1.pdf
编译来源:http://qz.com/865357/we-dont-understand-how-ai-make-most-decisions-so-now-algorithms-are-explaining-themselves/