人工神经网络(Artificial Neural Network,ANN)是一种模仿生物神经网络结构和功能的数学模型或计算模型,在给定条件下能近似地逼近任意复杂的函数或分布。近年来,随着深度学习,即深度神经网络的迅速发展,神经网络模型在自然语言处理、语音识别、计算机视觉等众多领域获得突破性进展,取得了令人瞩目的成果。
然而随着深度学习技术在多个领域的大量应用,其背后隐藏的安全问题也随之而来。特别是在医学诊断、网络安全、自动驾驶等对安全性有较高要求的领域,深度神经网络所隐藏的安全风险限制了其自身在更多领域的应用和推广,引起了政府、学术界及工业界的关注。基于深度神经网络的人工智能系统主要面临结果不可验证和过程不可审查两大安全问题。结果不可验证指的是基于深度神经网络的人工智能系统输出结果无法被判断、预测,智能系统行为边界难以掌握,导致系统不可控,本质上是深度神经网络结果不可判读。过程不可审查指的是系统决策背后的逻辑不明,代码实现缺乏可信度,本质上是深度神经网络的实现机理与决策逻辑难以理解。
实际上,人工智能系统所面临的两大安全问题的根源在于深度神经网络的不可解释性。深度神经网络可解释性定义为可判读(interpretability)和可理解(explainability)两方面的内容。可判读性,即深度神经网络输出可判读,结果可预测,能有效建立起输入空间与输出空间的映射关系,有利于人们掌握系统的行为边界,从而避免基于深度神经网络的人工智能系统所面临的不可验证问题。可理解性,即深度神经网络内部工作原理透明,各模块作用意义可见,能对模型输出结果做出解释,揭示其背后的决策逻辑,并能有效地分析模型内部的逻辑漏洞和数据死角,解决基于深度神经网络的人工智能系统所面临的不可审查问题。因此,随着基于深度神经网络的人工智能系统的广泛应用,亟须对神经网络的可解释性进行研究并构造可解释的神经网络,从而提高人工智能系统的安全性,保障人工智能应用在各大领域能安全有效地运行。
针对上述人工智能系统中的安全问题,国际标准化组织/国际电工委员会(ISO/IEC)成立了人工智能可信研究组,开展人工智能安全标准化的研究。其主要工作为:通过研究人工智能可验证性、可解释性、可控性等调查建立可信人工智能系统的方法。目的是通过增强深度学习的可理解性来建立可靠、可信的深度学习系统,主要解决其面临的过程不可审查的安全问题。目前,神经网络可解释性的研究大多基于数据可视化和代理模型等技术,即在深度神经网络模型构建前后,对输入、输出进行可视化,并依此对神经网络层进行解释。这是对深度神经网络模型可判读性的研究,其本质上仅涉及到深度学习智能系统安全中的不可验证问题。换言之,这些工作难以解决其所面临的不可审查问题。因此,亟待研究一个能同时提高深度神经网络可判读性和可理解性,进而解决基于深度神经网络的人工智能系统中结果不可验证和过程不审查两大问题的方法。
可微编程(Differentiable Programming)作为一种新型的研究方法,受到了学术界的关注。可微编程最早由ACM图灵奖得主雅恩·乐昆(Yann LeCun)教授提出,其核心思想是将神经网络当成一种语言,从而描述客观世界的概念以及概念相互之间的关系。这与现代科学将数学视作一门科学语言从而描述客观世界的思想是一脉相通的。目前可微编程主要集中在将现有的机器学习的方法转化成等价的神经网络,使得模型同时具有传统统计机器学习方法的可解释性强以及深度神经网络性能较优等优点,极大地提高了深度神经网络的可判读性和可理解性。与现有的神经网络可解释性研究方法不同的是,基于可微编程的神经网络可解释性研究,旨在直接构建一个可解释的神经网络模型,而非对已有的深度神经网络模型进行解释。后者往往是通过一个新的模型来解释现有的不可解释的“黑箱”神经网络,而这样的可解释性研究通常是不可靠的,甚至会造成误导。前者则通过直接构建一个继承自统计机器学习或现实物理模型的可解释的深度神经网络模型,提供一个可靠的、透明的、可信的人工智能系统。
综上,神经网络的可解释性不同于可解释的神经网络。前者一般针对已有的神经网络结构、行为、决策等进行解释,而后者则着重直接构建可解释的神经网络模型,其结构、工作原理、决策行为及输出结果本就能为人理解。但是目前大多相关研究仅局限于神经网络的可解释性而非可解释的神经网络。正如鲁丁(Rudin)教授2019年在《自然-机器智能》(Nature Machine Intelligence)上发表的论文所言:人们亟须对可解释的深度神经网络进行研究,而不应局限于研究神经网络的可解释性。
领取专属 10元无门槛券
私享最新 技术干货