导读
最近由于工作需要,在阅读一些关于可解释AI方面的论文和书籍,对该领域有了一点浅显的认识,本文从技术简介、技术分类与主要研究方向加以简要介绍。
另外,与清华大学出版社合作,文末送出2022年新出版的可解释AI书籍3本,欢迎大家参加。
人工智能的飞速发展极大地影响和改变了人们生产生活的方方面面,机器学习、深度学习等技术越来越多地应用于各行各业。然而,在欣喜于AI技术为人类带来诸多收益和价值的同时,我们也或多或少地会对AI系统本身心存些许忧虑,包括:算法模型为什么有效?算法决策中哪些数据(特征)必不可少?算法应用是否存在某些未知风险?算法性能是否还有提升空间?这些疑虑既可能源自于算法应用人员或者算法服务对象,也有算法工程师自身的反思。
对于这些问题,可解释AI技术或许是能够予以解答的潜在方法。
01 可解释AI技术简介
可解释(explainable)一词由来已久,最早可追溯到上个世纪。但与AI技术结合催生可解释AI技术方向,大体是在本世纪初;而推向可解释AI技术愈发火热的重要事件则当属深度学习的第三次崛起和爆发(深度学习发展至今,一般认为经历了三次崛起和两次低谷)——神经网络的黑盒特性倒逼可解释AI技术的迅猛发展。
摘自:Explainable Artificial Intelligence (XAI): Concepts, Taxonomies,Opportunities and Challenges toward Responsible AI
那么可解释AI技术的概念和内涵是怎样的呢?应该讲,目前业界关于可解释AI技术的定义尚未形成统一和共识。所以这里援引维基百科中给出的定义:(可解释AI是)使得AI系统的决策能够被人们所理解(的一组方法或工具)。当然,扩号中的主语和宾语是笔者加上的。其他相关参考书籍或文献中,可能会给出不尽完全相同的定义,但大体描述是相当的。
从中我们也可以看出,可解释AI技术是一组方法或工具,其核心目的和价值在于使得人们能够理解AI系统的内在逻辑和决策流程。实话说,这个定义仍然有些简短和专业,所以我们不妨再从其中的关键字来加以补充解释。可解释AI,英文原词explainable,意为可解释的,在相关参考文献中常常还有另一个与之相近的词汇——interpretable,二者在不严格区分时含义相近,但其内涵却有很大差距:explainable侧重强调将原本不被理解的算法内在逻辑变得可理解,即黑盒模型白盒化;而interpretable则对应算法本身逻辑是可以被专业人士所理解的,但需要以更加通俗易懂的语言向普通人员加以阐释,即白盒模型通俗化。当然,这两个词本身都属于可解释AI的技术范畴。
另外,还有第三个在可解释AI领域经常被提及的词汇——transparent,意为透明的,按照相关文献中的说法,当描述一个模型是transparent时,这其中有三层含义:1)可仿真(simulatable),即可模拟算法决策流程;2)可解构(decompositable),即可进一步拆解算法构成机理,例如决策树模型中的分裂节点、叶子取值等;3)算法逻辑透明,即完全理解算法内在逻辑流程。
02 可解释AI技术分类
可解释AI技术发展至今,目前已有大量相关学术研究和理论成果,而初识这些技术的最有效方法就是对技术进行体系化的分类。按照不同的技术分类标准,可解释AI技术又对应多种分类体系,下面从三个方面加以陈述。
摘自:Opportunities and Challenges in Explainable Artificial Intelligence (XAI): A Survey
1.可解释AI技术适用的数据类型
就人工智能技术或者更具体到机器学习技术而言,一般可能会涉及到到5种数据类型,即结构化数据、图像数据、文本数据、时序数据和图数据,而可解释AI技术在这5类数据中均有所涉猎和研究。其中:
①结构化数据,也叫表格型数据,是机器学习中研究最早使用也最为常见的数据类型,可解释AI技术相关的研究也非常广泛和充分,几乎涵盖了所有可解释AI技术的细分方向,典型的可解释方法包括基于特征的解释、基于代理模型的解释、基于实例的解释(局部解释)等,例如特征重要性、部分依赖图、原型、反事实解释等;
②图像数据,常对应于计算机视觉方向,可解释AI技术涉及的典型任务是图像分类,可能的解释结果包括显著图、反事实实例等;
③文本数据,常对应于自然语言处理方向,可解释AI技术涉及的典型任务包括文本情感分析、机器翻译等,可解释结果包括文本高亮显示(显著图的一种)、注意力图等;
时序数据和图数据相关的可解释AI技术研究相对较少,但近年来也引起了部分学者的关注。
2.可解释AI技术对模型的约束
根据可解释AI技术适用于模型的不同,也可对可解释AI技术做如下分类:
①天然可解释的白盒模型,这类模型实际上无需其他额外的可解释方法,模型本身就具备某种可解释能力,典型例子包括线性回归、逻辑回归和决策树等;
②黑盒模型,这类模型需要应用可解释算法提供事后解释(post-hoc)。进一步地,根据可解释算法是否仅适用于特定的黑盒模型还是通用的方法,还可再细分为model-specific和model-agnostic两类可解释方法,前者依赖于部分模型内部结构或其他先验信息,而后者只需要知道输入及对应输出即可,具有更强的通用性
摘自:Explainable Artificial Intelligence for Tabular Data: A Survey
3.可解释AI技术的解释范畴
不同的方法呈现不同的输出结果,也对应不同的解释范畴。大体上,按照解释范畴差异,可解释AI技术可分为global和local两大类,其中global注重对模型在整个数据集上的表现,解释的结果是模型层面;而local则侧重对单个样本的表现,解释结果是样本层面。部分文献还将其进一步细分出第三种类型,即模型审察(model inspection),可理解为介于global和local之间的一种解释。
03 可解释AI相关工具
可解释AI技术发展至今,吸引了国内外众多高校和科技巨头的青睐,相关的开源工具也是呈现百花齐放百家争鸣的态势。这里罗列一些:
除了这些流行较广的工具和大厂推出的框架外,可解释AI相关的研究成果还有很多,但较为成熟、完整且好用的工具仍未形成大一统的局面,还不具备sklearn、torch/tensorflow这种主导性的框架,这或许也正是前沿技术发展过程中的独特魅力吧!