首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >可解释且有效的图神经加性网络

可解释且有效的图神经加性网络

作者头像
CreateAMind
发布2026-05-29 14:28:41
发布2026-05-29 14:28:41
100
举报
文章被收录于专栏:CreateAMindCreateAMind

可解释且有效的图神经加性网络

The Intelligible and Effective Graph Neural Additive

Networks

https://arxiv.org/pdf/2406.01317v2

摘要

图神经网络(GNNs)已成为在图结构数据上进行学习的主流方法。然而,大多数GNN作为黑盒模型运行,需要事后解释,这在透明度至关重要的高风险场景中可能并不足够。在本文中,我们提出了一种设计上即可解释的GNN。我们的模型——图神经加性网络(GNAN),是可解释的广义加性模型类别的一种新颖扩展,能够被人直接可视化并完全理解。GNAN被设计为完全可解释,通过模型的直接可视化,在特征和图层面上提供全局和局部解释。这些可视化精确描述了模型如何利用目标变量、特征与图之间的关系。我们在不同任务和数据集的一系列示例中展示了GNAN的可理解性。此外,我们表明GNAN的准确度与黑盒GNN相当,使其适用于那些透明度至关重要且需要高准确度的关键应用。

1 引言

在从生物学到欺诈检测的许多领域中,人工智能(AI)被应用于具有图结构的数据。神经网络,特别是图神经网络(GNNs),已成为这些应用中的主流方法(例如,参见Zhou等人[1])。尽管GNN在预测正确性方面表现出高准确度,但它们通常作为黑盒模型运行;因此,其决策过程是不透明的。透明度对于评估潜在偏见或安全风险至关重要,在刑事司法、医疗保健和金融等对个人生活产生重大影响的领域尤为关键。在这些情境中,可解释模型尽管有时准确度较低,但可能优于复杂的黑盒模型[2]。此外,自动化决策过程的透明度正日益成为法律强制要求。尽管关于欧盟《通用数据保护条例》(GDPR)是否隐含“解释权”[3, 4]仍存在争议,但拟议的《欧洲人工智能法案》明确解决了这一问题,指出“为了解决某些AI系统的不透明性和复杂性所带来的担忧,并帮助部署者履行本法规下的义务,高风险AI系统在投放市场或投入使用前应满足透明度要求”[5]。

在此背景下,可解释性(interpretability)指的是人类理解模型决策背后的推理或模型运作的一般逻辑的容易程度。区分可解释性(interpretability)与可说明性(explainability)[2]很重要。可解释性涉及设计上固有可理解的模型,而可说明性涉及阐明黑盒模型某些方面的事后方法[6]。这些解释通常没有正确性保证[7, 8],并且可能无法提供模型及其预测的完整描述,从而可能无法暴露隐藏的缺陷[9, 10, 11]。

模型可说明性或可解释性的方法可分为局部和全局两类。局部方法(如SHAP[12]和LIME[13])阐明模型做出的单个预测,而全局方法(如特征重要性[14]和部分依赖图[15])提供关于模型的整体洞察,即解释模型决策的总体逻辑[16]。然而,已有研究指出,局部可解释性方法可能与其全局对应方法不一致[17]。此外,局部解释在验证公平性及其他风险方面可能并不充分[8]。

在本工作中,我们引入了图神经加性网络(GNAN),这是一种设计上即可解释的GNN,兼具透明度和准确度。GNAN是一个玻璃盒模型[18],允许局部和全局可解释性。GNAN将广义加性模型(GAMs)[19]家族扩展以适配图数据。GAMs以其能够拟合复杂非线性函数同时保持可解释性而闻名,并已在多个领域证明有效[20, 21, 22, 23, 24]。它们通过为每个特征学习形状函数,然后线性组合这些函数来运作,这使得它们易于解释,因为每个特征对预测的影响独立于其他特征,并且可以通过其对应的形状函数进行可视化。类似地,GNAN的可解释性是通过一种架构实现的,该架构限制了特征与图拓扑的交叉乘积的使用,从而降低了其与其他GNN相比的复杂性。尽管如此,我们证明GNAN尽管容量有限,但在多个真实世界数据集上的表现与更具表达能力的GNN相当。此外,GNAN不依赖于迭代式局部消息传递,避免了与此类GNN通常相关的计算瓶颈[25]。

在第4节中,我们通过一系列示例展示用户如何解释GNAN,并获得对目标与图之间、目标与特征之间以及特征与图信息之间交互作用的精确洞察。在某些情况下,仅通过少数几张图即可可视化模型的精确描述。我们还展示了GNAN的可解释性如何允许用户调试其模型,该过程可用于确保与先验知识的一致性,并避免偏见和安全风险。在第5节中,我们将GNAN的性能与其他GNN架构进行了比较。这一比较强调,为了可理解性而牺牲性能并非必要,因为GNAN的性能与常用的黑盒GNN相当。

这项工作的主要贡献是:

  1. 将广义加性模型(GAMs)扩展到图数据。
  2. 引入了一种专为图预测任务设计的完全可解释模型,通过模型本身的可视化,证明其解释能够同时提供全局和局部洞察,并包含调试功能。
  3. 证明GNAN在常见的真实世界图数据集上取得了良好的性能,尽管其容量有限。这一观察结果支持了先前的发现,即某些真实世界的图问题很简单,不需要其他GNN的容量。

因此,我们认为GNAN由于其可解释性和性能,适用于高风险应用。

2 相关工作

GAMs 比广义线性模型具有更强的表达能力,同时保持可解释性,因为每个预测变量的影响是单独建模的。例如,它们可以捕捉特征的非单调效应,这是广义线性模型在没有特征工程的情况下无法做到的。传统上,GAMs 利用样条函数(splines)或其他平滑的形状函数来建模每个特征与目标变量之间的非线性关系。然而,也有其他方法,如决策树,被提出用于拟合形状函数 [24]。最近,Agarwal 等人 [26] 建议使用神经网络来学习形状函数。这种方法结合了深度学习的表示能力与加性模型的可解释性。

图神经网络 图神经网络(GNNs)[27, 28, 29, 30] 已成为图数据学习的主流方法。GNNs 背后的基本思想是使用结合节点特征与图结构的神经网络。常用的一类 GNN 是消息传递 GNN(message-passing GNNs),其中节点的表示通过邻域聚合在迭代中进行更新。这种聚合例如通过类卷积操作或注意力机制完成 [31, 32, 33]。

已经探索了各种非消息传递的方法,以将节点特征与图结构解耦。此类方法已被证明能增强跨不同应用的性能 [34, 35, 36]。解耦还可以减少过拟合,因为流行的 GNN 确实会将特征和图结构纠缠在一起,已被显示出倾向于过拟合非信息性的图信息 [37]。GNAN 利用这些概念来实现一个既高性能又完全可解释的模型。

图上有不同的预测任务 [38]。在图任务(graph tasks)中,目标是预测整个图的属性。例如,一个图可能代表一个分子,目标将是预测其毒性水平。在节点任务(node tasks)中,目标是预测图内一个节点(顶点)的属性。节点任务的一个例子是预测社交网络中的用户是人类还是机器人。在链接预测任务(link prediction tasks)中,目标是确定图的两个节点之间是否存在边。在这项工作中,我们要关注图任务和节点任务。虽然链接预测任务不在本工作的范围内,但可以将这些问题视为对偶线图(dual line graph)上的节点任务 [39]。

GNN 解释 图结构数据固有的复杂性为可解释性带来了独特的挑战。大多数解释黑盒 GNN 的方法侧重于提供一个子图或类似的结构,以解释某个特定的例子。这要么是作为 GNN 的事后解释(post-hoc explanation)[40, 41, 42],要么是通过预先调整数据(adjusting the data a priori)[43, 44, 45] 来完成。例如,Ying 等人 [41] 提出的方法通过最大化预测与可能的子图结构及节点特征分布之间的互信息,来识别影响 GNN 预测的重要子图结构和节点特征。Yin 等人 [43] 提出了一种通过预训练进行学习的结构模式学习模块。与这些方法相反,GNAN 并不旨在通过像子图这样的代理对象来提供解释,也不需要修改数据或训练过程。相反,GNAN 是设计上即可解释的,其精确描述可以通过其学习到的形状函数进行可视化。特别是,目标、特征和图之间的确切关系可以被可视化并传达给用户。

3 图神经加性网络

这一数学公式揭示了每个节点和特征如何对整体图表示做出贡献。第一个方程中的元素传达了节点的作用,而第二个方程中的元素传达了所有节点中各个特征的影响。因此,该模型有助于从多个角度详细理解局部行为。

出于预测目的,求和算子独立地应用于对应于每个类别的维度上,并且采用 softmax 作为激活函数。

4 可理解性

在本节中,我们通过可视化来展示 GNAN 的可理解性。每个 GNAN 模型的特征在于单变量学习到的形状函数

,因此可以被描绘为一组说明性图表。在下文中,我们展示此类图表的示例并解释它们在生成洞察方面的效用。我们在本节的重点是全局可解释性,因为局部可解释性可以利用类似的方法。我们展示了 GNAN 在两个数据集上的应用,额外的示例详见附录。

必须强调的是,图 1 全面地展示了整个模型。这意味着,结合本例中为 -5.6672 的偏置项值,理解和利用该模型进行预测所需的每一个关键细节都包含在这张单一的图中。这与特征重要性(feature importance)等方法形成鲜明对比,后者仅提供对模型的有限视角。虽然该图提供了关于模型的完整信息,但呈现额外的视图有时也会有所帮助。

该热力图说明了特定距离处的原子如何影响最终结果。例如,它表明模型已经学到,Ca 原子的存在(单元格 (Ca, 0))或其邻近度(单元格 (Ca, 1))有助于致突变性。这些可视化也可用于调试目的。这可能至关重要,例如,用于确保模型没有偏见,或识别与现有科学知识的任何差异。如果已知 Ca 原子实际上对致突变性有负面影响,用户就可以识别并纠正模型学习中的这种不一致。此外,这种详细的理解允许用户选择不仅在给定样本上实现高准确度,而且与先验知识相一致的模型,从而优化性能和可靠性。

正如 Zhang 等人 [6] 所指出的,解释多类预测任务构成了重大挑战。在此背景下,我们利用 PubMed 数据集 [48] 展示 GNAN 的可解释性。该数据集包含归档在 PubMed 上的 19,717 篇与糖尿病相关的科学出版物,并被分为三个不同的类别(1 型糖尿病、2 型糖尿病和妊娠糖尿病)。该数据集的引用网络包含 44,338 个链接。每篇出版物作为一个节点表示,其特征是由包含 500 个独特单词的字典导出的 TF/IDF 加权词向量。

由于存在三个类别,我们训练 GNAN 模型,使其距离函数和特征函数的输出维度为三。在这种设置下,比较对应于这三个类别的三个函数很有趣,因此我们将它们绘制在同一张图中 [6]。图 3 显示,该模型仅利用每个节点的局部邻域,并且随着节点距离变远,它们之间的信息利用率降低。我们还观察到类别之间的差异;对于 2 型糖尿病,距离越长,其信息利用率越低(收敛于 0),而对于 1 型糖尿病和妊娠糖尿病,远距离节点具有负面影响。

在图 4 中,我们展示了九个选定特征的形状函数,证明了 GNAN 学习复杂非单调函数的能力,如在 'diet'(饮食)和 'hepat'(肝脏)特征中所见。同时观察这三个类别的形状函数,有助于理解模型如何利用不同的特征值来区分各个类别。例如,'insulin'(胰岛素)特征的形状函数揭示,文档中该词的缺失(即特征值接近零)并不能显著指示文档的类别。然而,随着文档中 'insulin' 频率的增加,其对预测的影响变得更加显著,尽管这种影响在 1 型和 2 型糖尿病与妊娠糖尿病之间存在明显差异。

为了可视化特定距离下特征值的贡献,我们为每个类别采用热力图,评估特征函数在输入范围([0, 1])上的输出与对应距离函数输出的乘积。图 5 以 'children'(儿童)特征为例展示了这种可视化技术。观察发现,'children' 一词的存在对不同糖尿病类型的预测影响不同,这很有启发性。模型已经学到,关于 1 型糖尿病的论文很少提及 'children',相关论文也是如此。相比之下,该术语经常出现在妊娠糖尿病的语境中。GNAN 可视化的更多示例见附录。

5 实证评估

在本节中,我们在真实世界的图任务和节点标注任务上评估 GNAN,包括大规模、长程和异质性数据集。² 我们将 GNAN 与多种常用的黑盒 GNN 进行比较,包括 GraphConv [49]、GraphSAGE [30]、图同构网络(GIN)[33]、图注意力网络的表达性版本(GATv2)[29, 50]、图变换器(GTransformer)[51]。我们还评估了 FSGNN 模型,该模型将节点特征与图结构解耦 [35]。每个基线模型所调整的超参数信息详见附录。我们使用了以下常用基准:

节点标注任务 Cora、Citeseer、PubMed、ogb-arxiv [52, 53] 是论文引用网络,其目标是将论文分类到若干主题之一。ogb-arxiv 数据集是一个大规模网络。

Cornell [54] 和 Tolokers [55] 是异质性数据集。Cornell 是一个网页链接网络,任务是将节点分类到五个类别之一。Tolokers 数据集基于 Toloka 众包平台的数据。节点代表参与过至少 13 个选定项目之一的 Tolokers(工作者)。如果两个 Tolokers 曾在同一任务上工作,则它们之间存在一条边连接。目标是预测哪些 Tolokers 曾在某个项目中被禁止。节点特征基于工作者的个人资料信息和任务绩效统计。

图标注任务 NCI1、Proteins、Mutagen 和 PTC [56] 是化合物数据集。在每个数据集中,目标是根据某些感兴趣的属性对化合物进行分类。

Thr μ, α, αHOM O [57] 数据集是长程分子属性预测回归任务,基于大规模的 QM9 分子数据集。

协议 对于所有任务,我们使用了文献中针对每个数据集常用的现有数据划分、协议和评估指标。每个数据集的完整协议详见附录。我们报告的指标如下:对于 Cornell、Cora、Citeseer、PubMed、ogb-arxiv、Mutagenicity、PTC、NCI 和 Proteins,我们报告准确率。对于 μ, α, αHOM O,我们报告平均绝对误差(MAE)。对于 Tolokers,我们报告 ROC-AUC。对于节点标注任务,我们使用了数据中预定义的划分,并遵循每个数据集的通用协议。结果是使用 5 或 10 个随机种子在测试集上的平均值。对于 Proteins 和 NCI1 任务,我们遵循了 [58] 中的数据划分和嵌套交叉验证协议。这些数据集上报告的最终结果是 30 次运行(10 折交叉验证和 3 个随机种子)的平均值。对于 NCI1 和 PTC,我们遵循了 [39] 中的数据划分和协议,并报告 10 折嵌套交叉验证的平均准确率和标准差。

结果 结果如表 1 所示。在我们评估的 13 个任务中,GNAN 在 9 个任务中表现最佳或次佳。在 GNAN 中,每个节点从所有其他节点收集信息,确保完整的信息流动,同时 ρ 函数根据距离调节影响。因此,GNAN 避免了某些消息传递 GNN 所遇到的计算瓶颈 [25]。特别是在长程任务 μ、α 和 αHOM O 上,GNAN 的表现优于所有其他评估的基线模型,这与 Alon 和 Yahav [25] 强调捕获长程信息益处的发现一致。虽然可理解性有时会以准确度为代价,但我们的研究结果表明,增强可理解性并不一定导致准确度的显著损失。尽管容量有限,GNAN 却能匹配更具表达能力的 GNN 的准确度,这看似令人惊讶。然而,先前的研究表明,即使是容量有限的 GNN,如线性 GNN,也能在各种真实世界数据集上实现高准确度 [59, 58, 60],这表明某些真实世界的图问题比预期的更简单。我们的结果证实了这些观察。

6 结论

在这项工作中,我们引入了图神经加性网络(GNAN),这是可解释的广义加性模型类别的一种新颖扩展,旨在适配图数据。GNAN 本质上可解释,并能直接从其架构中提供全局和局部解释,消除了对事后解释的需求,从而增强了透明度。此外,GNAN 展现出与流行 GNN 相媲美的性能,表明可理解性并不一定意味着准确度的显著下降。

可以通过多种方式增强 GNAN。为了生成平滑的形状函数,可以整合最近提出的柯尔莫哥洛夫-阿诺德网络(Kolmogorov–Arnold Networks)[46] 的技术。通过为每个特征学习独立的距离函数,增加 GNAN 的容量是可行的。探索降低容量也引人关注,特别是在特征众多的场景中,采用正则化来限制所使用的形状函数数量可能会带来益处。此外,将这些技术应用于生物网络数据集(如蛋白质相互作用),可能成为支持科学发现的宝贵工具。这些及其他方向将留待未来的研究。

原文链接:https://arxiv.org/pdf/2406.01317v2

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档