Tackling Over-smoothing on Hypergraphs: A Ricci Flow-guided Neural Diffusion Approach
应对超图中的过平滑问题:一种里奇流引导的神经扩散方法
https://arxiv.org/pdf/2603.15696


摘要
超图神经网络(HGNNs)在建模复杂高阶关系方面已展现出强大的能力。然而,现有的HGNNs随着层数的增加常常遭受过平滑问题,并且缺乏对节点间消息传递的有效控制。受微分几何中里奇流理论的启发,我们从理论上证明,将离散里奇流引入超图结构能够有效调节节点特征演化,从而缓解过平滑。基于这一见解,我们提出里奇流引导的超图神经扩散(RFHND),这是一种由离散里奇流引导的、用于超图的新型消息传递范式。具体而言,RFHND基于一个描述超图上节点特征连续演化的偏微分方程(PDE)系统,在几何层面自适应地调节信息扩散速率,以防止特征同质化并生成高质量的节点表示。实验结果表明,RFHND在多个基准数据集上显著优于现有方法并展现出强大的鲁棒性,同时也有效减轻了过平滑问题。
索引词——超图神经网络,过平滑,里奇流,微分方程
I. 引言
近年来,超图作为建模复杂系统的重要工具受到了广泛关注[1], [2]。与传统图只能表示节点之间的成对关系不同,超图可以通过超边连接多个节点,自然地捕获高阶关系[3]。这种能力使超图在社交网络[4], [5]、推荐系统[6], [7]和生物网络[8], [9]等诸多领域具有独特的表达能力。为了充分利用超图数据中的信息,研究人员提出了多种超图神经网络方法[10],在节点分类[11]、链接预测[12], [13]和表示学习[2]等任务上取得了显著进展。
尽管现有的超图神经网络为超图学习提供了强大的工具,但过平滑问题仍然是一个关键挑战[14], [15]。随着网络层数的加深,节点特征趋于收敛并变得越来越难以区分,从而降低了模型的性能[16]。当前的缓解策略主要分为两种范式。第一种范式通过引入残差连接等机制来修改网络架构,以保留初始节点特征[17], [18]。第二种范式优化聚合步骤,通常使用注意力机制对节点和超边进行选择性加权,从而防止特征同质化[19], [20]。然而,尽管现有方法在一定程度上缓解了过平滑问题,但它们本质上大多是算子层面的修正,缺乏严格的理论保证,这限制了它们在复杂场景中的有效性。
受文献[21]的启发(该文献建立了几何曲率与过平滑之间的直接联系),我们将超图神经网络中的特征收敛视为一种无约束的几何演化过程,类似于热扩散。这一视角促使我们寻求一种来自微分几何的机制,以从内在控制此类扩散动力学。里奇流正是为此目的服务的[22],它描述了度量张量如何根据局部曲率进行演化。近年来,其推广形式——离散里奇流——已被证明在图任务上有效[23]。然而,它在超图上的潜力尚未被探索。在本工作中,我们将这种演化推广到超图,并从理论上证明,该演化通过局部曲率约束节点特征的扩散,从而有效缓解过平滑。
基于前述理论见解,我们提出里奇流引导的超图神经扩散(RFHND)。(注:原文“Diffusio”为排版笔误,应为“Diffusion”)基于偏微分方程,RFHND将节点特征演化建模为一个连续的动力学过程,并根据局部曲率自适应地调节信息扩散,有效防止过平滑。RFHND的核心思想如图1所示。具体而言,我们根据超边内节点之间的特征相似性为超边分配权重,从而实现自适应的更新流,缓解特征同质化。该设计在实现高效特征融合的同时保留了节点间的差异性,增强了模型的表达能力和稳定性。最后,通过一系列全面的实验验证了我们算法的有效性。本工作的主要贡献如下:
• 理论基础:我们将离散里奇流引入超图学习领域,从理论上证明它通过局部曲率自适应地控制特征扩散,从而缓解过平滑。 • 方法贡献:我们提出RFHND,这是一种离散里奇流引导的超图神经扩散方法,将传统的消息传递转化为自适应的、曲率引导的扩散过程,从而有效防止特征同质化。 • 实验验证:在多个超图数据集上的实验表明,与现有方法相比,RFHND实现了更优的节点分类准确率,同时展现出更高的稳定性、鲁棒性,并显著减少了过平滑现象。
II. 相关工作
在本节中,我们回顾与我们的工作密切相关文献,重点关注两个关键领域:超图神经网络(HGNNs)与超图神经网络中的过平滑问题。
A. 超图神经网络
超图神经网络已成为图神经网络(GNNs)的一种强大泛化形式,专门设计用于捕获实体之间超越成对连接的复杂高阶关系。该领域的发展始于基础HGNN模型[24]的开创性工作。该模型利用超图上的谱卷积框架,聚合与同一超边相连的节点信息。
此后,一系列基于消息传递的模型被提出,例如HNHN [25]、HyperGCN [26]、HyperSAGE [27]和UniGNN [17],以增强HGNN的表达能力。这些方法扩展了聚合与传播机制,以适应异构和加权的超边,从而在节点分类等任务上取得了显著改进。与此同时,像AllDeepSets [18]和AllSetTransformer [18]这样的架构则完全摒弃了谱假设。它们转而采用超边上的置换不变集函数,以促进更灵活的、集合层面的推理。
近期的HGNN进展包括更复杂的建模视角。例如,动态系统模型如HDS [28]使用常微分方程(ODEs)来提高学习过程的稳定性和可控性。此外,诸如KHGNN(采用名为HyperGINE的嵌套卷积模块)[29]等模型,旨在通过从节点、超边以及它们之间的中间路径提取特征来捕获长程依赖关系。
B. 超图神经网络中的过平滑问题
在深层超图网络中,节点表示往往趋于一致,这会严重降低模型性能。当前旨在应对该问题的缓解策略可分为两种主要范式。
架构修改。此类工作侧重于改变网络架构,以保留来自早期层的信息。受残差连接在卷积神经网络(CNN)和图神经网络(GNN)中有效性的启发,UniGCNII [17] 和 Deep-HGCN [18] 等模型引入了跳跃连接以将初始节点特征向前传递,从而使得构建更深且更有效的超图神经网络成为可能。
FrameHGNN [14] 引入了一种基于帧元(framelet)的超图卷积框架,该框架将低通和高通滤波器与残差和恒等映射等经过验证的深度 GNN 技术相结合,从而在深层网络中保持判别性信号。
优化聚合算子。该范式旨在使特征聚合过程更具区分度。与均匀聚合不同,该方法采用注意力机制为超边内的节点或连接到节点的不同超边分配不同的权重。例如,超图注意力网络 [19], [20] 学习节点和超边的动态权重,从而有效缓解无差别特征混合的问题。ED-HNN [30] 提出,采用等变算子在节点间分配差异化的消息有助于保持特征多样性(或节点可区分性),从而有效防止过平滑问题。
现有方法的局限性。尽管现有方法在一定程度上缓解了过平滑问题,但大多数方法依赖于局部框架修改,且缺乏严格的理论保证,这限制了它们在复杂场景中的有效性。相比之下,我们引入离散里奇流以全局调节节点特征的演化,从而有效缓解过平滑问题。
III. 预备知识
A. 符号表示

B. 加权超图上的超边曲率

C. 狄利克雷能量
超图

的狄利克雷能量用于刻画节点间特征的平滑性 [34]。其表达式如下 [18]:

公式 (1) 表明,相邻节点特征之间更高的相似度会导致能量值更接近 0,这反映了过平滑问题。
D. 离散里奇流 (DRF)
里奇流,最初由 Hamilton 在微分几何 [35] 中引入,根据偏微分方程演化一个黎曼度量

:






IV. 在超图上应用 DRF



A. 狄利克雷能量界
通过在超图上应用属性离散里奇流,我们可以证明,当节点特征演化遵循里奇流时,系统的能量值保持有界。这表明我们的方法可以有效地防止过平滑,并在传播过程中保持受控的特征差异化。具体结论如下:


正如所示,定理 1 为解决超图神经网络中的过平滑问题提供了关键的理论支持。该定理的严格正下界确保了在整个特征演化过程中,节点间的差异不会完全消失。这反过来保留了有意义的特征区分,并防止了节点表示的过度同化。完整的证明可在补充材料中找到。
B. 收敛性分析
继前文对该方法防止过平滑有效性的分析之后,我们进一步研究其收敛性。该分析的具体结果如下:

定理 2 证明了离散里奇流具有指数收敛的性质。这意味着无论系统的初始状态如何,超边曲率都能迅速趋近于零。因此,定理 2 为我们方法的效率和稳定性提供了理论保证。定理 2 的证明可参考文献 [39]。
V. 方法论
A. 里奇流引导的超图特征扩散
正如第四节所确立的,将属性离散里奇流应用于超图带来了几个关键优势。该过程在促进高质量、非平滑节点表示学习的同时,驱动超边曲率趋向均匀。此外,该方法经理论证明具有强收敛性。受这些优势的启发,我们在本节设计了一种新的超图特征扩散架构。利用链式法则展开公式 (5),我们得到:



公式 (17) 定义了单个超边 ee 对节点 ii 的局部影响,而节点的表示则是基于其整个邻域进行更新的。因此,我们通过遍历与节点 ii 关联的所有超边并聚合相应的信息,将该公式从单个超边推广到整个超图。我们可以将公式 (17) 重写如下:




B. 里奇流引导的超图神经扩散


这一理论结果为我们的架构设计提供了坚实的理论基础。它保证了通过神经网络(例如多层感知机 MLP)对曲率引导的聚合权重进行参数化是一种有效的方法。在实际实现中,我们通过数值求解微分方程来驱动特征更新。RFHND 前向传播的伪代码如算法 1 所示。为了确保求解过程的鲁棒性,我们进一步推导了显式欧拉法的稳定性条件,具体如下:



VI. 实验
A. 基准数据集上的结果
数据集。为了验证 RFHND 的性能,我们在代表学术场景和真实场景的多样化基准数据集集合上进行了全面评估。
学术场景评估在五个来自共引网络和合著网络的成熟超图基准数据集上进行:Cora、Citeseer、Pubmed、Cora-CA 和 DBLP-CA [26]。对于这些数据集,节点特征源自词袋表示,而标签对应于论文的主题类别。为了评估该方法在不同领域的泛化能力,我们还使用了几个真实世界的数据集。这些包括来自 UCI 知识库 [41] 的 Zoo 数据集、3D 视觉数据集 ModelNet40 [42] 和 NTU2012 [43],以及交易数据集 Walmart [44]、社交网络数据集 House [45] 和 Senate [46]。遵循先前的工作,我们为所有数据集构建了超图结构;在缺乏固有节点特征的情况下,我们使用高斯随机向量对其进行初始化。对于评估,训练集、验证集和测试集采用一致的 50%/25%/25% 划分比例。为确保结果稳健可靠,最终报告的性能是使用不同随机划分进行 20 次独立试验的聚合结果。所有数据集的统计摘要见表 I。
基线方法。为了评估 RFHND 的性能,我们将其与一组具有代表性的超图神经网络基线方法进行了比较。这包括几种方法,例如 HGNN [24],该方法应用了专为超图数据设计的谱卷积操作。我们还纳入了 HCHA [19],这是一种结合层次注意力机制进行表示学习的方法,以及广泛使用的 HyperGCN [26],该方法通过团扩展策略将图卷积扩展到超图领域。
我们的比较还纳入了 HNHN [25],该模型以其新颖的超图特定归一化技术而闻名,以及 UniGCNII [17],后者通过残差连接统一了多种超图卷积范式。著名的 HAN [47] 模型也被纳入,作为层次注意力网络的关键代表。此外,我们还以 AllSetTransformer 和 AllDeepSets [18] 为基准,这两种方法将深度集理论适配到超图学习中以确保置换不变性。
评估进一步扩展到更新颖和更专业的架构。基线集合包含 ED-HNN [30],这是一种利用等变超图扩散算子的方法。为了考虑长程依赖关系,我们纳入了 HyperGINE 和 KHGNN [29],后者通过 K 跳消息传递促进远距离节点之间的交互。最后,还纳入了多尺度方法 FrameHGNN [14],该方法将框架变换(framelet transforms)整合到其架构中。为确保公平且标准化的比较环境,所有模型均在 PyTorch Geometric 库 [48] 中实现。
实验设置。对于 RFHND 模型,采用 Adam 优化器。主要超参数——学习率、权重衰减、丢弃率、隐藏维度和总训练轮数——根据验证集性能为每个数据集单独调整。具体而言,学习率从 {0.001, 0.01} 中选择,权重衰减从范围 [0.001, 0.03] 中选择,输入丢弃率从 {0.001, 0.01, 0.1, 0.2, 0.3} 中选择,隐藏维度从 {16, 32, 64, 128, 256, 512} 中选择,总训练轮数从 {2, 3, 4} 中选择。每个数据集的最优配置在这些范围内确定。在适用情况下,采用余弦学习率调度器(CosineLR)。我们使用 torchdiffeq [49] 实现的方法作为 RFHND 的微分方程求解器。所有实验均使用固定随机种子进行,以确保可复现性。源代码可在 https://gitee.com/zmyovo/rfhnd.git 获取。

结果。如表 II 和表 III 所示,实验结果充分展示了我们提出的 RFHND 模型的优越性能。通过计算所有比较方法的平均排名,RFHND 模型在学术数据集和真实世界数据集上均保持第一位,这有力地证明了其强大的泛化能力。具体而言,RFHND 模型在五个学术基准数据集中的三个上达到了最先进(State-of-the-Art)的性能,并在另一个数据集上取得了优秀的第二名排名。这一表现确凿地证实了 RFHND 模型有效捕捉结构化数据中复杂关系的关键能力。此外,RFHND 模型在六个真实世界数据集上全面超越了所有比较方法,这些数据集涵盖了交易网络和社交网络分析等多样化的应用领域。这些在不同类型数据集上的一致性结果共同验证了 RFHND 模型在超图节点分类任务上的卓越有效性。
B. 合成异质超图数据集上的结果

结果。表 IV 中呈现的结果表明,与所有基线方法相比,RFHND 模型在评估的数据集上始终实现了优越的性能。其优势在异配设置(当

时)尤为明显,在该设置下模型表现出显著提高的鲁棒性和泛化能力。这些发现证实了所提出架构的有效性。

C. 消融实验
在本节中,我们在多个数据集上进行消融实验,以评估我们模型中每个子模块的贡献。详细发现总结如下。
如表 V 所示,所有变体在标签预测方面均表现出性能下降,这强调了这些组件在增强交互类型建模方面的重要性。具体而言,与单一组件的消融相比,联合移除 COS 和 HyperNet 模块(w/o C 和 H)导致性能下降更为显著,这强调了这两个模块之间协调配合的关键重要性。

D. 过平滑分析
本节考察模型深度如何影响超图神经网络的性能。大多数现有的超图神经网络(HGNNs)本质上是浅层的,这限制了它们从高阶邻居中捕捉信息的能力 [15]。然而,单纯增加深度往往会导致过平滑,即节点表示变得越来越相似,最终变得无法区分。
为了研究这个问题,我们在 Cora、Cora-CA 和 Citeseer 数据集上评估了具有不同深度的几种模型。使用固定的数据划分,我们测试了 2、4、10、20、30 和 40 层的设置,以观察随着网络变深性能如何变化。同时,我们还记录了不同层配置下的狄利克雷能量(Dirichlet Energy)。具体而言,对于零层,能量是使用初始节点特征计算的;而对于更深的配置,它是根据训练好的网络输出的节点嵌入计算的。
如图 2 系统所示,结果得出了两个关键观察结果:

E. 鲁棒性分析
为了评估 RFHND 在噪声输入条件下的鲁棒性,我们进行了大量实验,同时考虑了特征级和结构级的扰动。实验配置如下:

如图 3 所示,在所有噪声设置下,提出的方法始终优于基线方法。当面临特征级扰动时,RFHND 在 Citeseer 数据集上表现出强大的鲁棒性,在不同的噪声类型(包括高斯噪声、均匀噪声和基于掩码的扰动)下均保持了稳定的性能。值得注意的是,与其他特征扰动相比,所有被检查的模型对掩码噪声显示出更高的容忍度,这可能是因为掩码噪声引入了结构化稀疏性而非随机扭曲,从而允许模型在训练期间更好地适应。

对结构噪声的分析在 Cora-CA 数据集上展示了类似的优势。在所有检查的噪声水平(0.1–0.4)下,提出的方法始终提供更好的性能。虽然所有模型的准确率都随着噪声率的增长而下降,但 RFHND 仅显示出微小的下降,反映了其对结构扰动的强大鲁棒性。
F. 参数分析

具体来说,我们选择了三个具有代表性的数据集:Zoo、NTU2012 和 ModelNet40。如图 4 所示,RFHND 在不同的隐藏层下保持相对稳定。然而,当步长变得过大时,模型性能会恶化,这表明过大的步长可能会导致不稳定的特征传播,并削弱模型捕捉细粒度关系模式的能力。这与定理 6 的结论是一致的。
具体来说,我们选择了三个具有代表性的数据集:Zoo、NTU2012 和 ModelNet40。如图 4 所示,RFHND 在不同的隐藏层下保持相对稳定。然而,当步长变得过大时,模型性能会恶化,这表明过大的步长可能会导致不稳定的特征传播,并削弱模型捕捉细粒度关系模式的能力。这与定理 6 的结论是一致的。

G. 特征可视化

如图 5 所示,可以看出随着时间的推移,节点嵌入逐渐形成更清晰、更紧凑的簇。这一现象表明,模型逐渐增强了区分不同类别节点的能力,在整个积分过程中,表示演变成了更具可分性和判别性的结构。

VII. 结论
在本文中,我们通过将微分几何中的里奇流推广至超图领域,缓解了超图神经网络中过平滑这一关键挑战。具体而言,我们提出了 RFHND(里奇流引导的超图神经扩散),这是一种新颖的消息传递范式,利用离散里奇流来自适应地调节信息传播。通过将节点特征演化构建为基于连续偏微分方程(PDE)的系统,我们的方法在几何层面上有效地控制了扩散速率,从而防止了特征同质化。此外,我们提供了严格的理论分析,验证了我们框架的收敛性质与逼近能力。在多个基准数据集上的广泛实验表明,RFHND 显著优于现有最先进的方法,并展现出强大的鲁棒性。最终,这项工作为解决过平滑问题提供了一个颇具前景的几何视角,丰富了高阶表示学习的相关理论。
原文链接:https://arxiv.org/pdf/2603.15696