大规模图的分析对计算效率和资源需求提出了重大挑战。最近,图缩合(Graph Condensation)作为一种解决方案出现,以解决图数据量不断增加所带来的挑战。GC的动机是将大图的规模缩小到较小的图,同时为下游任务保留必要的信息。为了更好地理解GC并将其与其他相关主题区分开来,浙江大学与伦斯勒理工大学联合发布了该领域的权威综述
图数据表示实体之间的关系和交互,在包括社交网络、生物系统和推荐系统在内的各个领域中无处不在。这些场景中的信息和模式已经被建模为节点和边缘,并且在大规模图数据挖掘和模式识别技术等方面拥有重大进展。然而,分析和处理大规模图形对计算效率和资源需求提出了重大挑战。在计算机视觉方面,数据集蒸馏技术得到了广泛的研究与关注。传统的数据集蒸馏依赖的思想是:在由类标签定义的类别中,同一类的实例具有相似的关键特征,例如视觉数据集中的形状模式。这意味着存在“原型”或“聚类中心”,因此同一类的实例之间存在大量冗余信息。同样,在图数据集中,例如在节点分类任务中,同一类内节点的特征和拓扑结构是相似的,图中可能存在大量重复和相似的子图结构。因此,一个自然的问题是:我们如何有效地从大规模图中浓缩有用的信息到小规模图中,以促进各种图数据挖掘任务的效率?以此为研究目标,图缩合方法提出将大规模图提炼成更小但信息量更大的新图。缩合后的新图,在有限计算资源的约束下更易于管理,从而为图数据挖掘任务和应用提供更好的支持,如图持续学习,网络架构搜索和联邦学习等。
虽然图缩合概念与图数据的数据蒸馏(data distillaion)是一致的,但沿用数据蒸馏的定义会导致:
为了增强对GC的理解,我们首先提出了一个精炼的定义,阐明了GC相较于已有大量研究主题独特之处,并强调了与普通数据集蒸馏的区别。在我们的定义下,由于共同的研究目标,即通过减少图数据量来促进图数据分析,部分相关主题的方法也被包含在我们的讨论中。我们的贡献如下:
由于图数据集的丰富性,图缩合算法的研究涉及单图和多图的场景。考虑
表示
张图的数据集,其中
,
,
和
表示顶点(节点)和边的集合,
为邻接矩阵,
为特征矩阵。
则是图
对应的拉普拉斯矩阵。
表示
时节点或者边的标签;当
时,
为标签的向量表示。
假设缩合数据集为
,
,我们对GC的定义如下:
在定义中,GC特指一类旨在将大规模图缩放为更小但信息丰富的新的图数据集的方法,这里的“新”意味着原始数据集中不存在的部分,包括新的节点和边。
由于广泛的研究围绕单个图的数据缩合展开,为了更直观展示缩合过程的信息变化,我们有以下公式表示其优化过程:
其中:
描述图信息的损失,通过函数
进行量化;
通过最小化
进行优化;
描述了我们如何公式化缩合图,由
进行参数化。
形成缩合图的三个步骤对应于GC工作流中的三个步骤,如上图(c)所示。根据我们的定义,对于图中需要保留信息的指定至关重要,因为主要目标是在保留足够信息的同时减少图数据的规模。我们根据图缩合对象分类对已有研究进行介绍,并在论文中列出了该领域中现有算法的优化方式。
根据GC定义中缩合对象的不同,我们把方法分为三种类型:保留图的某些属性(图指导),保留GNN对下游任务的能力(模型指导),或同时完成两者(混合方法)。
该类型方法主要是以原始数据集为导向,提取得到类似属性的缩合图,其中对于图属性的定义和相似性评估是该类方法的关键。根据图信息所属域的不同,我们将该类目标进一步分为图数据的谱域和空间域方法。
我们假设
表示用
参数化的GNN在数据集
上训练。由于GC的最终目标是通过在较小的图集上训练模型 (包括但不限于GNN) 来获得和原始数据集相似的性能,因此使用原始图训练的神经网络模型上的信息是有意义且可用的。因此,许多方法以模型为中介来获得缩合数据集,优化目标为为:
其中
是特定于任务的损失函数, 优化属性为
,优化目标是
,
为距离函数。
现有研究捕获的模型属性信息包括:梯度、模型损失值、嵌入和logits预测等。
值得注意的是,上述两类优化目标并不是相互冲突的。因此,我们把同时结合了图属性和模型信息作为凝聚过程中的指导的方法称为混合方法。
三种类型的目标,即图指导、模型指导和混合方法,对应其优点和缺点的讨论如下:
综上所述,图指导更适用于强调图结构的任务,模型指导适用于强调模型性能的场景,混合方法寻求两者之间的平衡。考虑到任务的目标和图的特点,在实际应用中选择最合适的方法需要仔细考虑。
对于原始数据集的优化,我们提出公式表述:
。因此,
优化过程包括三个部分分别对应缩合图的拓扑,特征和标签,对应表示为:
,
, 和
。进一步,我们把得到缩合图的具体过程分为修饰法和合成法。
修饰法包括节点聚合和删除等操作,其中缩合图是修改原始图的产物。这类公式可以统一形式化为从原始图
到缩合图
的节点聚合操作。假设缩合图节点
是由原始图中
个节点聚合而来,其中
,我们总结形式化过程如下:
其中
表示矩阵的转置和伪逆运算,
被定义为映射矩阵,表示原始图
中的节点
聚合成为缩合图
中的超级节点
。在一般定义中,映射矩阵
的每一行可能包含不确定数量的非零条目,从none(节点被认为是丢弃的)到一个(节点聚合一次)甚至多个(社区存在重叠问题)。目前还没有论文深入讨论这一领域的社区重叠,然而,这种情况也可以包括在我们的构想中。
合成法将缩合图作为参数,通过最小化特定目标函数来直接优化。我们进一步将此公式分为三种策略:预定义、联合优化和顺序优化。
和标签
;
和节点特征
)视为优化目标的参数,并且通常通过采样原始标签
来预定义节点标签
;
和节点特征
的完整缩合图作为优化参数,则参数空间的维数会显著上升,从而导致难以收敛),采用对缩合图的部分属性信息进行优化,然后根据信息之间的关系构造或学习其余信息。
尽管合成法中顺序优化必须依赖于其他属性的中间结果,但以上提到的每种优化方式都有其独特的方法(或尚未发明但可以实现的方法)来分别生成
。综上所述,修饰法表现出最强的计算效率和可解释性,但其适用性有限,因为每个等待凝结的图都需要重新校准投影矩阵。联合优化合成法是最简单的方法,可以直接定义目标并进行优化,但也是最具挑战性的方法,参数搜索空间可能太大而难以收敛。为了解决这个问题,顺序优化合成是一个两步方案,结合了易于实现和面向目标的优点。预定义的合成法产生直观的结果,并且在特定设计的场景中有效。
以上方法的分类与讨论都是针对单个图的缩合算法,而有些例如生物数据集中的分子图中,一个分子就是一个图网络,因此对于多图数据集的缩合方法我们也做出分类如下:
我们系统地组织和总结了所讨论方法中使用的数据集,将它们分为两种主要类型:具有单个大图的数据集和包含多个图的数据集。前者通常用于节点分类和边缘预测等任务,后者用于图分类。我们给出了数据集的关键属性,包括节点数量、边数量、特征和类等细节,以及具有单个大图的数据集的图类型(例如,社交网络或分子网络)。此外,对于包含多个子图的数据集,我们根据子图的数量、节点的平均数量、边的平均数量、标签的数量和图的类型提供组织。这些数据集的详细统计可以在我们的在线资源中找到。
GC旨在创建一个更小的图数据集,同时保留足够的信息,因此评估这些信息保留了多少是至关重要的。与传统GNN的直接性能评估相比,GC方法由于其信息的复杂和方法的多样,从而难以进行较为客观的评价。从整体的角度来看,我们将整个GC过程的评价归纳为两个方面:有效性和效率度量。有效性评估GC保留原始信息的程度,而效率包括冷凝过程和下游任务效率。详情如下:
从输入和输出的角度来看,GC方法将原始图作为输入,将缩合图作为输出。为了验证缩合图的信息量,从以下三个方面来评估GC的有效性:
GC的基本动机是高效地促进大规模原始图上的图挖掘任务。因此,评估GC在缩合图挖掘中节省的资源或者说效率提升是有必要的。我们主要针对GC算法本身的效率和得到的缩合图集用于下游任务的效率提升进行讨论。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有