SIGIR2024 | GraphGPT: 大语言模型引领图学习新范式

张小磊

发布于 2024-06-18 16:15:11

1370

发布于 2024-06-18 16:15:11

TLDR: 现有的许多图神经网络方法存在一个共同的局限性,即对高质量监督信号的强烈依赖,导致在处理稀疏和噪声数据时泛化性能较差。为了提升图神经网络的泛化能力,自监督学习被认为是具有潜力的研究方向。然而，这种对标注数据的依赖,可能会限制它们在缺乏高质量标注的实际场景中的泛化性能。针对上述挑战,本研究提出了一种基于大型语言模型的全新图学习方法——GraphGPT。其旨在在零样本学习场景下提升图模型的泛化能力,并在多个下游数据集和任务上展现了出色的性能。

论文：arxiv.org/abs/2310.13023 代码：github.com/HKUDS/GraphGPT 项目网站：graphgpt.github.io/

1. 概述

将大语言模型应用于图学习领域面临诸多挑战。

图结构信息与语言表征的有效融合: 这涉及到如何将图数据固有的拓扑结构和关系信息,与大语言模型基于文本语言训练而得的表示空间相结合,使模型能够同时理解图的结构特性和语义内涵。
引导大语言模型主动学习和理解图数据的结构信息: 为了使大型语言模型能够有效地理解图的结构信息，需要设计适当的指令目标来要求模型理解图数据中的结构信息。
赋予大语言模型图学习下游任务的逐步推理能力: 在图学习的下游任务中，逐步推理是一个重要的能力。这意味着模型需要根据图的结构信息和语义信息，逐步推断出更复杂的关系和属性。

尽管大型语言模型(LLMs)在各种任务中越来越受欢迎,但它们仅使用文本提示直接利用图结构信息的能力仍然受到限制。为了更深入地探讨这一挑战,我们进行了大量实验和比较,如图1所示。这些实验揭示了仅依赖于基于文本的提示进行图建模可能面临的潜在问题。

为解决纯文本方法的不足,我们提出了一种名为GraphGPT的全新图学习范式。GraphGPT通过精心设计的图指令微调方法将LLMs与图结构相结合。首先,GraphGPT采用文本-图对齐技术,利用对比学习有效地将文本语义对齐到图编码器中。其次,我们引入了一种两阶段的图指令微调方法。在第一阶段,我们利用无标签的图数据来指导LLM获取与图数据相关的结构性知识,通过自监督的图匹配任务增强对图结构的理解。在第二阶段,我们进一步优化LLM在各种下游图学习任务中的推理能力,通过使用特定任务的图数据指令对模型进行微调。

此外,通过采用"思维链"方法将封闭源码的LLMs(如ChatGPT)集成到GraphGPT中,我们显著提高了模型的逐步推理能力,并减轻了由于分布偏移导致的性能下降。通过这些创新方法,GraphGPT大大增强了使用纯文本提示进行图结构建模的能力,并在各种图学习任务中取得了出色的表现。

本研究的主要创新之处：

跨维度知识融合:我们将图结构信息与大型语言模型(LLM)的推理能力进行了有机结合,实现了两者的有效对齐,从而增强了图学习任务的泛化性能。
创新的图指令微调范式:我们提出了一种全新的图指令微调方法,旨在将LLM与图结构数据深度融合。该方法包括两个关键步骤: a. 自监督图匹配任务:利用无标签的图数据,通过自监督的图结构学习,引导LLM掌握图相关的结构性知识。b. 任务驱动微调:针对特定的图学习任务,我们进一步微调LLM,以提高其在相关应用场景中的推理能力和适应性。
性能验证:我们在有监督和零样本图学习任务上评估了GraphGPT的性能,并与当前最先进的方法进行了对比。结果表明,GraphGPT在各种设置下都展现出了优异的泛化能力,充分验证了我们方法的有效性。这凸显了结合图结构知识和LLM能力的重要性,为图学习领域带来了新的突破。

2. 方法

以下是 GraphGPT 图指令微调范式的技术细节阐述。其整体框架如图2所示:

2.1 文本-图知识对齐

为了提升大型语言模型(LLM)与图结构的协同效果, GraphGPT采用了GNN架构作为图结构编码器. 这种直接将预训练图编码器融入 GraphGPT 框架的方式,使得模型能够无缝地利用图结构编码器预训练获得的丰富图知识,与 LLM 的语义理解能力实现高效协同。这不仅提升了 GraphGPT 在图学习任务上的泛化性能,也为跨模态知识融合研究提供了有价值的实践经验。具体来说，让一个图与原始文本内容对应，其中代表节点数，表示第i个结点的文本长度。通过任意图编码器（例如graph transformer）和文本编码器（例如普通transformer）得到编码后的图表示和文本表示。

为了进一步增强 GraphGPT 跨模态知识融合的效果,我们在模型训练中采用了对比学习的方式,实现了"文本-图"信息在多个维度上的紧密对齐。

其中为对比标签，和为不同对比策略的转换函数。

2.2 图指令微调

2.2.1 自监督指令微调

为了将图结构专有知识融入语言模型,我们在图指令微调的第一阶段采用了自监督的微调策略。这种方法可以增强模型的推理能力,使其能够更准确地捕捉图结构中的关联信息。

具体来说,我们设计了一个基于图结构的自监督任务,即图匹配任务。该任务要求语言模型利用自然语言标签来识别图中的各个节点,从而将图节点与相关文本描述紧密关联起来,深化模型对图结构数据的理解。

指令设计

图匹配任务的指令由三部分组成:i) 图信息,ii) 人类提出的问题,以及 iii) GraphGPT 的回应。在任务中,我们将图中的每个节点视为中心节点,并执行 h 跳的随机邻居采样,得到一个子图结构。大语言模型的自然语言输入是人类提出的问题。指令中包含指示符和一个被打乱的节点文本信息列表。例如,在一个论文引用图中,节点文本信息对应于论文标题。模型的目标是根据图结点 token 的顺序重新排序节点文本信息列表,将每个图结点 token 与其相应的文本描述关联起来。

大模型微调

为了高效优化微调过程,我们提出了一种轻量级对齐投影策略。在训练中,我们固定大语言模型和图编码器的参数,仅优化投影器的参数。我们假设投影器已经成功地学会了将图表示映射到图结点 token,而大语言模型则擅长将这些图结点 token 与多种节点文本信息对齐。为此,我们使用一个简单的单线性层投影器来建立图结点 token 和自然语言 token 之间的对应关系。通过在原始自然语言 token 序列中替换指示符 token 为对齐的图结点 token 序列 {<graph_begin>, <graph_token>1, ..., <graph_token>n, <graph_end>},得到了大语言模型的输入 token 序列。由于图匹配过程是无监督的,这可以利用来自不同领域的大量未标注图数据,增强学习到的投影器的泛化能力。

2.2.2 图任务指令微调

在第二阶段,我们提出了特定任务指令微调,旨在定制模型的推理行为,满足不同图学习任务的特定约束和要求,如节点分类或链接预测。通过使用任务特定的图指令对大语言模型进行微调,我们可以引导模型生成更适合当前图学习任务的响应,进一步提高其在处理各种图学习任务时的适应性和性能。

指令设计

同样采用第一阶段的邻居采样方法生成图信息。对于节点分类任务,人类问题指令包含指示符和关于中心节点的特定文本信息。这个指令提示语言模型基于图结构数据和相关文本信息来预测中心节点的类别。图3展示了不同任务的指令数据模版。

微调策略

在二阶段训练中,我们采用一阶段训练获得的结构感知投影器参数作为初始值。在此阶段,我们冻结大语言模型和图编码器的参数,仅优化投影器参数。这确保了大语言模型与下游任务进一步对齐,增强其理解和解释图结构的能力。

完成上述两个训练阶段后,GraphGPT已经掌握了理解给定图结构并在提供的图上执行各种下游任务的能力。

2.3 思维链蒸馏

为了应对各种图数据中可能出现的新模式和结构,以及不同图数据中节点类别数量的变化,我们提出通过融合思维链(Chain-of-Thought)方法来增强GraphGPT的文本生成能力。这样可以使GraphGPT按照逻辑顺序进行思考,更好地理解和推断给定的图数据。

但由于思维链方法的效果与模型参数大小密切相关,如何在较小的模型中充分利用其优势成为关键。我们借鉴先前的研究,从一个大规模语言模型(如GPT-3.5)中提取思维链的推理技巧,应用于GraphGPT,以增强其逐步推理能力,而无需增加额外参数。

对于论文引用图的节点分类任务,我们将论文摘要、标题和分类任务描述作为输入,利用GPT-3.5进行逐步推断,生成不仅包含节点类别预测,还附有详细解释的输出。为进一步优化性能,我们将生成的思维链指令数据与之前为任务特定指令微调阶段制定的指令结合起来,对图指令进行微调。

3. 实验

3.1 模型性能

从总体性能来看,GraphGPT在有监督和零样本环境中都显著优于最先进的基线模型。即使最近开发的基于图神经网络的强大模型,如NodeFormer、DIFFormer和GKD,在有监督任务中展现出出色的结构建模能力,但在迁移到未经进一步训练的新数据集时,其性能大幅下降。相比之下,GraphGPT不仅在有监督任务中胜过所有最优方法,而且在零样本图学习中实现了显著的2-10倍准确性增长。此外,基于大语言模型的方案,如Baichuan-7B和Vicuna-7B,在各种数据集中表现稳定,但主要依赖于文本信息进行预测,而GraphGPT则有效地融合了图结构信息,为图学习任务提供了更完善的解决方案。

第一阶段的自监督图匹配任务对于提升GraphGPT的零样本迁移能力起到了关键作用。这一阶段将携带丰富结构信息的图节点token与语言token进行匹配,使模型能更深入地掌握图数据的内在结构特点。如果缺少这一阶段,模型可能在某一特定数据集上产生过拟合,表现过于依赖于数据集的特定模式和特征,从而限制了对新数据集的泛化能力。

思维链蒸馏对于更复杂的图学习任务具有显著帮助。使用标准指令数据集微调的模型在简单任务上表现良好,但在面对像Cora这样有70个类别的复杂任务时,其表现仅为一般。通过思维链蒸馏,借助闭源模型(GPT-3.5)的强大推断力,模型能够整合这些知识和推理技巧,在复杂的图任务上大幅提升性能。

3.2 泛化性能力探索

模型泛化能力首先,本部分探讨了数据量如何影响GraphGPT的迁移性能。在"(Arxiv + PubMed)-Cora"实验中,我们结合较大的Arxiv数据集和相对较小的PubMed数据集来训练模型,并在Cora数据集上进行零样本测试。结果显示,仅通过加入PubMed数据(约20,000条),GraphGPT在Cora上的迁移表现得到了明显提升。相比之下,基于GNN的模型在Arxiv和PubMed上的迭代训练反而降低了迁移性能。

数据增强而非遗忘接下来,我们进一步检验了GraphGPT在原Arxiv数据上的表现。实验结果显示,大部分基于GNN的方法在Arxiv和PubMed上经过迭代训练后性能大幅下降,这被认为是由于"灾难性遗忘"导致的结构建模能力受损。而GraphGPT的表现更为出色,得益于两步的图结构指令微调,保持甚至增强了性能,同时也保留了通用的图结构模式。

多任务图学习近期研究发现,结合不同类型的指令微调数据可以进一步优化大语言模型的性能。在本次实验中,我们在保证指令数量相同的前提下,混合了标准指令、思维链指令、标准与思维链指令组合,以及链路预测指令。结果表明,恰当的数据混合策略能显著提升GraphGPT在多种场景下的表现。特别是引入链路预测指令后,在节点分类上的效果得到了增强,而融合不同任务指令后,模型展现了在各种图学习任务上的泛化能力。

3.3 关键模块的效果验证

图结构信息的作用在这部分研究中,我们采用"w/o GS"变体来探索将图结构信息融入大语言模型的优势。该变体直接使用大语言模型基座(Vicuna-7B-v1.5)进行节点分类,不考虑图结构信息。实验结果表明,GraphGPT明显优于没有结构信息的基础模型。这证明了我们提出的图结构微调方法能使大语言模型更深入地理解图结构信息。需要注意的是,这种性能提升是在不更改大语言模型原始参数的前提下实现的,仅通过一个轻量级的对齐投影器完成。

语义推理能力的增强 在这部分,我们通过只使用默认图编码器进行有监督和零样本预测,来评估大语言模型对GraphGPT推理效果的贡献,此变体被命名为"w/o LR"。实验结果显示,融合大语言模型的GraphGPT显著增强了图编码器的表现,特别是在零样本场景下。这说明大语言模型带来的丰富语义信息为模型性能提供了显著提升。

3.4 模型效率研究

训练效率：我们的指令微调方法采用了分阶段的策略。在此方法中,大语言模型和图编码器的参数保持冻结状态,仅对"图-文"对齐投影器进行了精调。在配备4台40G Nvidia A100显卡的实验环境中,我们比较了冻结("freeze")和精调("tune")大语言模型参数时的训练耗时、参数精调规模以及GPU内存占用情况。结果显示,在相同设置下,精调大语言模型参数会导致GPU内存溢出(OOM),即使batch size仅为1。而使用我们提出的精调方法,batch size为2时训练依然能够稳定进行。此外,相比全面精调大语言模型,我们的精调策略所需的参数数量减少了超过50倍。

推理效率：我们进一步将GraphGPT与baichuan-7B、vicuna-7B-v1.1和vicuna-7B-v1.5在推理速度和精确度方面进行了对比评估。实验在单块40G Nvidia A100显卡上进行,记录了在Arxiv和Cora思维链指令数据集上的推理时长(每次响应所需的秒数),结果如图4所示。结果显示,GraphGPT在效率和准确性方面表现出色。需要注意的是,推理时间较短并不总是意味着更高的性能。尽管baichuan-7B响应速度很快,但其答案往往存在错误或与问题不相关的问题。而vicuna-7B-v1.1和vicuna-7B-v1.5则需要更长、更复杂的推理过程才能得到更准确的答案。相比之下,GraphGPT通过简化的推理步骤达到了精确的预测,从而提高了推理的效益。

3.5 模型进一步分析

我们评估了GraphGPT在下游图学习任务上的性能,并将其与常规大语言模型进行了对比分析。具体地,我们使用Arxiv数据集对ChatGPT和GraphGPT进行了提示测试。

我们覆盖了多种类型的指令,包括仅基于节点文本内容(如标题和摘要)、结合基于文本的图结构的节点内容,以及本研究设计的图指令。如图5所示,结果清晰地表明,尽管ChatGPT拥有超过200B的参数规模,但仅依赖节点文本信息或结合基于文本的图结构进行精确预测仍是一大挑战,特别是涉及多领域交叉的论文预测场景。与之相比,GraphGPT始终能够给出准确的预测,并附有说服力的解释。这要归功于GraphGPT能够处理包含103个节点的子图,从而从相邻节点的引用关系中获取丰富的结构性信息,从而做出更准确的预测。

另外,我们发现使用图节点token来表示图结构并输入到语言模型,相比自然语言处理方法更为高效。对于一个含103个节点的子图,GraphGPT仅需要向LLM输入750个token,而基于文本的方法则需要4649个token。这种显著的token数量减少,意味着在训练和推理时资源需求大大降低。

4. 结论

本研究提出了一种高效且具备扩展性的图结构大语言模型,其目标是增强图结构模型的泛化能力。所介绍的框架名为GraphGPT,采用了双阶段的图指令微调方法,将图相关的结构性知识融入到大语言模型中。通过一个简单高效的"图-文"对齐投影器,该模型得以理解并解读图的结构性信息。综合评估结果表明,该模型在有监督和零样本的图学习场景中均表现出色。更重要的是,该模型展现了出色的泛化性,使其能够应对多个下游数据集和任务,而不会遭受灾难性遗忘的影响。

未来的研究重点将集中在探索修剪方法,以减少LLM中冗余或不太关键的参数,从而缩小模型体量,同时确保性能不受影响。总的来说,GraphGPT为图结构大语言模型的发展提供了一种创新性的设计方案。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-06-17，如有侵权请联系 cloudcommunity@tencent.com 删除

论文