文本图是近期NLP领域非常重要的研究方向之一,通过将文本角度的语言模型和结构角度的图神经网络相结合的方式,在很多NLP任务上取得优异效果。
文本图模型的一个问题在于,需要端到端的训练语言模型和图网络,而语言模型往往计算量非常大,图学习又需要对邻居节点信息融合,这导致文本图的训练很困难。之前的解决方法要么把语言模型尺寸缩小,要么是减小对图中邻居节点采样比例,这些都会在一定程度上影响文本图模型效果。
ICLR 2023的一篇文章提出了一种新的文本图模型训练框架,采用了EM优化的方式融合语言模型和图学习,以文本分类任务为切入点,在多个数据集上取得了SOTA的效果。
GLEM的整体框架如下图所示。本文以文本分类问题为例,给定文本图,文本图中每个节点对应一段文本描述,图中一部分节点有label,另一部分节点没有label,目标是对无label节点进行预测。
GLEM主要包括文本建模模型(LM)和图神经网络(GNN)两个部分,采用EM的方式训练文本图模型:在E-step,固定GNN训练LM,拟合有label节点和GNN预测的无label节点的伪标签;在M-step,固定LM训练GNN,GNN输入LM产出的节点文本表示,以LM输出的节点伪标签为目标进行训练。
GLEM想同时根据文本信息和图结构信息预测节点label,利用变分推断的思路寻找该优化问题的证据下界(ELBO):
这个优化问题可以通过EM的思路求解,在E-step优化q来最小化KL散度;在M-step优化p来最大化下面的pseudolikelihood:
这里面的q,指的是根据无label的文本信息来预测它们的label,而p是根据所有节点的文本信息以及图结构信息,预测所有节点的label。q对应的是利用LM结合节点的文本信息,预测每个节点的label;而pseudolikelihood中的p则对应GNN部分,利用节点文本信息、图结构信息、图中节点的伪标签,预测节点label。
理解了上面的推导过程和各个项的含义,就比较容易理解论文后续EM的设计原理了:
文中主要实验结果如下,在3个数据集中,对比了不同GNN模型、不同文本输入等效果。对于LM模型,其中LM-Ft代表语言模型finetune效果,可以看到文本信息非常重要;而引入GLEM的图学习部分,带来效果的进一步提升。对于GNN模型,使用静态的特征(X系列)效果不如使用GLEM动态更新的embedding效果好。
本文介绍了ICLR 2023录取的GLEM,是一个针对大规模文本图的训练框架,利用EM的思路进行图学习和语言模型迭代训练,解决了端到端训练的效率问题。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。