Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >ICLR 2022 | 走向深度图神经网络:基于GNTK的优化视角

ICLR 2022 | 走向深度图神经网络:基于GNTK的优化视角

作者头像
HuangWeiAI
发布于 2023-03-07 05:38:58
发布于 2023-03-07 05:38:58
3830
举报
文章被收录于专栏:浊酒清味浊酒清味

01

动机

图神经网络(Graph Neural Networks)在图表示学习任务中获得了空前的成功。然而和深度学习的领域相比,图神经网络一个显著的特征是,网络在浅层的时候(层数只有2-3层)就取得了最好的表现。如果我们继续加深图神经网络,那么其表现反而会快速下降。这和深度学习中的内核“深度”二字相违背。

训练集和测试集准确率v.s.模型深度

为了探究为什么图神经网络会表现出这样的行为,以及设计出新的算法来提升深度图神经网络的表现。我们从网络的可训练性(trainability)角度来探究深度图神经网络背后的秘密,最终从理论上证明在一定条件下,图神经网络的可训练性以指数的速率下降。结合理论分析,我们受到统计物理中逾渗(percolation)启发提出来Critical DropEdge的算法,一种连通性感知和图自适应的采样方法,从根本上解决可训练性指数衰减问题。

论文链接:https://arxiv.org/abs/2103.03113

ICLR 2022 Poster: https://iclr.cc/virtual/2022/poster/6585

02

Graph Neural Tangent Kernel

我们知道无限宽神经网络在梯度下降算法下的动力学由Neural Tangent Kernel (NTK)来描述。由于图神经网络也是一种神经网络,因此将图神经网络无限宽化,其动力学就由Graph Neural Tangent Kernel (GNTK)来描述。

具体而言,网络的损失函数的收敛速度将由NTK的最小特征值来决定,而当一个网络对应的NTK变成奇异矩阵的时候,那么这个网络的损失函数将会无法收敛,从而散失了可训练性。

根据以上的背景,我们将GNTK作为一个理论工具,来刻画图神经网络的可训练性和网络深度的关系。我们希望观察随着图神经网络的深度加深,其对应的GNTK会有怎样的行为。

03

理论结果

我们首先研究一个普通版本的图神经网络,其结构如下:

网络由L个传播单位,L也即网络的深度,其中一个单元由一次聚合操作和R次MLP所组成。

经过理论推导,我们获得了第一个定理:

这个定理告诉我们在数据图是连通的情况下,GNTK矩阵会随着深度的增加而趋于一个常数矩阵(矩阵中所有元素都是一样的值),而且这个收敛的速率是指数的。这意味着深度图网络会以一个恐怖的速度丢失可训练性,非常可怕。

接下来我们用理论框架进一步分析了带有残差连接的图网络结构,发现指数衰减无法避免,好消息是指数衰减的速度会比没有残差连接的结构要慢

具体而言就是二者对应的概率转移矩阵的第二大特征值会不一样。而第二个特征值和指数衰减因子息息相关。

我们最终通过数值模拟可以验证上述的定理:

其中,第二排第一个图表明了GNTK的指数衰减速率,第二排第二个图表明了残差连接相对会减缓衰减速度,但是其依然是指数衰减。

04

Critical DropEdge

为了从根本上解决可训练性随着网络深度增加而出现指数衰减的问题,我们从理论推导中分析发现聚合操作在GNTK的递推中对应着概率转移矩阵。而概率转移矩阵就意味了马尔可夫过程,这就引发了后面的指数衰减。我们加入的残差连接会增大概率转移矩阵的第二大特征值从而减缓衰减速度。不过终归还是一个概率转移矩阵。所以我们需要换一个角度,从根本上破坏这个概率转移矩阵。

我们发现聚合操作对应成概率转移矩阵的一个必要条件是图是连通的。所以突破口就在于破坏图的连通性。刚好统计物理中有一个很好的模型告诉我们当一个随机图中边的连接概率取一个特定值的时候,那么图会展现出一种临界现象:从整体看,整张图依然具有连通性(存在一个和图尺寸有关的大集团),而同时信息在图上面传递的速率是多项式的。这样我们既不会因为连接概率过小而导致整个图变得支离破碎,进而没法学习图的有效信息,也不会连接概率过大,依然会存有指数性传播的缺点。最终我们提出来Critical DropEdge算法,一种连通性感知和图自适应的采样方法。

其实验效果由以下表格显示:

我们在点分类任务上测试,其中C-DropEdg是我们提出来的方法,GCN,DropEdge和DGN都是用于对比的方法。可以看出来在网络很深的时候,Critical DropEdge依然可以获得很高的表现。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-04-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python机器学习学会 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
UC伯克利发现「没有免费午餐定理」加强版:每个神经网络,都是一个高维向量
经典的「没有免费午餐定理」表明:如果某种学习算法在某些方面比另一种学习算法更优,则肯定会在其它某些方面弱于另一种学习算法。
AI科技评论
2021/11/17
3950
探索无限大的神经网络
平时难住我们的是,有再多资源也承载不了无限大的网络。但其实可以证明无限宽的网络和核方法是等效的,给了我们揭开无限宽网络面纱的机会。另外我们还有一些额外的收获——原来核方法和神经网络也沾亲带故。
AI科技评论
2019/10/14
7970
探索无限大的神经网络
ECCV 2020 | 从一种拓扑视角来优化神经网络的连通性的解读
本文是计算机视觉领域顶级会议 ECCV 2020 入选论文《Learning Connectivity of Neural Networks from a Topological Perspective》的解读。
AI科技评论
2020/08/20
7520
ECCV 2020 | 从一种拓扑视角来优化神经网络的连通性的解读
KDD 2022 | 深度图神经网络中的特征过相关:一个新的视角
题目:Feature Overcorrelation in Deep Graph Neural Networks: A New Perspective
Cyril-KI
2022/11/29
1.3K0
KDD 2022 | 深度图神经网络中的特征过相关:一个新的视角
深度学习不再是炼丹术!谷歌给出首个神经网络训练理论证明
谷歌AI的研究人员日前在arxiv贴出一篇文章,给出了首个神经网络训练相关的理论证明。
abs_zero
2019/05/05
5040
深度学习不再是炼丹术!谷歌给出首个神经网络训练理论证明
图神经网络越深,表现就一定越好吗?
数十层甚至数百层神经网络的应用,是深度学习的重要标志之一。但现实情况却远非如此:比如今年被视作机器学习领域最火热的研究方向之一——图神经网络,大多数都只运用了寥寥几层网络。
AI科技评论
2020/08/10
7240
图神经网络越深,表现就一定越好吗?
ICLR 2020 | 如何让图卷积网络变深?腾讯AI Lab联合清华提出DropEdge
腾讯 AI Lab 和清华大学的这项研究表明,图神经网络无法做深由两个原因造成:过拟合 (Overfitting) 和过平滑(Oversmoothing)。为了解决这两个问题,文章提出了一种简洁但非常有效的方法:随机删边技术,DropEdge,极大提升了超深图卷积网络的训练效率和节点分类效果。值得注意的是,文章投稿到 openreview 的时候就引来了众多研究同行的关注。文章正式被接收后,图灵奖获得者 Yoshua Bengio 的团队成员 Petar Veličković(注意力图网络 GAT 的发明者)在 openreview 平台上也给与了关注与好评。
机器之心
2020/04/14
4870
ICLR 2020 | 如何让图卷积网络变深?腾讯AI Lab联合清华提出DropEdge
Transformer 能代替图神经网络吗?
当Transformer模型发布时,它彻底革新了机器翻译领域。虽然最初是为特定任务设计的,但这种革命性的架构显示出它可以轻松适应不同的任务。随后成为了Transformer一个标准,甚至用于它最初设计之外的数据(如图像和其他序列数据)。
deephub
2024/07/01
2510
Transformer 能代替图神经网络吗?
图神经网络上的统一的彩票假设
GNN的花式研究越来越多了~ 本来读了这篇后想写一下, 发现AI in Graph的小伙伴已经写的挺好了~
Houye
2021/07/30
1.4K0
11种主要神经网络结构图解
随着深度学习的快速发展,人们创建了一整套神经网络结构来解决各种各样的任务和问题。尽管有无数的神经网络结构,这里有十一种对于任何深度学习工程师来说都应该理解的结构,可以分为四大类: 标准网络、循环网络、卷积网络和自动编码器。
McGL
2020/09/02
7.7K0
【KDD20】深度图神经网络专题
图神经网络在处理基于图数据问题方面取得了巨大的成功,受到了广泛的关注和应用。GNNs通常是基于消息传递的方式设计的,本质思想即迭代地聚合邻居信息,而经过
zenRRan
2020/09/22
1.1K0
【KDD20】深度图神经网络专题
谷歌开源Neural Tangents:简单快速训练无限宽度神经网络
近日,谷歌一项研究成果在社区引发了关注,该研究宣称可通过神经正切核(Neural Tangent Kernel)使用贝叶斯推理或梯度下降分析式地训练无限宽度的神经网络。使用谷歌开源的软件库 Neural Tangents,这个过程不仅简单且快速,而且效果非常好,甚至只需 5 行代码就能一步到位地构建并训练这种无限宽度网络的集成模型!该论文已被 ICLR 2020 接收为 Spotlight 论文,相关链接见文末。
机器之心
2020/04/14
7840
谷歌开源Neural Tangents:简单快速训练无限宽度神经网络
ICLR 2020 | 神经正切,5行代码打造无限宽的神经网络模型
本文是对 ICLR 2020 论文《NEURAL TANGENTS: FAST AND EASY INFINITE NEURAL NETWORKS IN PYTHON》的解读,作者来自谷歌。
AI科技评论
2020/04/21
5900
ICLR 2020 | 神经正切,5行代码打造无限宽的神经网络模型
图神经网络 GNN GAT & GCN(一)
知乎: https://www.zhihu.com/people/gong-jun-min-74
zenRRan
2020/04/21
3.6K0
图神经网络 GNN GAT & GCN(一)
深度学习与统计力学(IV) :深层网络的信号传播和初始化
在对公式(3)的误差曲面运行梯度下降之前,我们必须要选择参数 的初始配置。 对应公式(1)神经网络中所有 层中的权重和偏置 。通常,这些参数的初始值是随机选择的。权重 从一个零均值方差为 的高斯分布中独立同分布采样,其中 为突触前层的神经元数量。偏置则是从一个零均值方差为 的高斯分布中独立同分布采样。权重和偏置的相对尺度确保两者在同等的基础上影响突触后活动,即使对于大的 。
数据科学人工智能
2022/03/31
9710
深度学习与统计力学(IV) :深层网络的信号传播和初始化
关于图神经网络(Graph Neural Networks,GNN)基础知识汇总1.0
图论〔Graph Theory〕是数学的一个分支。它以图为研究对象。图论中的图是由若干给定的点及连接两点的线所构成的图形,这种图形通常用来描述某些事物之间的某种特定关系,用点代表事物,用连接两点的线表示相应两个事物间具有这种关系。
江夏四卯
2023/09/30
9.5K0
详细对比深度神经网络DNN和高斯过程GP
深度神经网络 (DNN) 和高斯过程 (GP)* 是两类具有高度表现力的监督学习算法。在考虑这些方法的应用时会出现一个自然的问题:“什么时候以及为什么使用一种算法比另一种更有意义?”
deephub
2021/10/09
1.2K0
学界 | 深度神经网络为什么不易过拟合?傅里叶分析发现固有频谱偏差
众所周知,过参数化的深度神经网络(DNN)是一类表达能力极强的函数,它们甚至可以以 100% 的训练准确率记住随机数据。这种现象就提出了一个问题:为什么它们不会轻易地过度拟合真实数据?为了回答这个问题,我们使用傅立叶分析研究了深度神经网络。我们证明了具有有限权重(或者经过有限步训练)的深度神经网络天然地偏向于在输入空间上表示光滑的函数。具体而言,深度 ReLU 网络函数的一个特定频率分量(k)的大小至少以 O(k^(-2))的速率衰减,网络的宽度和深度分别以多项式和指数级别帮助网络对更高的频率建模。这就说明了为什么深度神经网络不能完全记住 delta 型的峰函数。我们的研究还表明深度神经网络可以利用低维数据流形的几何结构来用简单的函数逼近输入空间中存在于简单函数流形上的复杂函数。结果表明,被网络分类为属于某个类的所有样本(包括对抗性样本)都可以通过一条路径连接起来,这样沿着该路径上的网络预测结果就不会改变。最后,我们发现对应于高频分量的深度神经网络(DNN)参数在参数空间中所占的体积较小。
机器之心
2018/07/26
9910
学界 | 深度神经网络为什么不易过拟合?傅里叶分析发现固有频谱偏差
深度学习与统计力学(IV) :深层网络的信号传播和初始化
有趣的是,这种输入几何形状的信息传播的发散深度尺度与训练极深的临界网络的能力相吻合[31](如图3所示)。此外,在远离临界点时,可靠的前向信息传播的深度尺度决定了神经网络可以训练的深度。这种临界相变、发散的深度尺度和临界状态下的深度可训练性不仅在全连接网络中观察到[31],而且还在卷积网络[63],自编码器[64]和循环网络[65,66]中观察到。
数据酷客
2020/04/28
5890
深度学习与统计力学(IV) :深层网络的信号传播和初始化
神经网络可解释性、深度学习新方法, 2020 年有哪些势不可挡的研究趋势?
作为 2019 年最后一场重量级的人工智能国际学术顶会,NeurIPS 2019 所反映出的一些人工智能研究趋势,例如神经网络可解释性、深度学习新方法、神经科学等等,想必对于大家在新的一年开展研究工作,具有一定的借鉴和参考价值。
数据派THU
2020/02/12
1.2K0
神经网络可解释性、深度学习新方法, 2020 年有哪些势不可挡的研究趋势?
推荐阅读
相关推荐
UC伯克利发现「没有免费午餐定理」加强版:每个神经网络,都是一个高维向量
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档