前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ICML 2024 | 探索“河流网络拓扑+GNN”在洪水预测任务中的有效性

ICML 2024 | 探索“河流网络拓扑+GNN”在洪水预测任务中的有效性

作者头像
VachelHu
发布2024-07-09 13:55:39
1620
发布2024-07-09 13:55:39
举报
文章被收录于专栏:时序人

气候变化加剧了河流洪水,其发生频率和强度均前所未有。近日的洞庭湖决堤新闻牵动人心,那时间序列技术能否帮助提高洪水预测的准确度呢?ICML 2024 中有一篇相关的工作。

该工作来自牛津大学,研究者着重研究了在神经网络进行洪水预测时,利用河流网络的拓扑结构信息是否能提高预测性能。

目前的预测系统通常依赖于河流流量预测,该方式将预测视为孤立问题。然而,将已知的河流网络拓扑结构纳入预测模型中,利用测量站点之间的邻接关系,理论上有助于提高准确度。因此,研究者使用图神经网络(GNNs)对测量站网络进行河流流量建模,并比较了不同邻接定义下实现的预测性能。

【论文标题】The Merit of River Network Topology for Neural Flood Forecasting

【论文地址】https://arxiv.org/abs/2405.19836

【论文源码】https://github.com/nkirschi/neural-flood-forecasting

论文背景

洪水是地球上最具破坏性的自然灾害之一,对基础设施、财产和人类生命造成了广泛破坏。它们也是最常见的灾害类型,占所有记录灾害事件的近一半。仅在2022年,洪水就影响了全球5710万人,造成近8000人死亡,并造成449亿美元的经济损失。随着气候变化的持续,洪水在过去几十年中越来越频繁,预计未来将更加普遍。因此,能够帮助当局和个人为即将到来的洪水做好准备并做出应对的早期预警系统在减少人员伤亡和经济损失方面发挥着至关重要的作用。

01、现有洪水预测方法的局限性

  • 现有系统:例如,Google的洪水预测计划主要关注河流洪水,这些洪水占绝大多数的损失。关键组件是基于环境指标(如过去的流量和降水)预测未来的河流流量。
  • 数据驱动方法:目前最先进的数据驱动方法基于LSTM变体,联合训练多个测量站以利用共享的物理基础。然而,即使这些测量站在同一个河流网络中,这些方法也没有考虑到网络的拓扑信息。
  • 数据集的局限性:主要的基准数据集(如CAMELS-x系列)不包含河流网络的拓扑信息,这可能是现有方法未能利用拓扑信息的原因之一。最近,Klingler等人发布了包含拓扑数据的新基准数据集LamaH-CE。

02、本文研究目标及价值

在这项工作中,研究者研究了河流网络拓扑信息对流量预测的影响,方法是使用一个端到端的图神经网络(GNN),以便在预测过程中利用网络结构。研究者在LamaH-CE数据集上训练GNN,并为了评估引入图结构的优点,比较了不同邻接定义的效果:

  • 无邻接,这相当于现有方法,具有跨测流站共享参数但测流站相互隔离的特点;
  • 网络中相邻测流站的二进制邻接;
  • 根据物理关系(即相邻测流站之间的河流长度、高程差和平均坡度)进行加权邻接;
  • 通过学习邻接关系,将边权重视为模型参数。

研究者对整个数据集以及四个故意选择的小规模子网(具有不同的局部拓扑结构)进行了这种比较。此外,还检查了学习到的边权重与静态权重之间的相关性。最后分析了模型在最差性能测流站上的表现。

论文方法

01、数据预处理

  • 数据集:使用的是LamaH-CE数据集,该数据集包含了多瑙河流域859个测量站的历史流量和气象数据。
  • 区域选择:选择了数据最完整的“Danube A”区域,并通过逆向深度优先搜索算法确定所有连接的测量站。
  • 测量站筛选:移除了数据缺失超过六小时的测量站,并确保剩余的测量站在2000年至2017年间的数据是完整的。
  • 归一化:对每个测量站的数据进行标准化处理,以加速训练过程。
  • 训练-测试划分:使用三种不同的训练-测试划分方式进行交叉验证,确保训练年份在测试年份之前。

02、预测任务

研究者给模型分配了一个监督节点回归的实例。假设我们为所有水位计提供了最近W(“窗口大小”)小时的流量和气象测量数据,目标是预测未来L(“提前时间”)小时的流量。同样,为了简化,研究者将所有符号限制在输入中的流量数据上,因为气象数据可以很容易地作为额外的维度添加进来。

(1)特征与目标:

  • 输入特征矩阵 𝑋(𝑡) :包含过去 𝑊 小时的流量和气象数据。
  • 目标向量 𝑦(𝑡) :未来 𝐿 小时后的流量。
  • 特征提取:对于每个时间步 𝑡,提取输入特征矩阵 𝑋(𝑡) 和对应的目标向量 𝑦(𝑡),形成训练和测试样本集。

(2)邻接矩阵:

  • 定义四种邻接矩阵:

孤立(Isolated):无邻接关系,等同于现有方法。

二进制(Binary):相邻测量站之间的二进制邻接关系。

加权(Weighted):根据物理关系(如河流长度、海拔差异和平均坡度)定义的加权邻接关系。

学习(Learned):将边权重作为模型参数进行学习。

  • 归一化:使用对称归一化的增强邻接矩阵 𝐴ˉ。

03、模型架构

(1)图神经网络(GNN):

  • 编码器(Encoder):将输入特征嵌入到潜在空间,使用线性变换
  • GNN层(GNN Layers):在潜在空间中应用一系列GNN层,每层包含残差连接以防止过度平滑。使用ReLU激活函数。
  • 解码器(Decoder):将潜在空间的表示投影到标量预测,使用线性变换

(2)GNN层的选择:

  • 残差GCN(ResGCN):普通的GCN层的残差版本。
  • GCNII:固有残差的GCNII层。
  • 残差GAT(ResGAT):基于注意力机制的GAT层的残差版本。

这三种都采用了残差连接来克服所谓的过平滑现象,即随着深度的增加,相邻节点的特征会趋于一致。

实验结果

01、河流拓扑比较

  • 实验设置:比较不同的邻接矩阵定义和边方向对预测性能的影响。
  • 结果:模型性能对图拓扑结构的选择几乎不敏感,甚至在移除所有边的情况下,模型性能也没有显著下降。表明河流网络的拓扑结构信息对于预测性能的提升作用不大。

02、学习权重

为了查看学习到的权重是否与物理权重具有任何相似性,研究者计算了所有拓扑组合的皮尔逊相关系数。上表显示,物理权重分配与学习到的权重之间的相关性较低。在多个实例中,使用不同的模型架构时,符号甚至会反转。例如,对于ResGCN,与河流长度的正相关最大,但在同一情况下,GCNII实现了相同大小的负相关。这意味着物理边权重并不是预测模型中最优的上下文信息。

03、小规模子网络

  • 实验设置:在四个小规模子网络上重复拓扑比较实验。
  • 结果:在小规模子网络上的实验结果与整个数据集的结果一致,进一步证实了拓扑信息对于预测性能的影响不大,这表明不是由于训练深层模型的问题,而是拓扑信息本身对于预测任务帮助有限。

04、最差测量站分析

对表现最差的测量站进行了分析,发现其流量具有突然且窄的峰值,这对任何预测器来说都是非常难以预测的。该仪表可能位于水闸之后,因此预测性能一般,预测结果经常遗漏尖峰。

总结

本文探索了图神经网络(GNN)在河流网络图中进行整体洪水预测的应用性。基于LamaH-CE数据集,研究者构建了一个有监督的节点回归任务,以在给定的过去观测数据下预测图中所有测量站点的未来流量。通过修改邻接矩阵,比较了不同邻接定义对预测性能的影响。

尽管理论上利用河流网络的拓扑结构信息有可能提高预测性能,但在实际应用中,实验结果并未显示出显著的性能提升。这表明,在当前的实验设置和数据集下,河流网络的拓扑信息并不是提高洪水预测性能的关键因素。未来的研究应继续探索在何种条件下图结构信息对神经网络预测有帮助,并进一步改进洪水预测模型。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 时序人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档