气候变化加剧了河流洪水,其发生频率和强度均前所未有。近日的洞庭湖决堤新闻牵动人心,那时间序列技术能否帮助提高洪水预测的准确度呢?ICML 2024 中有一篇相关的工作。
该工作来自牛津大学,研究者着重研究了在神经网络进行洪水预测时,利用河流网络的拓扑结构信息是否能提高预测性能。
目前的预测系统通常依赖于河流流量预测,该方式将预测视为孤立问题。然而,将已知的河流网络拓扑结构纳入预测模型中,利用测量站点之间的邻接关系,理论上有助于提高准确度。因此,研究者使用图神经网络(GNNs)对测量站网络进行河流流量建模,并比较了不同邻接定义下实现的预测性能。
【论文标题】The Merit of River Network Topology for Neural Flood Forecasting
【论文地址】https://arxiv.org/abs/2405.19836
【论文源码】https://github.com/nkirschi/neural-flood-forecasting
论文背景
洪水是地球上最具破坏性的自然灾害之一,对基础设施、财产和人类生命造成了广泛破坏。它们也是最常见的灾害类型,占所有记录灾害事件的近一半。仅在2022年,洪水就影响了全球5710万人,造成近8000人死亡,并造成449亿美元的经济损失。随着气候变化的持续,洪水在过去几十年中越来越频繁,预计未来将更加普遍。因此,能够帮助当局和个人为即将到来的洪水做好准备并做出应对的早期预警系统在减少人员伤亡和经济损失方面发挥着至关重要的作用。
01、现有洪水预测方法的局限性
02、本文研究目标及价值
在这项工作中,研究者研究了河流网络拓扑信息对流量预测的影响,方法是使用一个端到端的图神经网络(GNN),以便在预测过程中利用网络结构。研究者在LamaH-CE数据集上训练GNN,并为了评估引入图结构的优点,比较了不同邻接定义的效果:
研究者对整个数据集以及四个故意选择的小规模子网(具有不同的局部拓扑结构)进行了这种比较。此外,还检查了学习到的边权重与静态权重之间的相关性。最后分析了模型在最差性能测流站上的表现。
论文方法
01、数据预处理
02、预测任务
研究者给模型分配了一个监督节点回归的实例。假设我们为所有水位计提供了最近W(“窗口大小”)小时的流量和气象测量数据,目标是预测未来L(“提前时间”)小时的流量。同样,为了简化,研究者将所有符号限制在输入中的流量数据上,因为气象数据可以很容易地作为额外的维度添加进来。
(1)特征与目标:
(2)邻接矩阵:
孤立(Isolated):无邻接关系,等同于现有方法。
二进制(Binary):相邻测量站之间的二进制邻接关系。
加权(Weighted):根据物理关系(如河流长度、海拔差异和平均坡度)定义的加权邻接关系。
学习(Learned):将边权重作为模型参数进行学习。
03、模型架构
(1)图神经网络(GNN):
(2)GNN层的选择:
这三种都采用了残差连接来克服所谓的过平滑现象,即随着深度的增加,相邻节点的特征会趋于一致。
实验结果
01、河流拓扑比较
02、学习权重
为了查看学习到的权重是否与物理权重具有任何相似性,研究者计算了所有拓扑组合的皮尔逊相关系数。上表显示,物理权重分配与学习到的权重之间的相关性较低。在多个实例中,使用不同的模型架构时,符号甚至会反转。例如,对于ResGCN,与河流长度的正相关最大,但在同一情况下,GCNII实现了相同大小的负相关。这意味着物理边权重并不是预测模型中最优的上下文信息。
03、小规模子网络
04、最差测量站分析
对表现最差的测量站进行了分析,发现其流量具有突然且窄的峰值,这对任何预测器来说都是非常难以预测的。该仪表可能位于水闸之后,因此预测性能一般,预测结果经常遗漏尖峰。
总结
本文探索了图神经网络(GNN)在河流网络图中进行整体洪水预测的应用性。基于LamaH-CE数据集,研究者构建了一个有监督的节点回归任务,以在给定的过去观测数据下预测图中所有测量站点的未来流量。通过修改邻接矩阵,比较了不同邻接定义对预测性能的影响。
尽管理论上利用河流网络的拓扑结构信息有可能提高预测性能,但在实际应用中,实验结果并未显示出显著的性能提升。这表明,在当前的实验设置和数据集下,河流网络的拓扑信息并不是提高洪水预测性能的关键因素。未来的研究应继续探索在何种条件下图结构信息对神经网络预测有帮助,并进一步改进洪水预测模型。