KDD 2025 | 突破固定变量：通过扁平化和时空焦点学习进行扩张变量时序预测

时空探索之旅

发布于 2025-08-12 10:28:55

2620

论文标题：Beyond Fixed Variables: Expanding-variate Time Series Forecasting via Flat Scheme and Spatio-temporal Focal Learning

作者：Minbo Ma(马敏博), Kai Tang（唐楷）, Huan Li（李环）, Fei Teng（滕飞）, Dalin Zhang（张大林）, Tianrui Li(李天瑞)

关键词：扩张时间序列预测，持续学习，对比学习

机构：西南交通大学，浙江大学，奥尔堡大学

论文链接：https://arxiv.org/abs/2502.15296

代码：https://github.com/mb-Ma/STEV

点击文末阅读原文跳转本文arXiv链接

研究背景&动机

随着数智化的发展，针对多变量时间序列的智能挖掘技术受到了广泛关注。在现实应用中，例如信息物理系统，受“先局部试点，后大范围应用”以及感知技术发展的影响，系统会不断部署新的传感器，扩张其感知范围。如下图所示，黄色阴影代表了系统感知范围，当新增传感器（红色点），扩大了整体感知区域。以期提供更广空间的系统服务。

多变量时间序列预测任务的目标是实现对未来一段多变量序列进行精准预测。当前主流的时序预测工作，主要基于data-driven learning研究变量数量固定的数据建模，尚未对扩张系统开展系统研究。特别地，当新传感器部署后，需要时间来采集数据（），面临着尽快开展预测和数据量需求的矛盾。

扩张变量时间序列预测整体示意图

基于此，我们提出了扩张变量时间序列，其包含了持续变量时间序列以及扩张变量时间序列。并着重对扩张变量时间序列预测任务开展研究。

研究挑战

解决上述序列任务，通常有两种范式：持续学习(Continual learning)和重训练(Retraining)。如下图所示，一些研究[1,2]对扩张交通路网流量预测进行了探索，采用持续学习，即先基于扩张前数据训练一个模型，再基于扩张后的数据对该模型再次优化。该方法计算效率高，无需重复使用数据。然而，由于灾难性遗忘问题，预测精度不足。重训练是将扩张前后数据合在一起后，重新训练模型，不存在遗忘问题。尽管每次需要重新对所有数据进行学习，考虑到预测模型的建模复杂度，其训练代价尚可接受。

持续学习 vs. 重训练

然而，重训练除了时空建模外，还额外面临两部分的挑战。我们先对挑战进行总结性介绍，然后再分别介绍现有方法解决这些挑战的局限性。

数据维度不一致。扩张前后的多变量时序样本在变量维度大小不一致。
时空学习不均衡。受扩张后观测限制的影响，扩张变量的数据量显著不足，相较之下，持续变量的数据更为充足，这种数据分布的不均衡促使模型在优化过程中产生对持续变量的偏倚。

具体地，数据维度不一致问题，有以下几种解决方案：

多变量转为单变量，消除了变量维度。然而，无法建模变量之间关联；
多batch训练，同一个时期的数据放在一起。然而，干预样本随机采样，引入采样偏差；
数据填充，对扩张前的样本填充扩张变量数据，在模型优化过程中掩码填充值。然而，不可避免引入噪声数据。

针对时空学习不均衡问题，有以下解决方案：

数据层面的增强，采用重采样、数据增强的数据增强方法。然而，这些方法容易导致过拟合，尤其是在合成数据未能充分表示扩张变量的情况下；
特征层面的增强，采用大模型微调、通道独立建模[3]，未考虑空间关联。

综上来看，现有解决方案在解决扩张变量时序预测面临着各种不足。

问题定义

我们在单次扩张上定义 EVTSF 问题。连续的扩张可以视为该过程的重复。

定义1：扩张变量时间序列 设和分别表示变量扩张前后的变量集合。仅包含持续变量，而同时包含持续变量和扩张变量，因此。 EVTS 数据集由两个主要部分组成：变量扩张前的多变量时间序列数据和变量扩张后的多变量时间序列数据，即。为了满足新传感器安装后快速的预测服务，扩张后的观测时间步数应远少于扩张前的时间步数，即。

定义 2：扩张变量时间序列预测 我们的目标是构建一个 EVTSF 函数，能够预测持续变量和扩张变量的未来值。形式化表示为：

其中，表示历史观测数据，表示预测结果，和分别为历史窗口长度和预测窗口长度。

优化问题：扩张变量时间序列预测 我们将的数据驱动优化问题（参数为）定义如下：

其中，、基于，通过滑动窗口技术构造，为目标损失函数。需要注意的是，在模型优化过程中，变量扩张前后的数据会被随机打乱。因此，在上述公式中，单个样本的变量维度等于（如果样本来自扩展前），否则等于。

所提方法

我们提出了一种直观、简单、且有效的方法，结合扁平化数据建模（单变量+整体孤立图）、焦点对比学习（focal spatio-temporal contrastive learning）的时空图神经网络框架STEV。如下图所示，FLAST将 EVTS 转换为单变量时间序列，并构建整体孤立图，以保留动态的变量间相关性。焦点对比学习模块旨在在模型优化过程中对扩张变量给予更多关注。

STEV整体结构

扁平化数据方案

为了更清晰地理解该方案，下图给出了填充方案和扁平化方案的对比示意。

数据填充 vs. 扁平化

为避免引入学习噪声，我们将多变量时间序列展平为单变量时间序列。Batched MTS样本展平之前所有样本共享同样的图结构，可以直接进行矩阵乘法，聚合节点特征。当展平后，如何进行不同节点之间的特征聚合（比如，和），以及避免不同样本中节点建立关联（比如，和），是需要解决的主要问题。受PyG中Advanced batch的启发[4]，它主要用于解决不同大小的子图如何在一个batch内并行计算的问题。如下图所示，不同子图对角堆叠，节点特征也相应排列，保证了图结构索引和样本索引的一一对应。此外，采用稀疏矩阵存储，以及稀疏矩阵计算，降低存储和计算开销。

图对角堆叠https://pytorch-geometric.readthedocs.io/en/2.5.2/advanced/batching.html

考虑到不同时间变量之间的关联会发生变化[5]，我们采用了时间感知的自适应图学习。

其中，表示节点嵌入矩阵，分别表示节点数量和节点表示的维度，采用随机初始化，并随模型优化；表示时间嵌入，考虑了天-周期和周-周期。tod表示time-of-day，dow表示day-of-week。

时空特征抽取

这部分我们采用了常用时空图网络，如下图所示，利用1D时序因果卷积TCN捕获long-range时序依赖，门控机制控制信息流动，切比雪夫谱图卷积捕获空间依赖，残差结构增强特征学习的稳定性。

时空特征抽取

焦点对比学习

现有研究[6, 7]已经探索了对比学习在时空建模的有效性。其通过拉近正样本和推远负样本，在潜在空间下学习到样本的判别式表示。这种自监督的学习方式，可以增强时空特征表示。

对比学习

然后，考虑对比学习和时空图之间存在潜在的冲突，即，如果GNN中邻居节点是对比学习中的负样本，二者存在矛盾，我们提出了负样本过滤策略。此外，工作[8]指出对比学习中温度因子可以控制对困难负样本的惩罚强度，值越小，模型更关注困难负样本的区别。其中，困难负样本是指两个负样本的特征接近，模型需要更大的更新幅度将其推开。在本问题中，由于数据资源差异，造成特征偏倚，模型在优化中更容易学到持续变量的特征分布，造成扩增在潜在空间的表示拉向持续变量，形成困难负样本。鉴于此，我们提出了一种变量感知系数——焦点温度因子，以提升模型对扩张变量的关注。其计算公式如下：

，

其中，度量特征之间的相似度，表示锚点i所在子图，为温度调节因子。

最终，模型采用联合损失函数优化，结合误差损失和对比损失：

实验评测

扩张时间序列数据集

我们基于公开数据集构建了三个不同领域的扩张变量时序数据：电力、天气、交通。数据集的统计结果以及实验数据划分如下表所示，相比一般时序预测任务，多出来了一份训练数据（i.e., 扩张后数据）。我们在后面的实验中，还对多次扩张的性能进行了验证。

实验数据统计&划分

对比方法

单变量时序预测(Univariate time series forecasting, UTSF): GRU[9], N-beats[10], PatchTST[11], GPT4TS[12]
先填充后掩码多变量时序预测（First-padding-then-masking MTSF, FPTM）: GWNET[13], AGCRN[14], MSGNET[15], Informer[16], DLinear[17], iTransformer[18]
持续学习方法：TrafficStream[19]

评测指标除了常规的MAE, RMSE，我们还额外进行了一项“oracle”评测，即，假设扩张变量也具有扩张之前的数据，用来评测完整数据驱动下模型性能的退化程度：

总体性能对比

如下所示，可以看到STEV在总体表现上明显优于baselines，特别是在扩张变量上。此外，在EPeMS数据集上，STEV仅使用5%数据（相比oracle）取得和基于完整数据的模型相当的预测精度。

总体表现

消融实验

常规的实验环节，这里主要指出当加入原始的对比学习时，可以看到性能是下降的。当加入负样本过滤后，对比学习开始起作用。增加焦点温度因子后，预测精度得到了进一步提升。此外，对比重采样、数据增强方法，STEV在处理不均衡问题上更有效。

消融实验

数据增强对比，OS：Over Sampling, DA: Data Augmentation

不同扩张策略的预测性能

我们还针对不同的扩张策略进行了泛化性验证，对比方法为oracle和baseline中表现最好的GWNET。扩张策略包含：

区域扩张，扩张的变量集中在某一块区域，模拟新增某一区域监测；
空间扩张，由持续变量向外快扩张，模拟全区域新增监测；
内部扩张，模拟增加监测空间密度。

下图可以看出，STEV在多种扩张策略上，具有稳定的最好表现。

不同扩张策略的预测性能

多次扩张的预测性能

我们对多次扩张以及一次扩张后观测更长时间进行了实验，评估SETV在现实应用中多次扩张以及不平衡现象缓解后的表现。如下表所示，STEV在两种设置上相比基线方法，都取得了更好的表现。

连续扩张和更长观测下预测性能

Long-term 预测

上述实验设置均为12步预测未来12步，进一步探索在更长期的预测性能，我们还对48步输入预测未来48步进行了评测。下表所示，STEV在long-term预测上相比基线方法，特别是long-term预测的方法iTransformer，取得大幅领先。

long-term预测48 steps - 48 steps

遗忘性能评测

在文章开始的时候，我们提到持续学习范式会受到灾难性遗忘问题的影响。这里，我们通过对持续变量在扩张前后预测精度的对比，验证该问题。其中，MAE_OLD@427表示基于扩张前的数据训练一个模型，该模型在427个持续变量的MAE表现；MAE_NEW@427表示基于扩张后的数据再训练一个模型，该模型在427个持续变量的MAE表现；AFMAE表示平均遗忘=MAE_OLD@427-MAE_NEW@427。从表中可以看出，持续学习方法TrafficStream确实存在遗忘问题。

知识遗忘实验

Take-away message

提出了一个新变量结构的预测任务，扩张变量时序预测，它强调了在动态系统中，当感知范围扩大后，尽快开展预测服务的需求下，提高所有变量的预测精度；
提出了一种结合扁平化数据方案和时空焦点对比学习的时空图预测框架，大幅提升时序变量的预测精度，特别是扩张变量；
针对该任务，发布了三个不同领域的扩张变量时间序列数据集，以促进时序社区深入探索该任务。
面向扩张变量时序数据的探索尚处于初步阶段，可以直观地拓展到其他任务，比如异常检测，进行相关研究。

References

Chen, et al. TrafficStream: A streaming traffic flowforecasting framework based on graph neural networks and continual learning.
Wang, et al. Pattern expansion and consolidation on evolving graphs for continual traffic prediction.
Nie et al. A Time Series is Worth 64 Words: Long-term Forecasting with Transformers.
Fey et al. Fast graph representation learning with PyTorch Geometric.
Ma et al. Learning time-aware graph strucutres for spatio-temporal forecasting.
Self-supervised contrastive learningfor universal time series representation learning.
Contrast Everything: A hierarchical contrastive framework for medical time series.
Understanding the behaviour of contrastive loss.
Empirical evaluation of gated recurrent neural networks on sequence modeling.
N-BEATS: Neural basis expansion analysis for interpretable time series forecasting.
A Time Series is Worth 64 Words: Long-term Forecasting with Transformers.
One Fits All: Power General Time Series Analysis by Pretrained LM.
Graph wavenet for deep spatial-temporal graph modeling.
Adaptive graph convolutional recurrent network for traffic forecasting.
MSGNet: Learning Multi-Scale Inter-series Correlations for Multivariate Time Series Forecasting.
Informer: Beyond efficient transformer for long sequence time-series forecasting.
Are transformers effective for time series forecasting?
iTransformer: Inverted transformers are effective for time series forecasting.
A streaming traffic flow forecasting framework based on graph neural networks and continual learning.