AI论文速读 | YingLong：基于联合预测框架与延迟链式推理的时序预测基础模型

时空探索之旅

发布于 2025-07-08 19:23:39

2810

文章被收录于专栏：时空探索之旅时空探索之旅

论文标题：Output Scaling: YingLong-Delayed Chain of Thought in a Large Pretrained Time Series Forecasting Model

作者： Xue Wang, Tian Zhou（周天）, Jinyang Gao, Bolin Ding（丁博麟）, Jingren Zhou（周靖人）

机构：阿里巴巴

论文链接：https://arxiv.org/abs/2506.11029

Cool Paper：https://papers.cool/arxiv/2506.11029

HuggingFace：https://huggingface.co/qcw1314/YingLong_300m

TL；DR：本文提出了一种新型时间序列预测框架 YINGLONG，采用非因果双向注意力机制及掩码token恢复训练方法，通过延迟链式推理（DCoT）和多输入集成方法，有效提升了预测精度和泛化能力，在多个数据集上取得了优异的性能表现。

关键词：时间序列预测、基础模型、联合预测框架、延迟链式推理（DCoT）

摘要

本文提出了一种用于时间序列预测的联合预测框架，该框架与传统的直接或递归方法形成对比。这个框架为本文设计的基础模型 “YingLong” 实现了最先进的性能，并揭示了一种新的尺度效应：由于非因果方法中延迟的思维链推理，更长的输出显著提高了模型精度。“YingLong” 是一种非因果、双向注意力仅编码器的 Transformer，通过掩码token恢复进行训练，与生成任务相比，它能更有效地与语言理解任务保持一致。此外，通过多输入集成处理输出方差，从而提升性能。本文发布了四个参数范围从 600 万到 3 亿的基础模型，在 ETT 和Weather数据集的零样本任务中展示了卓越的结果。“YingLong” 实现了超过 60% 的最佳性能。为确保通用性，使用 GIFT-Eval 基准对模型进行了评估，该基准包含来自 7 个领域的 23 个时间序列数据集。“YingLong” 在排名上分别比最佳时间序列基础模型、端到端训练模型显著高出 14% 和 44%。预训练的 3 亿参数模型可在https://huggingface.co/qcw1314/YingLong_300m上获取。

基于思维链延迟（DCoT）的输出缩放联合预测。在联合预测中，每个 Transformer 模块采用大小为 (L + K + D)×(L + K + D) 的全密集注意力机制。在直接预测范式中，使用大小为 L×L 的密集注意力图（Attention map）。相反，递归预测采用半密集或全密集的 L×L 注意力图

基于延迟思维链（DCoT）的输出缩放联合预测。在联合预测中，每个 Transformer 模块采用大小为 (L + K + D)×(L + K + D) 的全密集注意力机制。在直接预测范式中，使用大小为 L×L 的密集注意力图（Attention map）。相反，递归预测采用半密集或全密集的 L×L 注意力图

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决时间序列预测中的几个关键问题，主要包括：

传统预测方法的局限性：
- 递归预测方法：假设时间序列具有因果性和自回归生成性质，但这种方法在处理复杂的、非自回归的时间序列数据时效果不佳，并且容易因误差累积而导致预测精度下降。
- 直接预测方法：虽然在某些任务中表现优于递归预测，但它假设每个输出之间是完全独立的，忽略了时间序列数据中固有的时间相关性，可能导致预测结果缺乏时间连贯性。
时间序列预测的复杂性和分布偏移：
- 时间序列数据通常具有复杂的动态特性，如周期性、趋势性、季节性等，这些特性使得预测任务变得极具挑战性。
- 数据的分布偏移（如训练数据和测试数据之间的差异）也可能导致模型在实际应用中的性能下降。
如何有效利用时间序列数据中的双向信息流：
- 类似于自然语言理解（NLU）任务，时间序列预测也需要整合全面的输入信号，通过双向信息流来提高预测精度。
- 然而，传统的自然语言处理（NLP）方法（如自回归模型）通常只能单向处理信息，限制了模型的推理能力。
如何提高时间序列预测模型的泛化能力：
- 现有的时间序列预测模型在特定任务上表现良好，但在跨领域或跨数据集的泛化能力上存在不足。
- 如何开发一种能够零样本（zero-shot）泛化的时间序列基础模型，使其在未见过的数据集上也能表现出色，是当前研究的一个重要方向。

为了解决这些问题，论文提出了一种新的时间序列预测框架——联合预测（joint forecasting）框架，并开发了一个基于非因果双向注意力编码器的大型预训练模型 YINGLONG。该框架通过引入掩码token恢复训练方法，充分利用了双向信息流，并通过延迟链式推理（Delayed Chain-of-Thought, DCoT）方法显著提高了模型的预测精度。此外，论文还提出了一种多输入集成方法，通过结合不同长度的输入序列来减少预测方差，进一步提升模型的稳健性和准确性。

Q: 有哪些相关研究？

A: 论文中提到了多个与时间序列预测相关的研究领域和具体工作，以下是主要的相关研究：

时间序列预测方法

传统方法：
- ARIMA模型：自回归积分滑动平均模型（ARIMA）是时间序列预测的经典方法，通过拟合时间序列的自回归项和滑动平均项来进行预测。论文中提到的Auto ARIMA是一种自动选择最佳ARIMA模型参数的方法。
- 指数平滑法：如Auto ETS（自动指数平滑法），通过加权平均历史数据来进行预测，适用于具有趋势和季节性的数据。
- 季节性朴素预测：Seasonal Naive是一种简单的预测方法，假设未来的值与过去相同季节的值相同。
基于深度学习的方法：
- Autoformer：通过自相关机制改进了Transformer架构，用于长期时间序列预测。
- Informer：提出了一种高效的自注意力机制，适用于大规模时间序列数据。
- FEDformer：结合了频率增强分解Transformer，进一步提高了长期预测的准确性。
- 循环神经网络（RNN）：如LSTM（长短期记忆网络）和GRU（门控循环单元），能够处理时间序列数据中的长期依赖关系。
- Transformer架构：近年来，基于Transformer的时间序列预测模型取得了显著进展。例如：
- 混合模型：如N-BEATS，结合了神经网络和传统的时间序列分解方法，通过堆叠多个块来捕捉时间序列的不同特征。

时间序列基础模型

基础模型：类似于自然语言处理中的大型语言模型（LLM），时间序列基础模型旨在通过预训练获得强大的特征表示能力，以实现零样本或少样本的泛化能力。例如：
- Moirai：基于掩码重建的编码器-仅模型，用于时间序列预测。
- Moment：通过掩码重建训练的时间序列基础模型。
- VisionTS：利用视觉掩码自编码器进行时间序列预测。
- Chronos：基于T5架构的编码器-解码器模型。
- TimesFM：基于解码器的模型，适用于时间序列预测。

链式推理（Chain-of-Thought, CoT）

链式推理：在自然语言处理中，链式推理通过生成中间推理步骤来提高模型的推理能力和表达性。例如：
- LLM提示：通过在输入中添加提示来引导模型生成中间推理步骤。
- 推理链训练：通过训练模型生成推理链来提高其推理能力。

数据集和基准

数据集：论文使用了多个公开的时间序列数据集进行实验，包括ETT（Electricity Transformer Temperature）数据集、Weather数据集等。
基准测试：GIFT-Eval是一个综合的时间序列预测基准，涵盖了23个不同领域的数据集，用于评估模型的泛化能力和准确性。

这些相关研究为论文提出的新方法提供了理论基础和技术支持，同时也指出了现有方法的局限性，从而引出了论文提出的联合预测框架和YINGLONG模型。

Q: 论文如何解决这个问题？

YingLong

A: 论文通过提出一种新的联合预测框架（joint forecasting framework）来解决时间序列预测中的问题，该框架的核心是利用非因果双向注意力机制和掩码token恢复训练方法。以下是论文解决这些问题的具体方法：

1. 联合预测框架（Joint Forecasting Framework）

非因果双向注意力机制：传统的递归和直接预测方法都有其局限性。递归方法假设时间序列具有因果性和自回归性质，而直接方法假设输出之间完全独立。论文提出了一种非因果双向注意力机制，允许模型在预测时同时考虑过去和未来的信息，类似于自然语言理解中的双向信息流。
掩码token恢复训练：在训练阶段，模型通过掩码token恢复任务来学习时间序列的特征表示。这种方法类似于BERT在自然语言处理中的掩码语言模型（Masked Language Model, MLM），通过预测被掩码的token来学习数据的内在结构。

使用掩码token预测进行训练

2. 延迟链式推理（Delayed Chain-of-Thought, DCoT）

延迟链式推理：论文发现了一个新的现象，即通过延长输出序列（即增加延迟链式推理的长度），可以显著提高模型的预测精度。这种现象被称为延迟链式推理（DCoT）。在DCoT中，未来的token（即链式推理token）可以影响过去的token，从而提供更多的上下文信息，增强模型的推理能力。
输出扩展：通过扩展输出序列的长度，模型能够更好地捕捉时间序列中的长期依赖关系和低频模式，从而提高预测的准确性。

3. 多输入集成方法（Multi-Input Ensemble）

输入长度多样性：为了应对不同时间范围的预测任务，论文提出了一种多输入集成方法。该方法通过结合不同长度的输入序列来进行预测，从而在不同时间尺度上捕捉时间序列的特征。
时间镜像：通过反转输入序列并相应地翻转预测目标，然后通过集成平均来利用双向时间模式，进一步提高预测的稳定性。

4. 模型架构（Model Architecture）

U-Transformer架构：论文设计了一种U-Transformer架构，类似于计算机视觉中的U-Net结构。这种架构通过在浅层引入token合并模块，并从浅层到深层引入长跳跃连接，使网络能够处理不同粒度的信息，从而提高点级预测的性能。
加权分位数损失函数：为了处理概率预测，论文采用了加权分位数损失函数（Weighted Quantiles Loss, WQL），通过优化分位数损失来提高模型的预测精度。

Q: 论文做了哪些实验？

A: 论文进行了以下几类实验来验证所提出方法的有效性：

1. 零样本预测实验（Zero-shot Forecasting）

数据集：使用了ETT（Electricity Transformer Temperature）数据集和Weather（天气）数据集。
实验目的：验证YINGLONG模型在未见过的数据集上的预测性能，即零样本泛化能力。
实验结果：
- YINGLONG模型在ETT和Weather数据集上取得了优异的性能，特别是在复杂天气任务中，模型大小与性能之间存在明显的规模定律。
- YINGLONG110m和YINGLONG300m在70%的MSE和75%的MAE情况下排名第二，YINGLONG300m在60%的MSE和90%的MAE情况下排名第一。
- 最小的YINGLONG6m模型在平均排名上也优于比其大30倍的基础模型。

零样本预测

2. 跨数据集泛化实验（Generalization Across Diverse Datasets）

数据集：使用了GIFT-Eval基准测试，该基准涵盖了23个不同领域的数据集，包括经济、能源、医疗保健、自然、销售、交通和云操作等。
实验目的：评估YINGLONG模型在多样化数据集上的泛化能力。
实验结果：
- YINGLONG模型在GIFT-Eval基准测试中取得了显著的性能提升，特别是在能源、自然和交通领域，平均排名从9.2提升到4.3，从4.6提升到3.8，从6.9提升到5.2。
- YINGLONG300m模型在MASE和CRPS指标上分别比最近的TabPFN-TS模型提高了4.3%和3.5%。
- YINGLONG模型在不同模型大小（从50M到300M）上均表现出良好的性能提升，验证了模型的规模定律。

GIFT-Eval实验结果

3. 延迟链式推理（DCoT）的影响实验

实验目的：验证延迟链式推理（DCoT）对模型性能的影响。
实验方法：通过改变DCoT的长度，观察模型在GIFT-Eval基准测试中的性能变化。
实验结果：
- DCoT显著提高了模型的性能，特别是在较长的输出序列上，性能提升更为明显。
- 例如，YINGLONG300m模型在使用4096长度的DCoT时，MASE降低了10.5%，CRPS降低了11.9%。
- 随着DCoT长度的增加，模型在趋势预测上的误差减少更为显著，而季节性成分的误差减少相对较小。

DCot消融实验

4. 多输入集成方法的影响实验

实验目的：验证多输入集成方法对模型性能的影响。
实验方法：通过比较使用单一输入长度和多输入长度集成方法的预测结果。
实验结果：
- 多输入集成方法在不增加额外模型训练的情况下，提高了预测的准确性和稳定性。
- 例如，在ETT和Weather数据集上，多输入集成方法将YINGLONG模型的MSE和MAE分别降低了1%到4%。

多输入集成影响

5. 模型结构消融实验（Structure Ablation）

实验目的：验证U-Transformer架构和token合并模块对模型性能的影响。
实验方法：通过比较标准Transformer模型、添加token合并模块的模型和完整的U-Transformer模型的性能。
实验结果：
- U-Transformer架构和token合并模块对模型性能有小幅的提升。
- 例如，在ETT和Weather数据集上，完整的U-Transformer模型在MSE和MAE上分别比标准Transformer模型降低了1%到5%。

模型结构消融实验

6. 输出扩展对不同模型的影响实验

实验目的：验证输出扩展（即DCoT）对不同模型大小的影响。
实验方法：在不同大小的Transformer模型（从6M到300M参数）上应用DCoT，并比较其在GIFT-Eval基准测试中的性能。
实验结果：
- 输出扩展对所有模型大小都有效，特别是对于较大的模型，性能提升更为显著。
- 例如，300M参数的Transformer模型在使用4096长度的DCoT时，MASE和CRPS分别降低了24.9%和30.0%。