论文标题:Output Scaling: YingLong-Delayed Chain of Thought in a Large Pretrained Time Series Forecasting Model
作者: Xue Wang, Tian Zhou(周天), Jinyang Gao, Bolin Ding(丁博麟), Jingren Zhou(周靖人)
机构:阿里巴巴
论文链接:https://arxiv.org/abs/2506.11029
Cool Paper:https://papers.cool/arxiv/2506.11029
HuggingFace:https://huggingface.co/qcw1314/YingLong_300m
TL;DR:本文提出了一种新型时间序列预测框架 YINGLONG,采用非因果双向注意力机制及掩码token恢复训练方法,通过延迟链式推理(DCoT)和多输入集成方法,有效提升了预测精度和泛化能力,在多个数据集上取得了优异的性能表现。
关键词: 时间序列预测、基础模型、联合预测框架、延迟链式推理(DCoT)
摘要
本文提出了一种用于时间序列预测的联合预测框架,该框架与传统的直接或递归方法形成对比。这个框架为本文设计的基础模型 “YingLong” 实现了最先进的性能,并揭示了一种新的尺度效应:由于非因果方法中延迟的思维链推理,更长的输出显著提高了模型精度。“YingLong” 是一种非因果、双向注意力仅编码器的 Transformer,通过掩码token恢复进行训练,与生成任务相比,它能更有效地与语言理解任务保持一致。此外,通过多输入集成处理输出方差,从而提升性能。本文发布了四个参数范围从 600 万到 3 亿的基础模型,在 ETT 和Weather数据集的零样本任务中展示了卓越的结果。“YingLong” 实现了超过 60% 的最佳性能。为确保通用性,使用 GIFT-Eval 基准对模型进行了评估,该基准包含来自 7 个领域的 23 个时间序列数据集。“YingLong” 在排名上分别比最佳时间序列基础模型、端到端训练模型显著高出 14% 和 44%。预训练的 3 亿参数模型可在https://huggingface.co/qcw1314/YingLong_300m上获取。
基于思维链延迟(DCoT)的输出缩放联合预测。在联合预测中,每个 Transformer 模块采用大小为 (L + K + D)×(L + K + D) 的全密集注意力机制。在直接预测范式中,使用大小为 L×L 的密集注意力图(Attention map)。相反,递归预测采用半密集或全密集的 L×L 注意力图
基于延迟思维链(DCoT)的输出缩放联合预测。在联合预测中,每个 Transformer 模块采用大小为 (L + K + D)×(L + K + D) 的全密集注意力机制。在直接预测范式中,使用大小为 L×L 的密集注意力图(Attention map)。相反,递归预测采用半密集或全密集的 L×L 注意力图
Q: 这篇论文试图解决什么问题?
A: 这篇论文试图解决时间序列预测中的几个关键问题,主要包括:
- 传统预测方法的局限性:
- 递归预测方法:假设时间序列具有因果性和自回归生成性质,但这种方法在处理复杂的、非自回归的时间序列数据时效果不佳,并且容易因误差累积而导致预测精度下降。
- 直接预测方法:虽然在某些任务中表现优于递归预测,但它假设每个输出之间是完全独立的,忽略了时间序列数据中固有的时间相关性,可能导致预测结果缺乏时间连贯性。
- 时间序列预测的复杂性和分布偏移:
- 时间序列数据通常具有复杂的动态特性,如周期性、趋势性、季节性等,这些特性使得预测任务变得极具挑战性。
- 数据的分布偏移(如训练数据和测试数据之间的差异)也可能导致模型在实际应用中的性能下降。
- 如何有效利用时间序列数据中的双向信息流:
- 类似于自然语言理解(NLU)任务,时间序列预测也需要整合全面的输入信号,通过双向信息流来提高预测精度。
- 然而,传统的自然语言处理(NLP)方法(如自回归模型)通常只能单向处理信息,限制了模型的推理能力。
- 如何提高时间序列预测模型的泛化能力:
- 现有的时间序列预测模型在特定任务上表现良好,但在跨领域或跨数据集的泛化能力上存在不足。
- 如何开发一种能够零样本(zero-shot)泛化的时间序列基础模型,使其在未见过的数据集上也能表现出色,是当前研究的一个重要方向。
为了解决这些问题,论文提出了一种新的时间序列预测框架——联合预测(joint forecasting)框架,并开发了一个基于非因果双向注意力编码器的大型预训练模型 YINGLONG。该框架通过引入掩码token恢复训练方法,充分利用了双向信息流,并通过延迟链式推理(Delayed Chain-of-Thought, DCoT)方法显著提高了模型的预测精度。此外,论文还提出了一种多输入集成方法,通过结合不同长度的输入序列来减少预测方差,进一步提升模型的稳健性和准确性。
Q: 有哪些相关研究?
A: 论文中提到了多个与时间序列预测相关的研究领域和具体工作,以下是主要的相关研究:
时间序列预测方法
- 传统方法:
- ARIMA模型:自回归积分滑动平均模型(ARIMA)是时间序列预测的经典方法,通过拟合时间序列的自回归项和滑动平均项来进行预测。论文中提到的Auto ARIMA是一种自动选择最佳ARIMA模型参数的方法。
- 指数平滑法:如Auto ETS(自动指数平滑法),通过加权平均历史数据来进行预测,适用于具有趋势和季节性的数据。
- 季节性朴素预测:Seasonal Naive是一种简单的预测方法,假设未来的值与过去相同季节的值相同。
- 基于深度学习的方法:
- Autoformer:通过自相关机制改进了Transformer架构,用于长期时间序列预测。
- Informer:提出了一种高效的自注意力机制,适用于大规模时间序列数据。
- FEDformer:结合了频率增强分解Transformer,进一步提高了长期预测的准确性。
- 循环神经网络(RNN):如LSTM(长短期记忆网络)和GRU(门控循环单元),能够处理时间序列数据中的长期依赖关系。
- Transformer架构:近年来,基于Transformer的时间序列预测模型取得了显著进展。例如:
- 混合模型:如N-BEATS,结合了神经网络和传统的时间序列分解方法,通过堆叠多个块来捕捉时间序列的不同特征。
时间序列基础模型
- 基础模型:类似于自然语言处理中的大型语言模型(LLM),时间序列基础模型旨在通过预训练获得强大的特征表示能力,以实现零样本或少样本的泛化能力。例如:
- Moirai:基于掩码重建的编码器-仅模型,用于时间序列预测。
- Moment:通过掩码重建训练的时间序列基础模型。
- VisionTS:利用视觉掩码自编码器进行时间序列预测。
- Chronos:基于T5架构的编码器-解码器模型。
- TimesFM:基于解码器的模型,适用于时间序列预测。
链式推理(Chain-of-Thought, CoT)
- 链式推理:在自然语言处理中,链式推理通过生成中间推理步骤来提高模型的推理能力和表达性。例如:
- LLM提示:通过在输入中添加提示来引导模型生成中间推理步骤。
- 推理链训练:通过训练模型生成推理链来提高其推理能力。
数据集和基准
- 数据集:论文使用了多个公开的时间序列数据集进行实验,包括ETT(Electricity Transformer Temperature)数据集、Weather数据集等。
- 基准测试:GIFT-Eval是一个综合的时间序列预测基准,涵盖了23个不同领域的数据集,用于评估模型的泛化能力和准确性。
这些相关研究为论文提出的新方法提供了理论基础和技术支持,同时也指出了现有方法的局限性,从而引出了论文提出的联合预测框架和YINGLONG模型。
Q: 论文如何解决这个问题?
YingLong
A: 论文通过提出一种新的联合预测框架(joint forecasting framework)来解决时间序列预测中的问题,该框架的核心是利用非因果双向注意力机制和掩码token恢复训练方法。以下是论文解决这些问题的具体方法:
1. 联合预测框架(Joint Forecasting Framework)
- 非因果双向注意力机制:传统的递归和直接预测方法都有其局限性。递归方法假设时间序列具有因果性和自回归性质,而直接方法假设输出之间完全独立。论文提出了一种非因果双向注意力机制,允许模型在预测时同时考虑过去和未来的信息,类似于自然语言理解中的双向信息流。
- 掩码token恢复训练:在训练阶段,模型通过掩码token恢复任务来学习时间序列的特征表示。这种方法类似于BERT在自然语言处理中的掩码语言模型(Masked Language Model, MLM),通过预测被掩码的token来学习数据的内在结构。
使用掩码token预测进行训练
2. 延迟链式推理(Delayed Chain-of-Thought, DCoT)
- 延迟链式推理:论文发现了一个新的现象,即通过延长输出序列(即增加延迟链式推理的长度),可以显著提高模型的预测精度。这种现象被称为延迟链式推理(DCoT)。在DCoT中,未来的token(即链式推理token)可以影响过去的token,从而提供更多的上下文信息,增强模型的推理能力。
- 输出扩展:通过扩展输出序列的长度,模型能够更好地捕捉时间序列中的长期依赖关系和低频模式,从而提高预测的准确性。
3. 多输入集成方法(Multi-Input Ensemble)
- 输入长度多样性:为了应对不同时间范围的预测任务,论文提出了一种多输入集成方法。该方法通过结合不同长度的输入序列来进行预测,从而在不同时间尺度上捕捉时间序列的特征。
- 时间镜像:通过反转输入序列并相应地翻转预测目标,然后通过集成平均来利用双向时间模式,进一步提高预测的稳定性。
4. 模型架构(Model Architecture)
- U-Transformer架构:论文设计了一种U-Transformer架构,类似于计算机视觉中的U-Net结构。这种架构通过在浅层引入token合并模块,并从浅层到深层引入长跳跃连接,使网络能够处理不同粒度的信息,从而提高点级预测的性能。
- 加权分位数损失函数:为了处理概率预测,论文采用了加权分位数损失函数(Weighted Quantiles Loss, WQL),通过优化分位数损失来提高模型的预测精度。
Q: 论文做了哪些实验?
A: 论文进行了以下几类实验来验证所提出方法的有效性:
1. 零样本预测实验(Zero-shot Forecasting)
- 数据集:使用了ETT(Electricity Transformer Temperature)数据集和Weather(天气)数据集。
- 实验目的:验证YINGLONG模型在未见过的数据集上的预测性能,即零样本泛化能力。
- 实验结果:
- YINGLONG模型在ETT和Weather数据集上取得了优异的性能,特别是在复杂天气任务中,模型大小与性能之间存在明显的规模定律。
- YINGLONG110m和YINGLONG300m在70%的MSE和75%的MAE情况下排名第二,YINGLONG300m在60%的MSE和90%的MAE情况下排名第一。
- 最小的YINGLONG6m模型在平均排名上也优于比其大30倍的基础模型。
零样本预测
2. 跨数据集泛化实验(Generalization Across Diverse Datasets)
- 数据集:使用了GIFT-Eval基准测试,该基准涵盖了23个不同领域的数据集,包括经济、能源、医疗保健、自然、销售、交通和云操作等。
- 实验目的:评估YINGLONG模型在多样化数据集上的泛化能力。
- 实验结果:
- YINGLONG模型在GIFT-Eval基准测试中取得了显著的性能提升,特别是在能源、自然和交通领域,平均排名从9.2提升到4.3,从4.6提升到3.8,从6.9提升到5.2。
- YINGLONG300m模型在MASE和CRPS指标上分别比最近的TabPFN-TS模型提高了4.3%和3.5%。
- YINGLONG模型在不同模型大小(从50M到300M)上均表现出良好的性能提升,验证了模型的规模定律。
GIFT-Eval实验结果
3. 延迟链式推理(DCoT)的影响实验
- 实验目的:验证延迟链式推理(DCoT)对模型性能的影响。
- 实验方法:通过改变DCoT的长度,观察模型在GIFT-Eval基准测试中的性能变化。
- 实验结果:
- DCoT显著提高了模型的性能,特别是在较长的输出序列上,性能提升更为明显。
- 例如,YINGLONG300m模型在使用4096长度的DCoT时,MASE降低了10.5%,CRPS降低了11.9%。
- 随着DCoT长度的增加,模型在趋势预测上的误差减少更为显著,而季节性成分的误差减少相对较小。
DCot消融实验
4. 多输入集成方法的影响实验
- 实验目的:验证多输入集成方法对模型性能的影响。
- 实验方法:通过比较使用单一输入长度和多输入长度集成方法的预测结果。
- 实验结果:
- 多输入集成方法在不增加额外模型训练的情况下,提高了预测的准确性和稳定性。
- 例如,在ETT和Weather数据集上,多输入集成方法将YINGLONG模型的MSE和MAE分别降低了1%到4%。
多输入集成影响
5. 模型结构消融实验(Structure Ablation)
- 实验目的:验证U-Transformer架构和token合并模块对模型性能的影响。
- 实验方法:通过比较标准Transformer模型、添加token合并模块的模型和完整的U-Transformer模型的性能。
- 实验结果:
- U-Transformer架构和token合并模块对模型性能有小幅的提升。
- 例如,在ETT和Weather数据集上,完整的U-Transformer模型在MSE和MAE上分别比标准Transformer模型降低了1%到5%。
模型结构消融实验
6. 输出扩展对不同模型的影响实验
- 实验目的:验证输出扩展(即DCoT)对不同模型大小的影响。
- 实验方法:在不同大小的Transformer模型(从6M到300M参数)上应用DCoT,并比较其在GIFT-Eval基准测试中的性能。
- 实验结果:
- 输出扩展对所有模型大小都有效,特别是对于较大的模型,性能提升更为显著。
- 例如,300M参数的Transformer模型在使用4096长度的DCoT时,MASE和CRPS分别降低了24.9%和30.0%。
在不同 DCoT 设置下,遵循联合预测范式的6M到300M参数Transformer 模型的输出缩放
在不同 DCoT 设置下,遵循联合预测范式的6M到300M参数Transformer 模型的输出缩放
这些实验结果表明,YINGLONG模型通过联合预测框架、延迟链式推理和多输入集成方法,在时间序列预测任务中取得了显著的性能提升,并且具有良好的泛化能力。