首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >AI论文速读 | YingLong:基于联合预测框架与延迟链式推理的时序预测基础模型

AI论文速读 | YingLong:基于联合预测框架与延迟链式推理的时序预测基础模型

作者头像
时空探索之旅
发布2025-07-08 19:23:39
发布2025-07-08 19:23:39
2540
举报
文章被收录于专栏:时空探索之旅时空探索之旅

论文标题:Output Scaling: YingLong-Delayed Chain of Thought in a Large Pretrained Time Series Forecasting Model

作者: Xue Wang, Tian Zhou(周天), Jinyang Gao, Bolin Ding(丁博麟), Jingren Zhou(周靖人)

机构阿里巴巴

论文链接https://arxiv.org/abs/2506.11029

Cool Paperhttps://papers.cool/arxiv/2506.11029

HuggingFacehttps://huggingface.co/qcw1314/YingLong_300m

TL;DR:本文提出了一种新型时间序列预测框架 YINGLONG,采用非因果双向注意力机制及掩码token恢复训练方法,通过延迟链式推理(DCoT)和多输入集成方法,有效提升了预测精度和泛化能力,在多个数据集上取得了优异的性能表现。

关键词: 时间序列预测、基础模型、联合预测框架、延迟链式推理(DCoT)

摘要

本文提出了一种用于时间序列预测的联合预测框架,该框架与传统的直接或递归方法形成对比。这个框架为本文设计的基础模型 “YingLong” 实现了最先进的性能,并揭示了一种新的尺度效应:由于非因果方法中延迟的思维链推理,更长的输出显著提高了模型精度。“YingLong” 是一种非因果、双向注意力仅编码器的 Transformer,通过掩码token恢复进行训练,与生成任务相比,它能更有效地与语言理解任务保持一致。此外,通过多输入集成处理输出方差,从而提升性能。本文发布了四个参数范围从 600 万到 3 亿的基础模型,在 ETT 和Weather数据集的零样本任务中展示了卓越的结果。“YingLong” 实现了超过 60% 的最佳性能。为确保通用性,使用 GIFT-Eval 基准对模型进行了评估,该基准包含来自 7 个领域的 23 个时间序列数据集。“YingLong” 在排名上分别比最佳时间序列基础模型、端到端训练模型显著高出 14% 和 44%。预训练的 3 亿参数模型可在https://huggingface.co/qcw1314/YingLong_300m上获取。

基于思维链延迟(DCoT)的输出缩放联合预测。在联合预测中,每个 Transformer 模块采用大小为 (L + K + D)×(L + K + D) 的全密集注意力机制。在直接预测范式中,使用大小为 L×L 的密集注意力图(Attention map)。相反,递归预测采用半密集或全密集的 L×L 注意力图
基于思维链延迟(DCoT)的输出缩放联合预测。在联合预测中,每个 Transformer 模块采用大小为 (L + K + D)×(L + K + D) 的全密集注意力机制。在直接预测范式中,使用大小为 L×L 的密集注意力图(Attention map)。相反,递归预测采用半密集或全密集的 L×L 注意力图

基于延迟思维链(DCoT)的输出缩放联合预测。在联合预测中,每个 Transformer 模块采用大小为 (L + K + D)×(L + K + D) 的全密集注意力机制。在直接预测范式中,使用大小为 L×L 的密集注意力图(Attention map)。相反,递归预测采用半密集或全密集的 L×L 注意力图

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决时间序列预测中的几个关键问题,主要包括:

  1. 传统预测方法的局限性
    • 递归预测方法:假设时间序列具有因果性和自回归生成性质,但这种方法在处理复杂的、非自回归的时间序列数据时效果不佳,并且容易因误差累积而导致预测精度下降。
    • 直接预测方法:虽然在某些任务中表现优于递归预测,但它假设每个输出之间是完全独立的,忽略了时间序列数据中固有的时间相关性,可能导致预测结果缺乏时间连贯性。
  2. 时间序列预测的复杂性和分布偏移
    • 时间序列数据通常具有复杂的动态特性,如周期性、趋势性、季节性等,这些特性使得预测任务变得极具挑战性。
    • 数据的分布偏移(如训练数据和测试数据之间的差异)也可能导致模型在实际应用中的性能下降。
  3. 如何有效利用时间序列数据中的双向信息流
    • 类似于自然语言理解(NLU)任务,时间序列预测也需要整合全面的输入信号,通过双向信息流来提高预测精度。
    • 然而,传统的自然语言处理(NLP)方法(如自回归模型)通常只能单向处理信息,限制了模型的推理能力。
  4. 如何提高时间序列预测模型的泛化能力
    • 现有的时间序列预测模型在特定任务上表现良好,但在跨领域或跨数据集的泛化能力上存在不足。
    • 如何开发一种能够零样本(zero-shot)泛化的时间序列基础模型,使其在未见过的数据集上也能表现出色,是当前研究的一个重要方向。

为了解决这些问题,论文提出了一种新的时间序列预测框架——联合预测(joint forecasting)框架,并开发了一个基于非因果双向注意力编码器的大型预训练模型 YINGLONG。该框架通过引入掩码token恢复训练方法,充分利用了双向信息流,并通过延迟链式推理(Delayed Chain-of-Thought, DCoT)方法显著提高了模型的预测精度。此外,论文还提出了一种多输入集成方法,通过结合不同长度的输入序列来减少预测方差,进一步提升模型的稳健性和准确性。

Q: 有哪些相关研究?

A: 论文中提到了多个与时间序列预测相关的研究领域和具体工作,以下是主要的相关研究:

时间序列预测方法

  • 传统方法
    • ARIMA模型:自回归积分滑动平均模型(ARIMA)是时间序列预测的经典方法,通过拟合时间序列的自回归项和滑动平均项来进行预测。论文中提到的Auto ARIMA是一种自动选择最佳ARIMA模型参数的方法。
    • 指数平滑法:如Auto ETS(自动指数平滑法),通过加权平均历史数据来进行预测,适用于具有趋势和季节性的数据。
    • 季节性朴素预测:Seasonal Naive是一种简单的预测方法,假设未来的值与过去相同季节的值相同。
  • 基于深度学习的方法
    • Autoformer:通过自相关机制改进了Transformer架构,用于长期时间序列预测。
    • Informer:提出了一种高效的自注意力机制,适用于大规模时间序列数据。
    • FEDformer:结合了频率增强分解Transformer,进一步提高了长期预测的准确性。
    • 循环神经网络(RNN):如LSTM(长短期记忆网络)和GRU(门控循环单元),能够处理时间序列数据中的长期依赖关系。
    • Transformer架构:近年来,基于Transformer的时间序列预测模型取得了显著进展。例如:
    • 混合模型:如N-BEATS,结合了神经网络和传统的时间序列分解方法,通过堆叠多个块来捕捉时间序列的不同特征。

时间序列基础模型

  • 基础模型:类似于自然语言处理中的大型语言模型(LLM),时间序列基础模型旨在通过预训练获得强大的特征表示能力,以实现零样本或少样本的泛化能力。例如:
    • Moirai:基于掩码重建的编码器-仅模型,用于时间序列预测。
    • Moment:通过掩码重建训练的时间序列基础模型。
    • VisionTS:利用视觉掩码自编码器进行时间序列预测。
    • Chronos:基于T5架构的编码器-解码器模型。
    • TimesFM:基于解码器的模型,适用于时间序列预测。

链式推理(Chain-of-Thought, CoT)

  • 链式推理:在自然语言处理中,链式推理通过生成中间推理步骤来提高模型的推理能力和表达性。例如:
    • LLM提示:通过在输入中添加提示来引导模型生成中间推理步骤。
    • 推理链训练:通过训练模型生成推理链来提高其推理能力。

数据集和基准

  • 数据集:论文使用了多个公开的时间序列数据集进行实验,包括ETT(Electricity Transformer Temperature)数据集、Weather数据集等。
  • 基准测试:GIFT-Eval是一个综合的时间序列预测基准,涵盖了23个不同领域的数据集,用于评估模型的泛化能力和准确性。

这些相关研究为论文提出的新方法提供了理论基础和技术支持,同时也指出了现有方法的局限性,从而引出了论文提出的联合预测框架和YINGLONG模型。

Q: 论文如何解决这个问题?

YingLong
YingLong

YingLong

A: 论文通过提出一种新的联合预测框架(joint forecasting framework)来解决时间序列预测中的问题,该框架的核心是利用非因果双向注意力机制和掩码token恢复训练方法。以下是论文解决这些问题的具体方法:

1. 联合预测框架(Joint Forecasting Framework)

  • 非因果双向注意力机制:传统的递归和直接预测方法都有其局限性。递归方法假设时间序列具有因果性和自回归性质,而直接方法假设输出之间完全独立。论文提出了一种非因果双向注意力机制,允许模型在预测时同时考虑过去和未来的信息,类似于自然语言理解中的双向信息流。
  • 掩码token恢复训练:在训练阶段,模型通过掩码token恢复任务来学习时间序列的特征表示。这种方法类似于BERT在自然语言处理中的掩码语言模型(Masked Language Model, MLM),通过预测被掩码的token来学习数据的内在结构。
使用掩码token预测进行训练
使用掩码token预测进行训练

使用掩码token预测进行训练

2. 延迟链式推理(Delayed Chain-of-Thought, DCoT)

  • 延迟链式推理论文发现了一个新的现象,即通过延长输出序列(即增加延迟链式推理的长度),可以显著提高模型的预测精度。这种现象被称为延迟链式推理(DCoT)。在DCoT中,未来的token(即链式推理token)可以影响过去的token,从而提供更多的上下文信息,增强模型的推理能力。
  • 输出扩展:通过扩展输出序列的长度,模型能够更好地捕捉时间序列中的长期依赖关系和低频模式,从而提高预测的准确性。

3. 多输入集成方法(Multi-Input Ensemble)

  • 输入长度多样性:为了应对不同时间范围的预测任务,论文提出了一种多输入集成方法。该方法通过结合不同长度的输入序列来进行预测,从而在不同时间尺度上捕捉时间序列的特征。
  • 时间镜像:通过反转输入序列并相应地转预测目标,然后通过集成平均来利用双向时间模式,进一步提高预测的稳定性。

4. 模型架构(Model Architecture)

  • U-Transformer架构:论文设计了一种U-Transformer架构,类似于计算机视觉中的U-Net结构。这种架构通过在浅层引入token合并模块,并从浅层到深层引入长跳跃连接,使网络能够处理不同粒度的信息,从而提高点级预测的性能。
  • 加权分位数损失函数:为了处理概率预测,论文采用了加权分位数损失函数(Weighted Quantiles Loss, WQL),通过优化分位数损失来提高模型的预测精度。

Q: 论文做了哪些实验?

A: 论文进行了以下几类实验来验证所提出方法的有效性:

1. 零样本预测实验(Zero-shot Forecasting)

  • 数据集:使用了ETT(Electricity Transformer Temperature)数据集和Weather(天气)数据集。
  • 实验目的:验证YINGLONG模型在未见过的数据集上的预测性能,即零样本泛化能力。
  • 实验结果
    • YINGLONG模型在ETT和Weather数据集上取得了优异的性能,特别是在复杂天气任务中,模型大小与性能之间存在明显的规模定律。
    • YINGLONG110m和YINGLONG300m在70%的MSE和75%的MAE情况下排名第二,YINGLONG300m在60%的MSE和90%的MAE情况下排名第一。
    • 最小的YINGLONG6m模型在平均排名上也优于比其大30倍的基础模型。
零样本预测
零样本预测

零样本预测

2. 跨数据集泛化实验(Generalization Across Diverse Datasets)

  • 数据集:使用了GIFT-Eval基准测试,该基准涵盖了23个不同领域的数据集,包括经济、能源、医疗保健、自然、销售、交通和云操作等。
  • 实验目的:评估YINGLONG模型在多样化数据集上的泛化能力。
  • 实验结果:
    • YINGLONG模型在GIFT-Eval基准测试中取得了显著的性能提升,特别是在能源、自然和交通领域,平均排名从9.2提升到4.3,从4.6提升到3.8,从6.9提升到5.2。
    • YINGLONG300m模型在MASE和CRPS指标上分别比最近的TabPFN-TS模型提高了4.3%和3.5%。
    • YINGLONG模型在不同模型大小(从50M到300M)上均表现出良好的性能提升,验证了模型的规模定律。
GIFT-Eval实验结果
GIFT-Eval实验结果

GIFT-Eval实验结果

3. 延迟链式推理(DCoT)的影响实验

  • 实验目的:验证延迟链式推理(DCoT)对模型性能的影响。
  • 实验方法:通过改变DCoT的长度,观察模型在GIFT-Eval基准测试中的性能变化。
  • 实验结果
    • DCoT显著提高了模型的性能,特别是在较长的输出序列上,性能提升更为明显。
    • 例如,YINGLONG300m模型在使用4096长度的DCoT时,MASE降低了10.5%,CRPS降低了11.9%。
    • 随着DCoT长度的增加,模型在趋势预测上的误差减少更为显著,而季节性成分的误差减少相对较小。
DCot消融实验
DCot消融实验

DCot消融实验

4. 多输入集成方法的影响实验

  • 实验目的:验证多输入集成方法对模型性能的影响。
  • 实验方法:通过比较使用单一输入长度和多输入长度集成方法的预测结果。
  • 实验结果
    • 多输入集成方法在不增加额外模型训练的情况下,提高了预测的准确性和稳定性。
    • 例如,在ETT和Weather数据集上,多输入集成方法将YINGLONG模型的MSE和MAE分别降低了1%到4%。
多输入集成影响
多输入集成影响

多输入集成影响

5. 模型结构消融实验(Structure Ablation)

  • 实验目的:验证U-Transformer架构和token合并模块对模型性能的影响。
  • 实验方法:通过比较标准Transformer模型、添加token合并模块的模型和完整的U-Transformer模型的性能。
  • 实验结果
    • U-Transformer架构和token合并模块对模型性能有小幅的提升。
    • 例如,在ETT和Weather数据集上,完整的U-Transformer模型在MSE和MAE上分别比标准Transformer模型降低了1%到5%。
模型结构消融实验
模型结构消融实验

模型结构消融实验

6. 输出扩展对不同模型的影响实验

  • 实验目的:验证输出扩展(即DCoT)对不同模型大小的影响。
  • 实验方法:在不同大小的Transformer模型(从6M到300M参数)上应用DCoT,并比较其在GIFT-Eval基准测试中的性能。
  • 实验结果
    • 输出扩展对所有模型大小都有效,特别是对于较大的模型,性能提升更为显著。
    • 例如,300M参数的Transformer模型在使用4096长度的DCoT时,MASE和CRPS分别降低了24.9%和30.0%。
在不同 DCoT 设置下,遵循联合预测范式的6M到300M参数Transformer 模型的输出缩放
在不同 DCoT 设置下,遵循联合预测范式的6M到300M参数Transformer 模型的输出缩放

在不同 DCoT 设置下,遵循联合预测范式的6M到300M参数Transformer 模型的输出缩放

这些实验结果表明,YINGLONG模型通过联合预测框架、延迟链式推理和多输入集成方法,在时间序列预测任务中取得了显著的性能提升,并且具有良好的泛化能力。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-07-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 时空探索之旅 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 摘要
  • Q: 这篇论文试图解决什么问题?
  • Q: 有哪些相关研究?
    • 时间序列预测方法
    • 时间序列基础模型
    • 链式推理(Chain-of-Thought, CoT)
    • 数据集和基准
  • Q: 论文如何解决这个问题?
    • 1. 联合预测框架(Joint Forecasting Framework)
    • 2. 延迟链式推理(Delayed Chain-of-Thought, DCoT)
    • 3. 多输入集成方法(Multi-Input Ensemble)
    • 4. 模型架构(Model Architecture)
  • Q: 论文做了哪些实验?
    • 1. 零样本预测实验(Zero-shot Forecasting)
    • 2. 跨数据集泛化实验(Generalization Across Diverse Datasets)
    • 3. 延迟链式推理(DCoT)的影响实验
    • 4. 多输入集成方法的影响实验
    • 5. 模型结构消融实验(Structure Ablation)
    • 6. 输出扩展对不同模型的影响实验
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档