论文标题:How Can Time Series Analysis Benefit From Multiple Modalities? A Survey and Outlook
作者:Haoxin Liu(刘昊昕), Harshavardhan Kamarthi, Zhiyuan Zhao (赵志远), Shangqing Xu(徐尚青), Shiyu Wang(王世宇), Qingsong Wen(文青松), Tom Hartvigsen, Fei Wang(王飞), B. Aditya Prakash
机构:佐治亚理工学院(Gatech),字节跳动,松鼠AI,弗吉尼亚大学(UVA),康奈尔大学
论文地址:https://arxiv.org/abs/2503.11835
资源库:https://github.com/AdityaLab/MM4TS
TL; DR:本文系统性地探讨了时间序列分析如何从多模态中受益,提出了三个主要方向:TimeAsX(重用其他模态的基础模型)、Time+X(多模态扩展)和Time2X&X2Time(跨模态交互)。论文还识别了当前研究中的空白,包括模态选择、异构模态组合和未见任务的泛化能力,并提供了关键论文和资源的GitHub仓库。
关键词:多模态、基础模型重用、多模态扩展、跨模态交互、多模态时间序列分析
点击文末阅读原文跳转本文arXiv链接
时间序列分析(Time Series Analysis, TSA)研究存在一个长期被忽视的问题:大多数TSA工作仅考虑数值序列,而忽略了其他模态,导致信息不完整和非语言化的交互。相比之下,语言和视觉等模态近年来不仅经历了爆炸性发展,更呈现出密集的多模态融合,如GPT和Qwen系列等强大的基础多模态模型。作者指出:近期许多TSA工作正在形成一个新的研究领域,即多模态赋能的时间序列分析(MM4TSA)。总体来看,这些MM4TSA的研究共享一个高层次的动机:如何从多个模态中获益来助力时间序列分析。本文首次对这一新兴领域进行了全面的综述和详细的展望。具体而言,本文系统地讨论了三个角度的优势:(1)复用其他模态的基础模型,以实现高效的时间序列分析;(2)多模态扩展,以提高时间序列分析的性能;(3)跨模态交互。以实现更先进的时间序列分析。本文进一步根据引入模态的类型(包括文本、图像、音频、表格等)对相关工作进行分类,并在每个角度下进行详细讨论。最后,我们指出当前研究存在的空白与未来的研究机会,包括复用模态的选择问题、异构模态的组合问题和未见任务的泛化问题,这些问题分别对应上述三个优势。此外,我们发布了一个包含最新论文和相关资源的GitHub仓库。
时间序列分析(TSA)在多个领域具有重要的应用,例如能源预测、交通规划以及流行病政策制定。然而,长期以来存在一个被广泛忽视的问题,即TSA研究通常忽略其他模态,即大部分TSA工作只考虑数值序列数据,导致信息不够完整且无法自然交互。
近期,语言和视觉等多个“更丰富”的模态经历了快速的发展,不仅各自独立成为重要领域,还形成了以GPT和Qwen系列为代表的强大的基础多模态模型。相比之下,时间序列模态依旧相对未被充分探索并处于孤立状态。我们注意到最近许多TSA研究开始尝试打破这一僵局,其共同的高层动机是:“如何让TSA从多个模态中获益?”。本综述首次对新兴的MM4TSA领域进行全面地调研,并系统地指出三种关键的受益途径:(1)TimeAsX:复用其他模态的基础模型以实现高效的TSA;(2)Time+X:多模态扩展以增强TSA;(3)Time2X和X2Time:跨模态交互以实现更先进的TSA。本综述进一步地全面涵盖了语言、视觉、表格和音频等多个模态,并根据模态类型对已有研究进行分类。此外,本综述还从金融、医疗和时空数据等具体领域引入了代表性研究,清晰地展示了上述三种受益途径的实际价值。基于这一体系,本综述指出每种受益途径当前面临的主要研究空白:(1)选择哪种模态进行复用;(2)如何处理异构模态的组合;(3)如何泛化至未见任务,并探讨可能的解决方案,以启发未来研究。
本综述所提出的分类体系如图1所示。据作者所知,这是首个针对新兴的MM4TSA领域的综述,系统性地提出了三种有益的方法,全面地考虑了多种模态,具体介绍了应用案例,并深入讨论了研究空白与未来展望。已有的综述主要关注复用大型语言模型(LLMs)来进行时间序列分析,即本综述中的“Time As Text”(§3.1)。本综述将逐一详细介绍每个分支,并结合代表性研究进行讨论。由于篇幅受限,本文简要地介绍每个章节,和部分代表性工作。详细内容,请阅读综述原文。
语言和视觉模态拥有海量数据和成熟的基础模型,例如GPT、DeepSeek、Llama和Qwen系列。TimeAsX的思路是将时间序列转换为其他模态,复用这些模态的基础模型,以少样本或者零样本的方式实现高效的TSA。本文进一步根据所复用的模态,将此类“TimeAsX”研究划分为文本、图像、音频和表格,并逐一介绍。本文先介绍通用的研究,然后介绍具体领域的应用。
这类研究的动机主要基于语言和时间序列都具有序列结构,以及认为LLMs所具备的通用能力可以被应用到TSA中的观点。此类研究的主要挑战在于如何使时间序列数据与LLMs更好地对齐,以实现更有效的理解和激活。我们将相关文献分为三类并分别列举代表性工作:(1) 不经训练的直接对齐方法;(2) 在现有词汇表下进行训练以实现对齐的方法;(3) 扩展词汇表后进行训练以实现对齐的方法。
将时间序列重新表述为图像以增强特征感知是一种自然的思路,这与人类感知模式的方式类似,并且长期以来一直是研究关注的重点。根据图像类型的不同可以细分为如下方法
方法细分:
目前仅有少量工作尝试将预训练的音频神经网络模型用于时间序列分析任务。例如,Voice2Series [10]通过重新编程输入的时间序列,并将其输入到一个预训练的深度声学分类模型中。
表格基础模型可以在表格数据上执行少样本回归或分类任务。这类模型可以通过将时间序列表示为表格数据来适配时间序列分析任务,其中每个变量作为一个独立特征,并引入时间戳作为时间上下文。值得注意的是,TabPFN [11],一个用于时间序列预测的基础表格模型,表现出了强大的零样本时间序列预测性能,甚至超过多种基座时间序列模型。
请进一步查看综述原文了解模态复用在金融,医疗以及时空数据分析的具体应用。
人类专家通常通过整合多种模态完成时间序列分析(TSA)任务,尤其是结合数值数据和文本数据。例如,流行病学专家会将流感感染数据与文本领域知识、政策和报告结合,用于预测未来的流行趋势。然而,大多数TSA模型仍是单模态的,仅使用数值型序列。将单模态TSA扩展为多模态TSA,特别是通过整合文本模态,是一个新兴的研究方向。本文首先介绍通用领域中的多模态TSA研究,依次介绍“时间+文本”(Time+Text)与“时间+其他模态”(Time+Other Modalities),然后进一步讨论在特定应用领域中的代表性研究。同时,本文在表1中总结了一些代表性多模态时间序列数据集。
fig:
文本增强的时间序列分析是最为常见的多模态TSA场景。我们将集成的文本分为两类:静态文本和动态文本。
从方法角度上看,整合多种模态的关键挑战在于模态融合。本文将现有模型分为三种策略:早期融合、晚期融合和中间融合。如下图所示,早期融合在输入层就将原始模态进行合并。大部分引入静态文本的模型 [4] 都可以被归为此类;晚期融合则是在各模态分别输出之后再进行合并。这种方式灵活轻便,不受限于具体的模型,例如MM-TSFlib [0] 库;中间融合是在每种模态的表示层进行合并,提供更细粒度地融合,例如TaTS [13]。
相比于文本,目前较少研究关注将时间序列与其他模态进行结合。ImageBind [14] 提出使用视觉作为桥接模态的方式,将任意模态(包括通过惯性测量单元(IMU)数据表示的时间序列、视频、音频、图像和文本)进行融合,从而实现可复用的模态融合能力模型。此外,在医疗,金融和时间序列数据存在其他模态的融合。
请进一步查看综述原文了解多模态扩展(包括表格,图片等)在金融,医疗以及时空数据分析的具体应用。
与文本和图像等人类可读模态相比,时间序列模态缺乏天然的可解释性。通过时间序列与人类可读模态之间的跨模态交互,现有的 Time2X 和 X2Time 研究正在重塑时间序列分析(TSA)范式,使其更易于人类使用和理解。本文将按照相同顺序介绍现有研究:先介绍通用的TSA方法,再介绍特定领域的TSA方法,优先介绍与文本模态结合的研究,然后介绍与其他模态结合的研究。
这类研究关注于多模态多任务的时间序列模型,特别是同时处理文本+时间的输入和输出,其代表性的场景是通用的时间序列问答(QA)任务。例如,Time-MQA [22],旨在统一多种任务(包括预测、补全、异常检测、分类和开放式推理),以自然语言问答框架支持全面的时间序列分析。
DataNarrative [23] 将可视化元素(如图表中的高亮柱状图和折线)与文本结合,用于从时间序列数据中自动生成数据故事。
请进一步查看综述原文了解多模态交互在金融,医疗以及时空数据分析的具体应用。
对应于TimeAsX, Time+X, Time2X & X2Time 三种受益途径,本文指出了现有研究的空白并讨论了潜在的解决方案:
现有TimeAsX研究已在多个模态的基础模型复用方面进行了大量探索,包括将时间序列重构为文本(有训练或无训练)、图像(折线图、热力图、频谱图)、音频和表格。一个显著的研究空白在于:如何为特定的时间序列分析场景选择最合适的模态复用策略,即针对不同任务、数据集和目标选择最佳路径。本文提出以下潜在的未来研究方向:
对于Time+X的不同任务与数据集,模态组合存在显著异质性:(1) 在通用时间序列分析任务中,常见的组合只有 Time + Text;(2)不同领域中,模态组合各异。例如在医疗领域,Time + Tabular 较为常见,而其他领域则较少;(3)同一领域中,不同数据集的模态组合也不同。例如 MIMIC 数据集包含 Time + Text + Image + Tabular,而 PTXL 数据集仅包含 Time + Text ;(4)同一数据集中,在样本层面也存在模态缺失问题。
应对这些异质模态组合对于实际应用至关重要。本文提出以下未来方向:
当前的TimeAsX研究已引入多个新型 TSA 任务,例如跨模态检索、生成、以及通用问答。这些工作通过引入人类可读模态(特别是语言)作为查询或输出,显著提升了 TSA 的可用性与可解释性。但语言等模态的引入也带来了新的挑战:训练或预训练阶段难以覆盖所有跨模态任务,例如尚未充分探索的基于文本引导的时间序列编辑任务,以及用户自然语言表达的多样性。
为弥补这一差距,本文期待未来时间序列研究能引入更强的推理能力,以支持未见任务。与记忆式方法相比,推理方法已被广泛证明具有更强的泛化能力。目前对时间序列推理的研究仍处于早期阶段,本文总结了几种已有的探索经验:
本文提出了首个关于新兴领域 MM4TSA(多模态赋能时间序列分析)的综述,旨在系统性地回答一个核心问题:“时间序列分析如何从多模态中受益?”在本综述中,我们系统地总结了三类具有代表性的受益路径:
(1)TimeAsX:通过复用其他模态的基础模型以实现高效的TSA;
(2)Time+X:通过集成多模态信息扩展传统时间序列分析;
(3)Time2X 与 X2Time:通过跨模态交互实现更高阶的TSA能力。
针对每一类路径,本文根据模态类型对现有工作进行分类,介绍了典型的领域应用,并深入讨论了当前存在的核心研究空白及未来的潜在解决方案。
本综述揭示了当前研究逐渐从孤立的时间序列建模走向多模态融合的趋势,期望能够激发更多关于 MM4TSA 领域的创新研究。
[0] Time-MMD: Multi-Domain Multimodal Dataset for Time Series Analysis. NeurIPS 2024
[1] Large language models are zero-shot time series forecasters. NeurIPS 2023.
[2] Lstprompt: Large language models as zero-shot time series forecasters by long-short-term prompting. ACL 2024 Findings.
[3] One fits all: Power general time series analysis by pretrained lm. NeurIPS 2023
[4] Time-LLM: Time Series Forecasting by Reprogramming Large Language Models. ICLR 2024
[5] Context-Alignment: Activating and Enhancing LLM Capabilities in Time Series. ICLR 2025
[6] Chronos: Learning the language of time series. TMLR
[7] ViTime: A Visual Intelligence-Based Foundation Model for Time Series Forecasting. arXiv 24.07
[8] VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters. arXiv 24.08
[9] Training-Free Time-Series Anomaly Detection: Leveraging Image Foundation Models. arXiv 24.08
[10] Voice2Series: Reprogramming Acoustic Models for Time Series Classification. arXiv 21.06
[11] The Tabular Foundation Model TabPFN Outperforms Specialized Time Series Forecasting Models Based on Simple Features. NeurIPS 2024 Third Table Representation Learning Workshop
[12] ChatTime: A Unified Multimodal Time Series Foundation Model Bridging Numerical and Textual Data. AAAI 2025
[13] Language in the Flow of Time: Time-Series-Paired Texts Weaved into a Unified Temporal Narrative. arXiv 25.02
[14] Imagebind: One embedding space to bind them all. CVPR 2023
[15] Evaluating Large Language Models on Time Series Feature Understanding: A Comprehensive Taxonomy and Benchmark. EMNLP 2024.
[16] CLaSP: Learning Concepts for Time-Series Signals from Natural Language Supervision. arXiv 24.11
[17] Language models still struggle to zero-shot reason about time series. EMNLP 2024 Findings
[18] Neural data-driven captioning of time-series line charts. AVI 2020
[19] Insight miner: A time series analysis dataset for cross-domain alignment with natural language. NeurIPS 2023 AI for Science Workshop
[20] Explainable Multi-modal Time Series Prediction with LLM-in-the-Loop. arXiv 25.03
[21] Xforecast: Evaluating natural language explanations for time series forecasting. arXiv 24.10
[22] Time-MQA: Time Series Multi-Task Question Answering with Context Enhancement. arXiv 25.03
[23] DataNarrative: Automated Data-Driven Storytelling with Visualizations and Texts. EMNLP 2024
[24] A picture is worth a thousand numbers: Enabling llms reason about time series via visualization. NAACL 2025
[25] Beyond Forecasting: Compositional Time Series Reasoning for End-to-End Task Execution. arXiv 24.10
[26] Evaluating System 1 vs. 2 Reasoning Approaches for Zero-Shot Time-Series Forecasting: A Benchmark and Insights. arXiv 25.03
[27] ChatTS: Aligning Time Series with LLMs via Synthetic Data for Enhanced Understanding and Reasoning. arXiv 24.1