论文标题:ShapeFormer: Shapelet Transformer for Multivariate Time Series Classification
论文链接:https://arxiv.org/abs/2405.14608
代码链接:https://github.com/xuanmay2701/shapeformer.
本文面向的任务是多元时间序列分类任务,提出Shapelet Transformer(ShapeFormer),提取通用特征和代表性类别特定特征(shapelets)。
一、什么是序列的shapelets?
这里有一个重要概念: shapelets。在多元时间序列分类(MTSC)中,"Shapelet"是每个类别的判别性子序列,换句话说就是那些含有特定类别信息的时间序列子序列。很明显,Shapelet与其类别的时间序列之间的距离远小于与其他类别时间序列的距离(见图1),这种覆盖能力使它们能有效代表时间序列。
二、如何识别shapelets?
Shapelet的发现是时间序列分类中的一个关键步骤,作者设计了Shapelet Filter用于学习Shapelets与输入时间序列之间的差异特征,这些差异特征包含了重要的类别特定信息。此外,模型还动态优化Shapelets,以便在训练过程中更有效地表示区分类别的信息。本文方法不仅利用了类别特定特征,还结合了通用特征,从而提高了时间序列分类的性能。
三、ShapeFormer结果如何?
在多个UEA MTSC数据集上的实验结果表明,shapeformer在分类准确性方面取得了最高的排名,证明了其在处理不平衡数据集或具有类似整体模式但在类别特定细节上有所不同的数据集方面的有效性。
存在的问题:现有的模型使用的多是时间序列的通用特征,但忽略了每个序列的判别性特征。在处理整体模式相似,但次要特定细节存在差异,以及不平衡数时表现不佳。如上图所示,为了解决前述挑战,作者提出了Shapelet Transformer(ShapeFormer),一种包含类别特定和通用Transformer模块的新颖方法,用于捕获两类关键特征。
一、Shapelet Discovery
采用离线Shapelet发现技术,从多元时间序列中提取了少量高质量的Shapelets。包括两个阶段:首先,通过计算重构距离并选择最远的点来迭代地构建PIPs集合,进而提取Shapelet候选;其次,从每个类别中选出信息增益最高的Shapelets,以形成最终的Shapelet池。与传统方法相比,OSD方法减少了候选的数量,提高了计算效率,并且能够更准确地捕捉时间序列数据中的类别特定特征。
二、Class-Specific Transformer
这一部分要点是Shapelet Filter,通过选择与输入时间序列最匹配的子序列来利用Shapelets的类别特定特征。为了提高效率,搜索这些最佳匹配子序列的过程被限制在Shapelet位置附近的一个窗口内。计算差异特征时,Shapelets被视为可学习的参数,允许在训练过程中进行优化,从而增强模型对时间序列数据分类的能力。
这一部分做完了,下面通用模块就容易理解了,利用卷积滤波器提取适用于所有类别的特征。每个模块都通过Transformer编码器来识别特征间的相互依赖性。这种整合方法(通用特征和类别特定特征)使ShapeFormer能够有效地捕获时间序列数据中的类别特定和通用特征,从而提高分类任务的性能。
总体而言,ShapeFormer通过结合类别特定和通用特征的捕获,为多元时间序列分类问题提供了一种全面处理策略。作者的实验在多个UEA MTSC数据集上验证了ShapeFormer相较于现有技术的优越性,相关代码已在GitHub上公开。