特征提取在提高分类的准确性中起着非常关键的作用. 对时序特征提取的方法进行归纳分类, 将有利于对特征提取整体性, 全面性的认识. 回顾现有的时间序列中特征提取的方法, 将其总结为四大类, 它们分别是基于基本统计方法的特征提取、基于模型的特征提取、基于变换的特征提取、基于分形维数的特征提取。
时间序列的特征表示需要保证以下几点要求: 1.保留原数据的整体和局部的重要特征。 2.有效对原始数据降维。 3.转换后的数据能够进行相似性度量。 4.能有效的处理噪声数据。 目前主要的时间序列表示方法包括PAA(分段聚合近似),PLR(分段线性表示),SAX(符号化聚合近似),基于模型的表示方法,以及基于变换的表示方法等。
PAA的方式是通过将时间序列平均划分为多个分段,然后每个分段用其对应的均值来表示。假设原时间序列的长度为L,划分后的子序列数量为M,那么每个分段的序列长度S=L/M。S称为PAA的压缩比。显然S越小,则原始数据被划分的更为精细,就表示保留下来的信息更多,也说明了降维的程度更小;反之则会导致聚合后的序列丢失的信息更多,但是降维的效果也就更明显。
PAA需要人为的调试压缩比。由于PAA仅保留了分段的均值特征,导致数据其他重要特征,如上下界,方差,拐点等被丢失,从而使得两个趋势完全不同的分段序列被转换成相同的序列。典型就是正弦波,余弦波和全0序列在一个周期内就会被表示成相同的序列。
PLR是时间序列的研宄中被大量应用的一种时间序列表示方法,它根据线性模型对时间序列进行划分,常用的划分方法可以以下分为三类:1.滑动窗口2.自顶而下3.自底而上。滑动窗口的分段思想是通过将窗口中序列用直线拟合,然后计算拟合的误差。当误差大于人工设定的阈值时,就扩大窗口的范围,增加窗口内的数据量。当误差增加到超过阈值时就关闭窗口,将该窗口内的序列作为一个分段,然后开启一个新的窗口重复上述步骤。自顶而下的思想类似递归的方法,首先选择一个最佳分割点将原序列分为两段,然后对两段分别进行线性拟合并计算拟合误差。当误差超过阈值时,就对该子序列递归使用前述方法,直到每个子序列的拟合误差都在阈值之内。而自底而上的方法则是先将序列中每2个数据点单独作为一个分段,继而将每个分段与相邻的分段进行合并,然后对每个合并后的分段计算拟合误差后选择最优的保留,当任意相邻的两个分段的拟合误差都大于阈值时算法停止。
SAX的思想是通过把时间序列中的数据点或数据段转换成人为约束下符号,然后通过符号序列来表示原序列。而这种由符号组成的序列可以看做是一个字符串,这就使得关于字符串的很多成熟高效的算法可以用于后续的相似性度量和特征提取中。特别地,针对实际生活难以量化的时间序列,符号化的表示方法就能发挥很好的作用。
欧式距离只是用于等长序列之间的距离度量。但在实际应用中,很多时间序列是不等长的,这就需要将欧式距离结合其他时间序列的表示方法和对数据的预处理后进行相似性的度量。例如,将时间序列通过降维变换后转换为等长的序列,然后用欧式距离进行度量;也可以采用滑动窗口,用较短的序列在较长的序列上滑动,然后选取欧式距离最小的值作为两条时间序列间的相似性距离。此外,欧式距离对于数据中的噪声和异常点十分敏感,所以在使用欧式距离时,对数据的去噪,归一化以及标准化等操作是必要的。
动态时间弯曲是通过延伸或缩短时间轴,使得时间序列中的数据点能够更优地进行映射匹配的相似性度量算法。本质上来说DTW是通过动态规划的思想求最优路径的问题。相比于欧氏距离,DTW最大的优势在于它可以度量不等长的序列之间的相似性距离。
DTW有以下几点优势: 1.不等长的时间序列的相似性度量,DTW均可适用。而欧式距离只适用于等长的时间 序列。 2.DTW对于噪声或者突变数据点不敏感,而欧式距离反之。 3.DTW可以度量时间轴上又偏移的时间序列,而欧式距离只适用于度量无偏移的数据。
对于不同表示形式的时间序列,其相似性度量的方法也随之不同。采用符号形式将时间序列转化为字符序列的的特征表示方法,度量其相似性时,也由度量其原有数据的之间距离转变为度量符号之间的距离。目前比较普遍的,也是比较有代表性的符号化距离度量方法是基于欧式距离的。首先是要将时间序列按照正态分布标准化处理,然后采用SAX方法将时间序列转变为符号串序列,转换后的符号序列之间的距离是根据等概率划分的正态分布表计算的。
与传统的距离度量方法不同的是,基于模型的距离度量方法是考虑了时间序列的自身特性,然后构建模型,通过模型来计算原时间序列转变为目标时间序列的似然值,并以此来衡量时间序列之间的相似性。
基于基本统计量的特征提取方法是最直接的特征提取方法。它是通过提取时间序列数据在统计学上的特征构成特征向量来指导后续的分类。对于时间序列的统计特征来说常常分为两类:时间域和频率域。时域上的特征又可以分为有量纲的特征和无量纲特征,有量纲特征如均值,方差,均方根,峰值等,无量纲特征有脉冲因子,峰值因数,波形因子等;而频率上的特征包括均方频率,均方根频率,频率方差,频率标准差等。
基于构建模型的特征提取方法,是通过对时间序列数据构建特定的模型,将对时间序列的特征提取转化为对模型中因子的提取。基于构建模型的特征提取方法首先需要分析数据的特点,然后根据不同数据的特点有针对的构建相应的模型。对于相对稳定的序列,如可以通过ARMA模型(自回归的搰动平均模型)去提取特征,而对于不稳定的序列,则需要先对数据进行差分处理,将其转化成稳定的序列。
基于变换方式的特征提取,是通过把时间序列数据在不同域中进行映射变换,使得特征在某一个维度能够凸显出来。常见的域变换就是时域和频域上的变换,典型的包括傅里叶变换和小波变换。这种变化针对不同的应用场景,又有了不同的应用形式,如DFT(离散傅里叶变换),FFT(快速傅里叶变换),STFT(短时傅里叶变换),DWT(离散小波变换)等。还有一些基于线性变换的方法,包括PCA(主成分分析),K-L变换等。
分形的对象的特点包括不规则的,有自相似的结构,符合递归生成的原则。分形现象广泛的存在于自然界中,例如海岸线,山脉的轮廓,河流的流向,岩石、闪电的形状等等。随着分形理论的发展,近年来开始应用于时间序列的特征提取。分形理论进行特征提取时, 并不是所有信号都适合. 要看信号在某个尺度下是否具有可分形特征, 即不同状态下的分形维数是不同的, 这样才具有可分性。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/203554.html原文链接:https://javaforall.cn