本文所使用的数据集是来自1949年1月至1960年12月的每月国际航空旅客(千人)数据,对数据做简单的可视化如下图:
可以看到图表上的全球上升趋势。每年都有类似的周期开始,而一年之内的可变性似乎会随着时间而增加。为了确认这种趋势,我们将分析该序列的自相关函数。
在Excel其实有非常简单快速的工具实现这些研究,具体的步骤将会分享在个人知识星球内,下面对分析的结果做简要的说明:
下表是分析的摘要统计信息。包括正常测试和白噪声测试。其中哈尔克测试是正态性检验,基于偏斜度和峰度系数。卡方统计量的值越高,数据正态分布的原假设越不可能发生。此处的p值接近0.012,它对应于在拒绝原假设时出错的可能性。在显着性水平为alpha = 0.05的情况下,应该拒绝原假设。
其他三个测试(Box-Pierce,Ljung-Box,McLeod-Li)是在不同的时滞下计算的。他们允许测试数据是否可以假定为白噪声。这些测试也基于卡方分布。他们都同意不能假定数据是由白噪声过程产生的。尽管数据的排序Jarque-Bere测试没有影响,但对其他三个特别适合于时间序列分析的测试也有影响。
下面两个条形图显示自相关函数(ACF)和部分自相关函数(PACF)的演变,还显示95%的置信区间。通过查看自相关图,可以确定明显的滞后1自相关,以及似乎为12个月的季节性。
为了提高数据的正态性,要执行两个转换:首先,要稳定该系列不断增加的可变性。其次,通过对序列进行差分来消除自相关,下面对这部分结果做简单的说明:
下面两个图表:一个用于原始数据集,另一个用于Box-Cox转换,可以看到对数转换已消除了不断增加的可变性。
然后,为了消除趋势和季节成分,决定使用差分方法,结果图表明,差分转换有效地消除了趋势:
接下来再次应用描述性分析来检查微分级数是否为白噪声,经过Jarque-Bera测试确认该系列更接近正常样本(从0.012降至0.027),但仍保持稳定,白噪声测试被证实。
转换效率不够高。实际上,自相关图表明在滞后1和滞后12处仍有一些重要成分。需要进一步研究以了解潜在现象。
探索时间序列的另一种方法是,使用“季节性分解”, 每月数据的周期设置为12年,为期1年,计算后,分解将通过4个图显示:原始序列,趋势成分,季节成分和随机成分。可以将最后3个序列彼此相乘,以重建原始序列。
现在可以测试随机组件的平稳性。可以先使用Box-Cox转换(对数转换)再次转换此Random分量,使其以0为中心。
这次Jarque-Bera检验不允许拒绝正态分布变量的假设:
可以看到,在自相关图中仍然可以看到比以前不那么重要的季节性模式。这就再次要求在生成过程中做进一步的工作。