ARIMA模型
ARIMA模型最重要的地方在于时序数据的平稳性。平稳性是要求经由样本时间序列得到的拟合曲线在未来的短时间内能够顺着现有的形态惯性地延续下去,即数据的均值、方差理论上不应有过大的变化。平稳性可以分为严平稳与弱平稳两类。严平稳指的是数据的分布不随着时间的改变而改变;而弱平稳指的是数据的期望与向关系数(即依赖性)不发生改变。在实际应用的过程中,严平稳过于理想化与理论化,绝大多数的情况应该属于弱平稳。对于不平稳的数据,我们应当对数据进行平文化处理。最常用的手段便是差分法,计算时间序列中t时刻与t-1时刻的差值,从而得到一个新的、更平稳的时间序列。
1. ARIMA的优缺点 优点: 模型十分简单,只需要内生变量而不需要借助其他外生变量。 缺点: 1.要求时序数据是稳定的(stationary),或者是通过差分化(differencing)后是稳定的。 2.本质上只能捕捉线性关系,而不能捕捉非线性关系。 注意,采用ARIMA模型预测时序数据,必须是稳定的,如果不稳定的数据,是无法捕捉到规律的。比如股票数据用ARIMA无法预测的原因就是股票数据是非稳定的,常常受政策和新闻的影响而波动。 2. 判断是时序数据是稳定的方法。 严谨的定义: 一个时间序列的随机变量是稳定的,当且仅当它的所有统计特征都是独立于时间的(是关于时间的常量)。 判断的方法: 稳定的数据是没有趋势(trend),没有周期性(seasonality)的; 即它的均值,在时间轴上拥有常量的振幅,并且它的方差,在时间轴上是趋于同一个稳定的值的。 可以使用Dickey-Fuller Test进行假设检验。(另起文章介绍) 3. ARIMA的参数与数学形式 ARIMA模型有三个参数:p,d,q。 p--代表预测模型中采用的时序数据本身的滞后数(lags) ,也叫做AR/Auto-Regressive项 d--代表时序数据需要进行几阶差分化,才是稳定的,也叫Integrated项。 q--代表预测模型中采用的预测误差的滞后数(lags),也叫做MA/Moving Average项
差分:时间序列变量的本期值与其滞后值相减的运算称为差分。例如:一阶差分:
Δxt=xt−xt−1 ∆xt=xt−xt−1
其中,∆称为一阶差分算子。 二次一阶差分表示为:
Δ2xt=Δxt−Δxt−1 ∆2xt=∆xt−∆xt−1
由此可以引申出d次一阶差分的表示。 下面,由以上几个概念,解释一下ARIMA的概念:“假设一个随机过程含有d个单位根,其经过d次差分后可以变换为一个平稳的自回归移动平均过程,则该随机过程称为单积(整)自回归移动平均过程。”
首先:(1)经过d次差分后,判断该随机过程是否平稳;(2) 找到合适的d之后,xtxt转化为平稳的随机过程Δdxt∆dxt ;(3)Δdxt∆dxt构建为自回归移动平均过程,ARMA(p,q),即完成了将随机过程xtxt表示为ARIMA的流程,构建好的ARIMA过程记做ARIMA(p,d,q)ARIMA(p,d,q)。p,d,q分别代表自回归阶数、差分次数、移动平均阶数。
ARIMA模型的构建在于:寻找差分次数d;估计ARMA模型参数。差分次数d不宜过大,否则波动过大。ARMA模型的参数值通过极大似然估计估计参数值。