前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数理统计之数据预测:浅谈ARIMA模型

数理统计之数据预测:浅谈ARIMA模型

作者头像
glm233
发布2020-09-28 10:30:44
5.4K0
发布2020-09-28 10:30:44
举报
文章被收录于专栏:glm的全栈学习之路

ARIMA模型

ARIMA模型最重要的地方在于时序数据的平稳性。平稳性是要求经由样本时间序列得到的拟合曲线在未来的短时间内能够顺着现有的形态惯性地延续下去,即数据的均值、方差理论上不应有过大的变化。平稳性可以分为严平稳与弱平稳两类。严平稳指的是数据的分布不随着时间的改变而改变;而弱平稳指的是数据的期望与向关系数(即依赖性)不发生改变。在实际应用的过程中,严平稳过于理想化与理论化,绝大多数的情况应该属于弱平稳。对于不平稳的数据,我们应当对数据进行平文化处理。最常用的手段便是差分法,计算时间序列中t时刻与t-1时刻的差值,从而得到一个新的、更平稳的时间序列。

1. ARIMA的优缺点 优点: 模型十分简单,只需要内生变量而不需要借助其他外生变量。 缺点: 1.要求时序数据是稳定的(stationary),或者是通过差分化(differencing)后是稳定的。 2.本质上只能捕捉线性关系,而不能捕捉非线性关系。 注意,采用ARIMA模型预测时序数据,必须是稳定的,如果不稳定的数据,是无法捕捉到规律的。比如股票数据用ARIMA无法预测的原因就是股票数据是非稳定的,常常受政策和新闻的影响而波动。 2. 判断是时序数据是稳定的方法。 严谨的定义: 一个时间序列的随机变量是稳定的,当且仅当它的所有统计特征都是独立于时间的(是关于时间的常量)。 判断的方法: 稳定的数据是没有趋势(trend),没有周期性(seasonality)的; 即它的均值,在时间轴上拥有常量的振幅,并且它的方差,在时间轴上是趋于同一个稳定的值的。 可以使用Dickey-Fuller Test进行假设检验。(另起文章介绍) 3. ARIMA的参数与数学形式 ARIMA模型有三个参数:p,d,q。 p--代表预测模型中采用的时序数据本身的滞后数(lags) ,也叫做AR/Auto-Regressive项 d--代表时序数据需要进行几阶差分化,才是稳定的,也叫Integrated项。 q--代表预测模型中采用的预测误差的滞后数(lags),也叫做MA/Moving Average项

差分:时间序列变量的本期值与其滞后值相减的运算称为差分。例如:一阶差分:

Δxt=xt−xt−1 ∆xt=xt−xt−1

其中,∆称为一阶差分算子。 二次一阶差分表示为:

Δ2xt=Δxt−Δxt−1 ∆2xt=∆xt−∆xt−1

由此可以引申出d次一阶差分的表示。 下面,由以上几个概念,解释一下ARIMA的概念:“假设一个随机过程含有d个单位根,其经过d次差分后可以变换为一个平稳的自回归移动平均过程,则该随机过程称为单积(整)自回归移动平均过程。”

首先:(1)经过d次差分后,判断该随机过程是否平稳;(2) 找到合适的d之后,xtxt转化为平稳的随机过程Δdxt∆dxt ;(3)Δdxt∆dxt构建为自回归移动平均过程,ARMA(p,q),即完成了将随机过程xtxt表示为ARIMA的流程,构建好的ARIMA过程记做ARIMA(p,d,q)ARIMA(p,d,q)。p,d,q分别代表自回归阶数、差分次数、移动平均阶数。

ARIMA模型的构建在于:寻找差分次数d;估计ARMA模型参数。差分次数d不宜过大,否则波动过大。ARMA模型的参数值通过极大似然估计估计参数值。

ARIMA建模流程

  1. 将序列平稳(差分法确定d)
  2. p和q阶数确定:ACF与PACF
  3. ARIMA(p,d,q)
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019/06/28 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • ARIMA建模流程
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档