前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >基于ARIMA模型的CCFI指数波动预测及分析

基于ARIMA模型的CCFI指数波动预测及分析

作者头像
用户1621951
发布于 2022-03-28 07:12:47
发布于 2022-03-28 07:12:47
1.5K0
举报
文章被收录于专栏:数据魔术师数据魔术师

01 引言

近年来,随着航运业在全球经济市场中的参与度越来越高,海运价格的变化对世界各国之间的贸易会产生一定的影响,因此掌握航运的相关运价指数波动变化,可以为企业在贸易经营活动中做出最有利的判断提供依据。

CCFI 指数

中国出口集装箱运价指数,简称CCFI,是指反映中国出口集装箱运输市场价格变化趋势的一种航运价格指数。

该指数由上海航运交易所编制发布,1998年4月13日首次发布,包括综合运价指数及香港、韩国、日本、东南亚、欧洲、南非等11条分航线指数。经过二十几年的不断地发展,已经成为继波交所发布的波罗的海干散货运价指数之后的世界第二大运价指数

CCFI 指数客观反映了集装箱市场状况,成为世界了解中国航运市场的重要指标,为各大航贸企业日常经营决策提供有力依据。因此分析其影响因素以及预测它的未来波动情况具有重要意义。

下面将对CCFI从序列分析、ARIMA模型预测、相关性分析等方面展开分析,以便帮助集装箱出口方对相关的指数变动做出及时应对。

02 序列分析

2.1 基本统计学特征分析

数据样本:将国家统计局发布的全部CCFI指数数据中2013年7月1日至2022年1月1日的月度数据作为样本,约103个基本数据。

数据样本的相关统计学基本特征数据如表1。通过分析表1,我们不难发现在这段时间区间内,最小指数为644.2,最大指数为3510.8,均值为1111.5,较小、较大四分位数分别为801.5和1069.4。由此,我们可以得出在2013年7月到2022年1月这段时间内,CCFI指数主要在801.5到1069.4这个区间内波动

表1 基本统计学特征

这段时间CCFI指数的具体变化由图1所示,显然在2020年之前CCFI的波动特征与我们通过基本统计学特征的分析相似,但是在2020年后半年之后出现了陡增,这也是导致这批数据的较大四分位数甚至一定程度的小于平均值的主要原因。

图1 重要事件在历史数据中的反映

2.2 平稳性分析

在建立ARIMA模型前,我们需要对这批数据进行平稳性检验。

ADF 检验

在使用很多时间序列模型的时候,如 ARMA或ARIMA都会要求时间序列是平稳的,所以一般在研究一段时间序列的时候,第一步都需要进行平稳性检验。

ADF检验就是判断序列是否存在单位根:如果序列平稳,就不存在单位根;否则,就会存在单位根。所以,ADF检验的H0假设就是存在单位根,如果得到的显著性检验统计量小于三个置信度(10%,5%,1%),则对应有(90%,95,99%)的把握来拒绝原假设,即数据集为平稳序列。

利用ADF检验法,我们发现ADF值分别大于三种不同检验水平的三个临界值,同时p值远大于0.05,则不能驳回原假设,即CCFI综合指数(月)是非平稳序列,因此,我们需要对数据进行差分处理,使其符合平稳序列的特征。

表2 原始数据ADF检验结果

2.3 对数收益率分析

根据公式

我们可以得到如图2所示的对数收益率变化图。

图2 CCFI对数收益率走势图

相对于普通收益率,对数收益率按照数学逻辑推导,在价格序列变动性很小的情况下,这两个收益率的结果是近似相等的,根据极限定理,当无穷小,两者基本无差别。此外,对于使用对数处理一方面使得数据更加平滑,克服数据本身的异方差;同时对数处理能够达到价格上涨下降的对称性,即数据的对称性,因此此处我们选择用“ln”处理收益率,以得到更加明显的结果。

通过观察发现,在2020-2021年度之前的收益率波动幅度集中在[-0.10,0.10]区间内,呈现出波动聚集性;而在2020后半年之后发生了突变,波峰超过了0.25,收益率陡增。

03 ARIMA模型预测

3.1 数据预处理

时间序列是指按照时间先后顺序排列的随机序列,它的每一个样本序列,是指按时间先后顺序对随机序列所反映的具体随机现象或系统进行观测或试验所得到的一串动态数据。而CCFI综合指数作为航运市场的重要指标,显然具有使用时间序列分析的特征,因此我们选用ARIMA模型对CCFI综合指数进行分析预测

观察图1,我们并不能明显的分析出CCFI指数与时间序列相关的趋势性变化或者季节性的周期性变化。但是观察图2分析对数收益率,我们便能较为明显的发现CCFI指数与时间序列之间的变化有着一定的周期性和趋势性。因此,我们希望对样本数据的非平稳序列进行平稳化的处理使其能够按照正常的ARMA模型的方式进行分析。

通常情况下,我们首先进行一阶差分处理,处理后的结果较之前效果有明显提升,但我们仍然不能断定其为平稳序列,于是我们继续对其进行二阶差分,得到的序列我们能够相信是平稳序列,具体的ADF检验结果如表3。

表3 差分后的ADF检验结果

显然,一阶差分后ADF值仍然大于三个不同检验水平的临界值,且p值仍然大于0.05,因此二阶差分是有必要的。而二阶差分后,明显发现ADF值均小于三个临界值且p值远小于0.05,于是我们能够利用二阶差分后的结果进行下一步的计算处理

白噪声检验

白噪声过程是指期望和方差均为常数的纯随机过程,在统计学意义上来说,如果得到白噪声序列,就说明时间序列中有用的信息已经被提取完毕,剩下的全是随机扰动,是无法预测和使用的;序列如果通过了白噪声检验,则建模可以终止,因为没有信息可以继续提取。

因此我们希望通过白噪声检验初步证明二阶差分数据的可用性。

我们的原假设为延迟期数小于或等于2期的序列值之间相互独立,备择假设为延迟期数小于或等于2期的序列值之间有相关性。经计算得到p值为7.765193e-07,远小于0.05,故可以拒绝原假设,得出判断延迟期数小于或等于2期的二阶差分序列值之间有相关性。

3.2 模型参数确定

在数据预处理的过程中我们已经确定了差分的阶数d为2,现在需要利用自相关系数和偏相关系数对模型中的p、q值进行确定。

图3 自相关系数和偏相关系数的p-p图

利用模型定阶的AIC准则,我们可以快速得到模型的参数p和q。

AIC准则定义为:

再利用下述公式:

我们可以通过在python的stats models库中调用ARIMA模型的相关函数更为便捷地得到p=47,q=0.于是我们的模型为ARIMA(47,2,0).

3.3 预测结果

考虑到预测方法的准确性,我们只对接下来一年即12个月的CCFI综合指数进行了预测。结果如图4。

图4 未来12个月的预测

其中实线部分为样本数据,虚线部分为预测数据。虽然预测不能准确到具体的数字,但是不难发现,接下来的一年内CCFI综合指数将持续走高,并在升高的过程中会有两次较小的持稳过程。

04 影响因素分析

通过对CCFI指数的波动和变化分析来看,影响因素来自于各个方面。

从航运本身的运输角度来看,就有原油价格和路线长短影响;从运输的货物来看,与国家的消费水平挂钩;从费用结算的角度来看,与结算币种间的汇率有关。由于原油价格指数的变动频率较高且采用日结算的方式交易,选取月中的某一天作为代表毫无意义,因此本文仅选取了人民币对美元的真实有效汇率(REER)和居民消费价格指数(CPI)作为相关因素进行定量分析。

4.1 突发国际性事件和航线的影响

观察图1的数据标签,有四个点分别标注了对CCFI综合指数有较大影响的国际事件。

01

2015年8月

国家对航运市场的收费进行改革

显然,在国家对航运市场的相关收费进行改革后,航运价格在相当一段时间内保持着下降的趋势。

02

2019年12月

爆发新冠肺炎疫情

新冠疫情的爆发,相当于航运市场价格的分水岭,其对各个行业产生的冲击导致了CCFI综合指数的持续走高且成倍增长,影响最为严重。

03

2021年3月

苏伊士运河货轮搁浅

苏伊士运河货轮搁浅事件的发生堵塞了这个连接地中海与印度洋的货运大动脉,尽管才堵塞了六天,但仍然对航运产业造成了巨大损失。

04

2021年6月

深圳盐田港停摆

盐田港停摆也是新冠疫情造成的后果,这次事件使得这个全国集装箱吞吐量最大的单一港区在接下来的近一个月内陷入沉寂,其造成的供给减少使得运价走高的趋势仍然不减。

航线方面,距离越远的航线其运价指数也相应越高。图5中给出了五条相对具有代表性的航线的CCFI指数走势,可以看到欧洲航线的CCFI指数目前已经攀升至6000左右,而日本、西非和美西航线的CCFI指数则远低于他们。

图5 不同航线的CCFI指数

4.2 REER和CPI的影响

考虑到新冠肺炎疫情的爆发对于多行业的冲击累积效应,使得航运市场的运价迟迟不能下降,因此我们以新冠疫情爆发的时间点,即以2019年12月为分界线,对这之前、之后和全期的数据分别进行了分析。

通过分别计算不同时间阶段的REER与CPI和CCFI指数之间的相关系数,我们得到如表4所示的结果。

表4 REER与CPI在不同时间段内对CCFI的相关系数

不难发现,在疫情发生之前的较长时间内,REER指数与CPI指数跟CCFI综合指数的相关性均不高,尤其CPI的相关性几乎可以忽略不计。但是在发生疫情后,REER与CCFI综合指数的相关系数迅速提高至0.84,这让我们有理由认为REER指数的变动在疫情发生后一定程度上影响着CCFI指数的变化;同时,CPI指数与CCFI综合指数的相关性也有一定提高,尽管相关系数仍然不能完全确认二者的协同变化情况,但是相比疫情爆发之前的数据,显然对CCFI指数的影响有不小的提升。

综合疫情发生前后的数据,我们得到了全期的相关系数。虽然由于疫情带来的累积效应正在使REER与CPI对CCFI的影响加大,但是并不能让我们确定在未来疫情以及其带来的有关效应彻底消失之后,前两者仍然能够对CCFI指数产生足够的影响力。

我们对数据进行基本分析后,通过在python中使用scikit-learn中的多元线性回归模型来对REER指数和CPI指数对于CCFI综合指数之间的关系进行分析。

我们选取数据集中的75%作为训练集,25%作为测试集,来对相关数据进行线性拟合,结果如图6所示,分别代表着疫情爆发前、爆发后以及全期的拟合图线与测试集数据的对比。显然,第二幅图中,即疫情发生后的数据我们能够对其进行较好的拟合,得到相对较小的均方根误差;然而疫情爆发前和全期的图线并没有呈现出理想的拟合效果,只是单纯地显示出与训练集相同的变化趋势或只在部分波峰处出现了较好的拟合效果,在具体数值方面的准确性并不高。

因此在此处,我们只给出疫情发生后的拟合曲线的相关参数:REER的系数为303.446645,CPI的系数为-84.314404,截距为-28018.599714。

图6 多元回归的拟合

05 结论

通过以上的分析和预测,我们可以给出相关结论,同时针对航运价格在未来的变动给出相关建议。

5.1 预测结果与误差分析

根据差分自回归滑动平均模型对于CCFI综合指数的适应,我们预测出在未来的一年内CCFI指数仍然会呈现上涨的趋势,并且在12个月后达到4855.54的水平。与进行影响因素的分析时类似,我们也可以对整个图线从疫情爆发的时候切为两端,分别进行定量分析。

在建模过程中,我们选择对全部数据进行二阶差分处理以让我们能够确定所得结果为平稳序列。当然我们也可以只对疫情爆发前的数据进行处理,但显然这种方法得到的预测结果如果与疫情爆发后的真实数据进行比较,会有较大残差和方差,这与我们建立模型预测的目的不符。而如果只选取疫情爆发后的数据作为样本数据进行分析,较小的样本量则会影响预测的精度,且预测结果的涨幅可能也会随着时间延长而逐渐增大,这又是不符合实际情况的。因此,最恰当的方法仍然是选取较长一段时间且包含疫情发生后的数据进行分析,才能得到比较有效的预测。

5.2 未来建议

针对不断升高的航运价格,对于生产型企业来说,挑选报价相对合适的承运商变得愈发困难。从目前情况来看,CCFI综合指数将不会下降。相较于欧美航线,目的地为日本和非洲的集装箱运价目前尚低,受到疫情冲击影响较小,而西欧、地中海、波罗的海和美东、西航线的CCFI指数已经出现了开始新一轮上涨的矛头。

考虑到不同交通工具的优劣势,生产供货商可以将超大宗货物进行海运,而小件货物适当选择空运和铁路运输。随着“一带一路”的规划与完善,中欧班列等铁路运输也将在一定程度上缓解航运目前的紧张局面。

------END------

曹睿 华中科技大学数学与统计学院本科三年级 2212534803@qq.com

欢迎大家加入数据魔术师粉丝群,我们的活动将会通过粉丝群优先发布, 学习资料将通过粉丝群分享。

欲入群,请转发此文,然后扫描下方二维码联系数据魔术师小助手

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-03-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据魔术师 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档