在数据统计分析时,会遇到变量特别多的情况,这些变量之间还存在着很强的相关关系或者说变量之间存在着很强的信息重叠,如果直接对数据进行分析,一方面会带来工作量无谓增大,另一方面会出现模型应用错误,于是就需要主成分分析和因子分析。这两者分析方法的基本思想都是在不损失大量信息的前提下,用较少的独立变量来替代原来的变量进行进一步分析。
实例46--主成分分析
主成分分析的功能与意义
将众多初始变量整合成少数几个相互无关的主成分变量,而这些新的变量尽可能的包含了初始变量的全部信息,然后用这些新的变量来代替以前的变量进行分析。
相关数据
近年过年经济主要指标:全国人口 农林牧渔业总产值 工业总产值 国内生产总值 全社会投资总额 货物周转量 社会消费品零售总额 进出口贸易总额 原煤 发电量 原油 钢 汽车 布 糖 粮食 棉花 油料,分析主成分与指标间的表达式
分析过程
分析-降维-因子分析
描述
结果分析
(1)系数相关矩阵
各个变量之间都具有一定的相关关系而且有些相关系数还比较大,接近1,所以本例很适合使用主成分分析。
(2)各成分的方差贡献率和累计贡献率
只有前两个特征值大于1,所以只选择前两个主成分。第一主成分的方差贡献率是80.233%,前两个主成分的方差占所有主成分方差的88.118%。由此可见,前两个主成分足够替代原来的变量。
(3)主成分系数矩阵
各个主成分在各个变量上的载荷,从而可以得出各主成分的表达式,表达式中各个变量已经不是原始变量而是标准变量。具体表达式略。在第一主成分中,除两市以外的变量的系数比较大,可以看成是反映那些变量方面的综合指标,在第二主成分中,变量粮食的系数比较大,可以看做是反映粮食的综合指标。但是主成分分析只是一种矩阵变换,所以各个主成分并不一定具有实际意义。
实例47 因子分析
因子分析的功能与意义
因子分析是主成分分析的深化和拓展,它对相关问题的研究更为深入透彻。因子分析的基本原理是将具有一定相关关系的多个变量综合为数量较少的几个因子。研究一组具有错综复杂关系的实测指标是如何受少数几个内在的独立因子所支配的,所以它属于多元分析中处理降维问题的常用方法。
相关数据
分析过程
分析-降维-因子分析
描述
抽取
旋转
(最大方差法又称正交旋转,能够使每个因子上的具有最高载荷的变量数最小)
得分
结果分析
(1)KMO检验和Bartlett检验结果
KMO检验是为了看数据是否适合进行因子分析,其取值范围是0~1.其中0.9~1表示极好,...0~0.5表示不可接受。本例取值为0.657,属于中等,表明可以进行因子分析。Bartlett检验是为了看数据是否来自于服从多元正态分布的总体。sig.值0.000说明数据来自正态分布总体,适合进一步分析。
(2)变量共同度
变量共同度表示的是各变量中所含原始信息能被提取的公因子所解释的程度。本例所有变量共同度都在85%以上,解释能力很强。
(3)解释的总方差
只有前两个特征值大于1,第一主成分的方差贡献率是77%,前两个主成分的方差占所有主成分方差的96.305%
(4)碎石图
有两个成分特征值超过1
(5)旋转成分矩阵
第一因子反映的是除原煤以外的其他变量的信息
第二因子在原煤这一边梁有较大的载荷,反映的是原煤的信息。
(6)成分得分系数矩阵
可以直接写出公因子的表达式