作者:Jingle审核:X 封面:自己想吧
多重线性回归(multiple linear regression)是简单线性回归的推广,它考虑多个因素对一个结果的影响,是一种常用的多变量统计分析方法。用y表示因变量,x表示自变量,y只有一个,设x有p个,用向量形式可以表示为(x1,...,xp)。多重线性回归使用最小二乘法来解决方程的估计和检验问题,回归方程的数学模型为:
β0为常数项,β1,...,βp为偏回归系数(partial regression cofficient),ε为随机误差,又称残差(residual),是y的变化中不能用自变量解释的部分 (y-y^=ε),独立服从正态分布。
由样本估计的多重线性回归方程为:
y^为各x取一组定值时,因变量y的估计值;b0为常数项,又称截距,是当所有自变量取值为0时因变量的估计值;bi为自变量xi的偏回归系数,表示当其他自变量保持不变时,自变量xi每改变一个单位引起因变量的变化。
如果要建立固体垃圾排放量(y)与餐饮业与宾馆用地面积(x1)、运输及批发商业用地面积(x2)、工业企业用地面积(x3)、零售业用地面积(x4)、金属制造业用地面积(x5)之间的线性回归方程,模型可以写成:
图1 部分数据
而在以上五个自变量中,可能并非所有自变量对因变量的影响都有统计学意义,多重线性回归分析的目的是建立一个最优回归模型,即对自变量进行筛选:将没有影响的自变量剔除,将对因变量有意义的自变量纳入模型,同时也将共线性强的自变量剔除。自变量筛选的准则有残差平方和准则与统计量显著性检验准则两种,前者是将自变量个数与残差平方和的值结合起来考虑选取自变量构造模型,如应用剩余标准差、赤池信息准则为标准筛选自变量,统计学标准是残差平方和缩小或决定系数增大,模型越好。
SPSS所支持的是后一种准则,即通过对偏回归系数进行显著性检验,选择有统计学意义的自变量构成回归模型。操作上通过逐步回归实现自变量的筛选,包括前进法、后退法以及逐步回归法。前进法(forward)的局限在于只进不出,后续变量的引入可能使得先前的变量不再有影响却无法排除,后退法(backward)的局限在于只出不进,开始剔除的变量后来变的有影响也无法再进入方程。
实际应用最多的是逐步回归法(stepwise),它将上述两种方法结合起来筛选,逐步回归事先设定自变量进入、剔除的标准,每向模型引入一个新变量,同时考察原来在模型中的自变量是否还有统计学意义,直至既没有自变量能够进入方程,也没有自变量从方程中剔除为止。回归结束,最后所得方程即为最优回归方程。
多重线性回归的应用条件有:
自变量与因变量之间存在线性关系,可以通过绘制散点图予以观察
各观测间相互独立
随机误差服从正态分布
随机误差具有方差齐性
因变量为定量指标,自变量为连续型变量或分类变量
举例分析
问题提出:研究固体垃圾排放量(y)与餐饮业与宾馆用地面积(x1)、运输及批发商业用地面积(x2)、工业企业用地面积(x3)、零售业用地面积(x4)、金属制造业用地面积(x5)之间的关系,试建立多重线性回归方程。
1
绘制散点图矩阵
由图2可得,固体垃圾排放量与餐饮业与宾馆用地、运输及批发商业用地、工业企业用地、零售业用地、金属制造业用地之间存在线性关系。
图2 散点图矩阵
2
逐步回归
依次选择“分析——回归——线性”,如图3
“固体垃圾排放量”放入因变量;“餐饮业与宾馆用地、运输及批发商业用地、工业企业用地、零售业用地、金属制造业用地”放入自变量,方法选择“逐步”,如图4
图3
图4
图5
3
结果分析
(1)表1显示输入/移除的变量,给出了逐步回归过程中每一步引入模型的变量,分为3步引入,且原来模型中的自变量没有被剔除,表明最终回归模型中引入了三个自变量,分别是:餐饮业与宾馆用地面积(x1)、运输及批发商业用地面积(x2)、零售业用地面积(x3)。右侧一栏表明引入、剔除变量的统计学标准P值,SPSS默认分别为0.05和0.1(此值可修改,见图5),即当引入的新变量显著性检验p≦0.05,进入模型,反之不进入,引入新变量同时对模型中已有的自变量进行显著性检验,若p≧0.1,移出模型,反之保留。
(2)表2显示所有模型拟合优度情况检验结果,我们主要观察复相关系数(R)、决定系数(R方)、调整的决定系数(调整R方)、随机误差估计值。
R:复相关系数,反映自变量与因变量之间的线性相关程度,0
R^2:决定系数,反映回归方程的效果好坏,R2=SS回归/SS总,表示在因变量y的总变异中,可由回归方程所解释部分的比例,0
调整R^2:由于复相关系数随方程中变量个数的增加而增加,因此需要对其进行校正,AdjR2=1-MS残/MS总,0
随机误差估计值:反映因变量在扣除自变量的线性影响后的离散程度,标准误越接近于0,说明回归方程效果越好。
本例有3步,给出了3个模型的复相关系数、决定系数、调整的决定系数以及随机误差估计值。以包含了三个自变量的最终回归模型3为例,复相关系数R=0.952,表明模型中的三个自变量与因变量线性相关密切;决定系数R^2=0.907,说明因变量固体垃圾排放量变异的90.7%可由预测变量餐饮业与宾馆用地面积(x1)、运输及批发商业用地面积(x2)及零售业用地面积(x3)来解释,表明模型对数据的拟合程度较好;调整的决定系数AdjR^2=0.898,也表明模型的拟合效果较好;随机误差估计值为0.12177,接近于0,说明回归方程效果较好。
(3)表3显示方差分析的结果,检验拟合的3个模型中是否所有偏回归系数都为0,下表中,所有Sig.值为.000(p
(4)表4显示各模型的常数项以及各自变量的偏回归系数估计。我们主要观察偏回归系数、标准化回归系数以及偏回归系数检验的p值。系数标准化后做回归所得系数称为标准化回归系数,偏回归系数有单位,解释各自变量对因变量的影响而不能比较各自变量的影响大小,表示在其他自变量保持不变时,xi增加或减少一个单位引起的y^的变化量;标准化回归系数无单位,可以比较各自变量对因变量的影响大小,标准化回归系数的绝对值越大,xi对y^的影响越大。
本例有3步,给出了3个模型的常数项、偏回归系数、标准化回归系数以及偏回归系数检验的p值。以包含了三个自变量的最终回归模型3为例,常数项和各自变量的偏回归系数如表4所示,所有偏回归系数检验的p值均
固体垃圾排放量=0.123+0.015*餐饮业与宾馆用地+0.001*运输及批发商业用地-0.002*零售业用地
偏回归系数解释自变量对因变量的影响,如餐饮业与宾馆用地面积(x1)的偏回归系数b1为0.015,说明在其他因素不变的情况下,餐饮业与宾馆用地面积每增加1个单位,固体垃圾排放量就增加0.015个单位。而标准化回归系数可以比较各自变量对因变量影响的大小,如b2=0.001 b3=-0.002,其标准化回归系数分别为0.758和-0.952,标准化回归系数的绝对值越大,自变量对的影响越大,由此可知,x3的影响大于x2对y^的影响。
(5)表5显示逐步回归过程中每一步被剔除的变量情况及其检验结果。以本研究的最优回归模型3为例,工业企业用地和金属制造业用地是未进入模型的两个自变量,看其Sig.值可知,工业企业用地为0.968(p>0.05),金属制造业用地为0.055(p>0.05),均不满足进入标准(p≦0.05),因此被排除。
领取专属 10元无门槛券
私享最新 技术干货