首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

统计学必备基础之相关系数

统计学必备基础之相关系数

任务定义

相关系数在未加修饰或特殊注明的情况下,往往是对皮尔逊相关系数的简称(Pearson Correlation Coefficient),也被称为简单相关系数。设(xi,yi)(i=1,2,3…,n)是(x,y) 的n组样本观测值,则有:

为x和y的相关系数。显然可得,|r|≤1,我们可根据相关系数的大小,初步判断两变量间是否线性相关。本文将主要介绍皮尔逊相关系数及其在回归分析中的应用,并介绍多元问题中常用的偏相关系数。

公式看着太无聊?那我们先看个故事。皮尔逊(K. Pearson,1856-1936)是现代统计学的是奠基人之一,他的老师就著名英国统计学家高尔顿(F. Galton, 1822-1911)。回归分析的基本思想和方法以及“回归”一词的提出都归功于高尔顿。在他和皮尔逊研究父母身高与其子女身高的遗传问题时,以每对夫妇的平均身高为x,而取他们的一位成年儿子的身高为y,将结果绘制为散点图发现趋势近乎一条直线。计算得出回归直线方程为

即父母平均身高每增加一个单位,其成年儿子的身高平均增加0.516个单位。通俗地说,一群特高父辈的儿子们在同龄人中平均身高仅为高个子,一群矮个子父辈的儿子们在同龄人中平均身高仅为略矮,以这种方式子代的平均身高向中心回归。虽然在“回归”一词的由来中它有着特殊的含义,但借用这一名词把变量间统计关系的量化方法称为“回归”分析也是对伟大的统计学家高尔顿的纪念。

言归正传,回归模型是统计学建模中最为基础也是最为常见的。当模型的未知参数通过最小二乘法和最大似然估计等方法完成估计后,模型就初步建立了。但此时的模型并不严谨,需要做进一步的统计学检验。统计学检验通常是对回归方程的显著性检验以及回归系数的显著性检验。

在最简单的一元线性回归方程中,我们讨论的是x与y的线性关系,所以可以用x与y之间的相关系数来检验回归方程的显著性,即判断x与y是否线性相关。但简单相关系数仍有许多问题,最明显的缺点是当n较小时,相关系数的绝对值容易接近1;当n较大时,相关系数的绝对值容易偏小。在实际应用中,我们往往计算相关系数的t值或P值,及相关系数的显著性检验。

举例说明,我们选取简单的火灾损失数据如下:

计算得到相关系数如下表:

从计算结果中可以看出,相关系数为0.961,P值近似为零,可知x与y的简单相关系数显著不为零。由N=15查表可得,x与y有高度显著的线性关系。

我们给出的相关系数表达式相关系数使用样本计算的,也成为样本相关系数。假设我们观测了变量(x, y)的所有取值,此时可以得到总体相关系数,记作ρ。样本相关系数是总体相关系数ρ的估计值。相关系数的显著性检验只是表示总体相关系数ρ显著不为零,并不能代表相关程度高。可以证明,在样本量充分大的情况下,可以把样本相关系数作为总体相关系数,不必再关心显著性检验的结果。

在多元线性回归方程中,相关系数经常以样本相关矩阵的形式计算。简单相关系数仍反映的是两个变量间的相关性,可以计算得出y与每个自变量xi的相关系数ryi,以及自变量xi与xj之间的简单相关系数rij,进而得到增广的样本相关矩阵:

通过各相关系数的数值,可初步判断不同自变量与因变量的正负相关以及相关程度,也可判断自变量之间是否可能存在多重共线性。

偏相关系数:在多元回归分析中,当其他变量被固定时,计算两个变量间的线性相关程度。在介绍偏回归系数前,我们首先介绍偏决定系数。

取二元线性回归模型为

记SSE(x2)是模型中只含有x2时y的残差平方和,SSE(x1, x2)是模型中含有自变量x1和x2时y的残差平方和。因此,模型中已经含有x2时,再加入x1使y的剩余变差的减小量为:

此模型已含有x2时,y与x1的偏决定系数。

拓展到一般情况下,当模型中已含有x2,…,xp时,y与x1的偏决定系数为:

偏决定系数的平方根称为偏相关系数。我们通过一个例子,说明偏相关系数和简单相关系数的关系。分别以x1表示某种商品的销售量,x2表示消费者人均可支配收入,x3表示商品价格。从经验上看,销售量消费者人均可支配收入之间有正相关,简单相关系数应该为正。但如果计算出负数,则是因为还有其他未被固定的变量产生影响,例如商品价格在期间大幅提高。固定商品价格后,销售量与消费者人均可支配收入相关程度的偏相关系数应该是一个正数。如果你计算出的偏相关系数仍为负数,一定有没有考虑到的重要变量,也就是未固定变量。比如,商品已经进入淘汰期。

在多元回归中,应注意简单相关系数只是两个变量局部的相关性质,而并非整体的性质。所以在多元回归分析中,我们并不看重简单相关系数,而认为偏相关系数才是真正反映因变量与自变量,以及自变量之间相关性的数值。根据偏相关系数,可以判断哪些自变量对因变量的影响较大,而选择必须考虑的自变量,对于那些影响较小的自变量可以舍去。

如有错误,请您批评指正!

快,关注这个公众号,一起涨姿势~

转载请联系

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180606G14CSW00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券