Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >通俗解释协方差与相关系数

通俗解释协方差与相关系数

作者头像
红色石头
发布于 2019-05-25 15:12:00
发布于 2019-05-25 15:12:00
1.9K0
举报

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/red_stone1/article/details/82754517

个人网站:redstonewill.com

什么是协方差(Covariance)?

协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。

以上是某百科的解释。等等!是不是还是觉得比较晦涩难懂呢?对于非理工科的小白来说,如何清晰、形象地理解协方差和相关系数的数学概念呢?没关系,今天红色石头就通过形象生动的例子,通俗易懂地给大家来讲一讲协方差与相关系数。

1. 协方差是怎么来的?

简单地来说,协方差就是反映两个变量 X 和 Y 的相互关系。这种相互关系大致分为三种:正相关、负相关、不相关。

什么是正相关呢?例如房屋面积(X)越大,房屋总价(Y)越高,则房屋面积与房屋总价是正相关的;

什么是负相关呢?例如一个学生打游戏的时间(X)越多,学习成绩(Y)越差,则打游戏时间与学习成绩是负相关的;

什么是不相关呢?例如一个人皮肤的黑白程度(X)与他的身体健康程度(Y)并无明显关系,所以是不相关的。

我们先来看第一种情况,令变量 X 和变量 Y 分别为:

X = [11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30]

Y = [12 15 17 21 22 21 18 23 26 25 22 28 24 28 30 33 28 34 36 35]

在坐标上描绘出 X 和 Y 的联合分布:

显然,Y 在整体趋势上是随着 X 的增加而增加的,即 Y 与 X 的变化是同向的。这种情况,我们就称 X 与 Y 是正相关的。

我们再来看第二种情况,令变量 X 和变量 Y 分别为:

X = [11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30]

Y = [35 35 29 29 28 28 27 26 26 23 21 22 25 19 16 19 20 16 15 16]

在坐标上描绘出 X 和 Y 的联合分布:

显然,Y 在整体趋势上是随着 X 的增加而减少的,即 Y 与 X 的变化是反向的。这种情况,我们就称 X 与 Y 是负相关的。

我们再来看第三种情况,令变量 X 和变量 Y 分别为:

X = [11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30]

Y = [16 16 28 17 20 26 20 17 21 15 12 29 24 25 16 15 21 13 17 25]

在坐标上描绘出 X 和 Y 的联合分布:

显然,Y 在整体趋势上与 X 的并无正相关或者负相关的关系。这种情况,我们就称 X 与 Y 是不相关的。

回过头来,我们来看 X 与 Y 正相关的情况,令 EX、EY 分别是 X 和 Y 的期望值。什么是期望呢?在这里我们可以把它看成是平均值,即 EX 是变量 X 的平均值,EY 是变量 Y 的平均值。把 EX 和 EY 在图中表示出来得到下面的图形:

上图中,整个区域被 EX 和 EY 分割成 I、II、III、IV 四个区域,且 X 和 Y 大部分分布在 I、III 区域内,只有少部分分布在 II、IV 区域内。

在区域 I 中,满足 X>EX,Y>EY,则有 (X-EX)(Y-EY)>0;

在区域 II 中,满足 X<EX,Y>EY,则有 (X-EX)(Y-EY)<0;

在区域 III 中,满足 X<EX,Y<EY,则有 (X-EX)(Y-EY)>0;

在区域 IV 中,满足 X>EX,Y<EY,则有 (X-EX)(Y-EY)<0。

显然,在区域 I、III 中,(X-EX)(Y-EY)>0;在区域 II、IV 中,(X-EX)(Y-EY)<0。而 X 和 Y 正相关时,数据大部分是分布在 I、III 区域内,只有少部分分布在 II、IV 区域。因此,从平均角度来看,正相关满足:

E(X−EX)(Y−EY)&gt;0E(X-EX)(Y-EY)&gt;0E(X−EX)(Y−EY)>0

上式表示的是 (X-EX)(Y-EY) 的期望大于零,即 (X-EX)(Y-EY) 的平均值大于零。

然后,再来看 X 和 Y 负相关的情况:

上图中,X 和 Y 大部分分布在 II、IV 区域内,只有少部分分布在 I、III 区域内。

同样,在区域 I、III 中,(X-EX)(Y-EY)>0;在区域 II、IV 中,(X-EX)(Y-EY)<0。而 X 和 Y 负相关时,数据大部分是分布在 II、IV 区域内,只有少部分分布在 I、III 区域。因此,从平均角度来看,负相关满足:

E(X−EX)(Y−EY)&lt;0E(X-EX)(Y-EY)&lt;0E(X−EX)(Y−EY)<0

上式表示的是 (X-EX)(Y-EY) 的期望小于零,即 (X-EX)(Y-EY) 的平均值小于零。

最后,再来看 X 和 Y 不相关的情况:

上图中,X 和 Y 在 I、II、III、IV 区域内近似均匀分布。

同样,在区域 I、III 中,(X-EX)(Y-EY)>0;在区域 II、IV 中,(X-EX)(Y-EY)<0。而 X 和 Y 不相关时,数据在各区域内均匀分布,从平均角度来看,不相关满足:

E(X−EX)(Y−EY)=0E(X-EX)(Y-EY)=0E(X−EX)(Y−EY)=0

上式表示的是 (X-EX)(Y-EY) 的期望等于零,即 (X-EX)(Y-EY) 的平均值等于零。

综上所述,我们得到以下结论:

  • 当 X 和 Y 正相关时:E(X−EX)(Y−EY)&gt;0E(X-EX)(Y-EY)&gt;0E(X−EX)(Y−EY)>0
  • 当 X 和 Y 负相关时:E(X−EX)(Y−EY)&lt;0E(X-EX)(Y-EY)&lt;0E(X−EX)(Y−EY)<0
  • 当 X 和 Y 不相关时:E(X−EX)(Y−EY)=0E(X-EX)(Y-EY)=0E(X−EX)(Y−EY)=0

因此,我们就引出了协方差的概念,它是表示 X 和 Y 之间相互关系的数字特征。我们定义协方差为:

Cov=E(X−EX)(Y−EY)Cov=E(X-EX)(Y-EY)Cov=E(X−EX)(Y−EY)

根据之前讨论的结果,

  • 当 Cov(X,Y) > 0 时,X 与 Y 正相关;
  • 当 Cov(X,Y) < 0 时,X 与 Y 负相关;
  • 当 Cov(X,Y) = 0 时,X 与 Y 不相关。

值得一提的是,E 代表求期望值。也可以用平均值来计算协方差:

Cov(X,Y)=1N−1∑i=1N(Xi−Xˉi)(Yi−Yˉi)Cov(X,Y)=\frac{1}{N-1}\sum_{i=1}^N(X_i-\bar X_i)(Y_i-\bar Y_i)Cov(X,Y)=N−11​i=1∑N​(Xi​−Xˉi​)(Yi​−Yˉi​)

这里,之所以除以 N-1 而不是 N 的原因是对总体样本期望的无偏估计。顺便提一下,如果令 Y = X,则协方差表示的正是 X 的方差。

下面,我们根据协方差的公式,分别计算上面三种情况下 X 与 Y 的协方差。

X 与 Y 正相关时,Cov(X,Y) = 37.3684;

X 与 Y 负相关时,Cov(X,Y) = -34.0789;

X 与 Y 不相关时,Cov(X,Y) = -1.0263。

2. 相关系数与协方差什么关系?

我们已经知道了什么是协方差以及协方差公式是怎么来的,如果知道两个变量 X 与 Y 的协方差与零的关系,我们就能推断出 X 与 Y 是正相关、负相关还是不相关。那么有一个问题:协方差数值大小是否代表了相关程度呢?也就是说如果协方差为 100 是否一定比协方差为 10 的正相关性强呢?

请看下面这个例子!

变量 X1 与 Y1 分别为:

X1 = [11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30]

Y1 = [12 12 13 15 16 16 17 19 21 22 22 23 23 26 25 28 29 29 31 32]

变量 X2 和 Y2 分别为:

X2 = [110 120 130 140 150 160 170 180 190 200 210 220 230 240 250 260 270 280 290 300]

Y2 = [113 172 202 206 180 184 242 180 256 209 288 255 240 278 319 322 345 289 333 372]

X1、Y1 和 X2、Y2 分别联合分布图,如下所示:

显然,从图中可以看出,X1、Y1 和 X2、Y2 都呈正相关,而且 X1 与 Y1 正相关的程度明显比 X2 与 Y2 更大一些。接下来,我们计算两幅图的协方差看看是不是这样。

Cov(X1,Y1) = 37.5526

Cov(X2,Y2) = 3730.26

意外!X2 与 Y2 的协方差竟然比 X1 与 Y1 的协方差还大 100 倍。看来并不是协方差越大,正相关程度越高。这到底是为什么呢?

其实,出现这种情况的原因是两种情况数值变化的幅值不同(或者量纲不同)。计算协方差的时候我们并没有把不同变量幅值差异性考虑进来,在比较协方差的时候也就没有一个统一的量纲标准。

所以,为了消除这一影响,为了准确得到变量之间的相似程度,我们需要把协方差除以各自变量的标准差。这样就得到了相关系数的表达式:

ρ=Cov(X,Y)σXσY\rho=\frac{Cov(X,Y)}{\sigma_X\sigma_Y}ρ=σX​σY​Cov(X,Y)​

可见,相关系数就是在协方差的基础上除以变量 X 和 Y 的标准差。其中标准差的计算公式为:

σX=1N−1∑i=1N(Xi−Xˉi)2\sigma_X=\sqrt{\frac{1}{N-1}\sum_{i=1}^N(X_i-\bar X_i)^2}σX​=N−11​i=1∑N​(Xi​−Xˉi​)2​

σY=1N−1∑i=1N(Yi−Yˉi)2\sigma_Y=\sqrt{\frac{1}{N-1}\sum_{i=1}^N(Y_i-\bar Y_i)^2}σY​=N−11​i=1∑N​(Yi​−Yˉi​)2​

为什么除以各自变量的标准差就能消除幅值影响呢?这是因为标准差本身反映了变量的幅值变化程度,除以标准差正好能起到抵消的作用,让协方差标准化。这样,相关系数的范围就被归一化到 [-1,1] 之间了。

下面,我们就来分别计算上面这个例子中 X1、Y1 和 X2、Y2 的相关系数。

ρ(X1,Y1) = 0.9939

ρ(X2,Y2) = 0.9180

好了,我们得到 X1 与 Y1 的相关系数大于 X2 与 Y2 的相关系数。这符合实际情况。也就是说,根据相关系数,我们就能判定两个变量的相关程度,得到以下结论:

  • 相关系数大于零,则表示两个变量正相关,且相关系数越大,正相关性越高;
  • 相关系数小于零,则表示两个变量负相关,且相关系数越小,负相关性越高;
  • 相关系数等于零,则表示两个变量不相关。

回过头来看一下协方差与相关系数的关系,其实,相关系数是协方差的标准化、归一化形式,消除了量纲、幅值变化不一的影响。实际应用中,在比较不同变量之间相关性时,使用相关系数更为科学和准确。但是协方差在机器学习的很多领域都有应用,而且非常重要!更多协方差的应用红色石头以后会给大家慢慢讲解哦!

参考文献:

https://www.cnblogs.com/tsingke/p/6273970.html

https://www.zhihu.com/question/20852004

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018年09月18日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
划重点!通俗解释协方差与相关系数
以上是某百科的解释。等等!是不是还是觉得比较晦涩难懂呢?对于非理工科的小白来说,如何清晰、形象地理解协方差和相关系数的数学概念呢?没关系,今天红色石头就通过形象生动的例子,通俗易懂地给大家来讲一讲协方差与相关系数。
红色石头
2022/01/12
9640
划重点!通俗解释协方差与相关系数
协方差详解
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
Steve Wang
2019/10/22
1.4K0
协方差详解
离散均匀分布的期望和方差(均值和方差的性质)
E [ g ( x ) ] = { ∑ i g ( x i ) p ( x i ) , 离散场合 ∫ − ∞ ∞ g ( x ) p ( x ) d x , 连续场合 E[g(x)]=\begin{cases}\sum\limits_ig(x_i)p(x_i),&\text{离散场合} \\ \\ \int_{-\infty}^\infty{g(x)p(x)\mathrm{d}x},&\text{连续场合}\end{cases} E[g(x)]=⎩⎪⎪⎨⎪⎪⎧​i∑​g(xi​)p(xi​),∫−∞∞​g(x)p(x)dx,​离散场合连续场合​
全栈程序员站长
2022/07/28
1.8K0
大话脑影像系列之三:趣谈散点图与相关系数
爱因斯坦喊你点击右上角蓝色“思影科技”关注我们 最近不少读者对高大上的机器学习,动态脑网络,曲面形态指标共变网络感到爱不起,针对于此,我们特别推出一些基本的做脑功能的概念讲解,希望大家一步一步来,年轻人,不要动不动想一步登天,识得唔识得啊? 那今天我们就谈谈这个相关系数……. 说起相关系数,从字面上的含义就可看出,就是两个信号之间的相关性。但是你真正理解内在的机理吗? 结论放在最前面:相关系数,其实就是通过散点图来的。 学会散点图,此生无憾! 所有的一切,由这个图说起: 图1
用户1279583
2018/04/08
1.9K0
大话脑影像系列之三:趣谈散点图与相关系数
Task1:随机事件与随机变量
② 随机事件:样本空间Ω中满足一定条件的子集,用大写字母 表示 (随机事件在随机试验中可能出现也可能不出现)
诡途
2022/05/09
8970
Task1:随机事件与随机变量
概率论11 协方差与相关系数
前面介绍的分布描述量,比如期望和方差,都是基于单一随机变量的。现在考虑多个随机变量的情况。我们使用联合分布来表示定义在同一个样本空间的多个随机变量的概率分布。 联合分布中包含了相当丰富的信息。比如从联合分布中抽取某个随机变量的边缘分布,即获得该随机变量的分布,并可以据此,获得该随机变量的期望和方差。这样做是将视线限制在单一的一个随机变量上,我们损失了联合分布中包含的其他有用信息,比如不同随机变量之间的互动关系。为了了解不同随机变量之间的关系,需要求助其它的一些描述量。 协方差 协方差(covariance)
Vamei
2018/01/18
7280
概率论11 协方差与相关系数
相关系数高达0.8又如何?
可以看到这4个数据集的X,Y都是有关系的,其中第一个看起来是线下相关,第二个应该是曲线,第三个有离群点,第四个呢,完全就跑偏了,那么它们的线性回归如何呢?
生信技能树
2019/05/24
4.7K0
概率论基础 - 4 - 协方差、相关系数、协方差矩阵
本文介绍协方差。 协方差 协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。 —— 百度百科 定义 在概率论和统计学中,协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。 期望值分别为E[X
为为为什么
2022/08/05
1.5K0
概率论基础 - 4 - 协方差、相关系数、协方差矩阵
皮尔逊相关系数(Pearson Correlation Coefficient)
皮尔逊相关系数(Pearson Correlation Coefficient)是用于度量两个变量之间线性关系强度和方向的统计量。其值域在-1到1之间,其中:
jack.yang
2025/04/05
6820
皮尔逊相关系数(Pearson Correlation Coefficient)
方差,协方差,相关系数,你真的都懂吗?
提到方差,大家都不陌生在R语言实现很简单,一个命令var()。但是提到方差的应用,你是否了解?
一粒沙
2019/07/31
1.8K0
方差,协方差,相关系数,你真的都懂吗?
表型相关系数与标准误
我回答:“R中默认的函数有cor计算相关系数,标准误的话估计要用重抽样去操作?,但是很少有人会计算标准误这个数值。”
邓飞
2020/03/31
1.3K0
表型相关系数与标准误
如何通俗的理解协方差、相关系数?
之前介绍了方差是用来刻画数据波动性的统计量,那么协方差就是描述两个变量之间的变动关系。
数据STUDIO
2022/04/11
1.1K0
如何通俗的理解协方差、相关系数?
数分人必知必会 | 分析方法:相关性分析
数分人必知必会是很早之前的一个老系列内容了,之前讲了一些看似和数据分析没啥关系但是在实际工作中又很重要的常识,现在来讲一些真纯数据分析的内容。
做数据的二号姬
2025/06/23
2140
数分人必知必会 | 分析方法:相关性分析
机器学习储备(1):协方差和相关系数
为了深刻理解机器学习算法的原理,首先得掌握其中涉及到的一些基本概念和理论,比如概率,期望,标准差,方差。在这些基本概念上,又衍生出了很多重要概念,比如协方差,相关系数等。今天我们就来聊聊这些组成机器学习的基本概念。 1 概率 概率 P 是对随机事件发生的可能性的度量。 例如,小明在期末考试前,统计了下自己在今年的数学考试成绩,结果显示得到80分以下的次数为2次,得80分~90分的次数为10次,得到90分以上次数为3次,那么小明得到 80分以下的概率为: P( < 80 ) = 2/(2+10+3) = 13
double
2018/04/02
7940
机器学习储备(1):协方差和相关系数
pearson与spearman相关系数的比较
相关性(correlation)是指两个随机变量之间的关系,可以衡量两个变量间关系的强弱和方向。一般我们常用的是皮尔森相关系数和斯皮尔曼相关系数。
生信编程日常
2020/04/24
3.6K0
pearson与spearman相关系数的比较
通俗的讲下数据分析中协方差和相关系数
协方差和相关系数是两个比较接近的概念,今天这一篇就来一起讲讲这两个概念。 Part1 方差 之前介绍了方差是用来刻画数据波动性的统计量,那么协方差就是描述两个变量之间的变动关系。 通俗地理解为:两个变量是同向变化?还是反向变化?同向或反向程度有多少? X变大,Y也变大,说明两个变量是同向变化的,这时协方差就是正的。X变大,Y变小,说明两个变量是反向变化的,这时协方差就是负的。并且从数值大小来看,协方差的绝对值越大,则两个变量同向或反向的程度也越大,即有较强的相关。 公式的计算很简单,每个X与其均值之差
张俊红
2022/03/03
1.5K0
使用NumPy介绍期望值,方差和协方差
AiTechYun 编辑:yuxiangyu 基础统计是应用机器学习中的有力工具,它可以更好地理解数据。而且,它也为更先进的线性代数运算和机器学习方法奠定了基础的工具,例如分别协方差矩阵和主成分分析(PCA)。因此,掌握线性代数中基础的统计非常重要。 在本教程中,你会了解基础的统计操作及其原理,和如何使用NumPy实现线性代数的符号和术语。 完成本教程后,你将知道: 期望值,平均数(average)和平均值(mean)是什么,以及如何计算它们。 方差和标准差是多少以及如何计算它们。 协方差,相关性和协方差矩
AiTechYun
2018/03/27
5.7K0
使用NumPy介绍期望值,方差和协方差
入门 | 从PCC到MIC,一文教你如何计算变量之间的相关性
选自FreeCoderCamp 作者:Peter Gleeson 机器之心编译 参与:陈韵竹、程耀彤、刘晓坤 本文介绍了几个重要的变量相关性的度量,包括皮尔逊相关系数、距离相关性和最大信息系数等,并用简单的代码和示例数据展示了这些度量的适用性对比。 从信号的角度来看,这个世界是一个嘈杂的地方。为了弄清楚所有的事情,我们必须有选择地把注意力集中到有用的信息上。 通过数百万年的自然选择过程,我们人类已经变得非常擅长过滤背景信号。我们学会将特定的信号与特定的事件联系起来。 例如,假设你正在繁忙的办公室中打乒乓球
机器之心
2018/05/08
4.2K0
入门 | 从PCC到MIC,一文教你如何计算变量之间的相关性
主成分分析(Principal Component Analysis,PCA)
)个主成分(线性无关变量)来代替m个原有变量(线性相关变量),使问题得以简化,并能保留原有变量的大部分信息(原有变量的方差)。
Michael阿明
2020/07/13
9840
主成分分析(Principal Component Analysis,PCA)
主成分分析与因子分析及SPSS实现[通俗易懂]
在问题研究中,为了不遗漏和准确起见,往往会面面俱到,取得大量的指标来进行分析。比如为了研究某种疾病的影响因素,我们可能会收集患者的人口学资料、病史、体征、化验检查等等数十项指标。如果将这些指标直接纳入多元统计分析,不仅会使模型变得复杂不稳定,而且还有可能因为变量之间的多重共线性引起较大的误差。有没有一种办法能对信息进行浓缩,减少变量的个数,同时消除多重共线性?
全栈程序员站长
2022/08/30
7.1K0
主成分分析与因子分析及SPSS实现[通俗易懂]
推荐阅读
相关推荐
划重点!通俗解释协方差与相关系数
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档