首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >从零开始理解协方差(Cov)

从零开始理解协方差(Cov)

作者头像
用户2423478
发布2025-10-28 13:08:15
发布2025-10-28 13:08:15
1220
举报
文章被收录于专栏:具身小站具身小站

协方差主要用于理解变量之间的关系,是构建更复杂统计模型(如相关系数、协方差矩阵)的基石。

1. 方差概念

假设有N个数据,其均值为μ,那么这N个数据的几个方差公式如下: 总体方差:

样本方差:

分母使用n−1 而不是n 是为了获得无偏估计,无偏估计指一个估计量的数学期望等于被估计参数的真实值,对于样本方差与总体方差来说,指的就是样本方差的期望等于总体方差,样本方差相当于从总体中多次抽取(而不是仅抽取一次),当抽取的次数足够多时,样本方差的期望等于总体方差。

2. 协方差基本概念

协方差是统计学中衡量两个随机变量之间"协同变化"关系的重要指标,通俗地说,可以理解为两个变量在变化过程中是同方向变化,还是反方向变化,以及同向或反向程度如何。协方差,又称共变异数,被用来描述两个随机变量之间线性相关程度。

协方差数学定义 对于两个随机变量X和Y,协方差的数学定义为:

其中:

EEE 表示期望值(均值) μ_X: 是变量X的均值(即E[X] ) μ_Y: 是变量Y的均值(即E[Y] )

这个公式表示:两个变量各自偏离其均值的乘积的期望值,协方差公式可以进一步推导为更简洁的形式:

样本协方差公式 在实际应用中,通常只有样本数据,而非整个总体,因此常用样本协方差,公式为:

其中:

N 是样本数量 x_i 和 y_i 是第i 个样本点的值 u_x 和 u_y 是X和Y的样本均值

3. 实际示例(计算身高与体重的协方差)

假设有5个人的身高(cm)和体重(kg)数据:

序号

身高(x)

体重(y)

1

160

50

2

165

55

3

170

60

4

175

65

5

180

70

身高均值 :u_x = (160+165+170+175+180)/5=170 体重均值 :u_x =(50+55+60+65+70)/5 =60

这个正的协方差值表明身高和体重呈正相关关系,即身高越高,体重也倾向于越大。

4. 协方差的直观理解

协方差的正负号表示两个变量变化的方向关系,而绝对值大小表示这种关系的强度,协方差公式中的(X−μX)(Y−μY)是关键。

  • 当两个变量都高于各自均值或都低于各自均值时:(X−μX)和(Y−μY)同号,乘积为正,表示同向变化
  • 当一个变量高于均值而另一个低于均值时:(X−μX)和(Y−μY)异号,乘积为负,表示反向变化
  • 对称性:Cov(X,Y)=Cov(Y,X)
  • 方差是特例:当X=Y 时,Cov(X,X)=Var(X) ,即方差是协方差的特殊情况
  • 线性关系度量:协方差主要度量变量间的线性相关关系,,对于非线性关系可能无法准确反映
  • 无界性:协方差的取值范围是(−∞,+∞) ,没有固定范围,难以解释其大小的意义
  • 量纲依赖性:协方差的值受变量单位的影响。例如,身高用厘米、体重用公斤计算的协方差,与身高用米、体重用克计算的协方差值会相差很大,难以直接比较。

为克服协方差的量纲依赖性问题,可以使用相关系数:

其中σ_X 和σ_Y,分别是X和Y的标准差,相关系数是协方差的标准化形式,取值范围在[−1,1] 之间:

  • 1 表示完全正相关
  • −1 表示完全负相关
  • 0 表示无线性相关
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-09-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 具身小站 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 方差概念
  • 2. 协方差基本概念
  • 3. 实际示例(计算身高与体重的协方差)
  • 4. 协方差的直观理解
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档