协方差主要用于理解变量之间的关系,是构建更复杂统计模型(如相关系数、协方差矩阵)的基石。
假设有N个数据,其均值为μ,那么这N个数据的几个方差公式如下: 总体方差:

样本方差:

分母使用n−1 而不是n 是为了获得无偏估计,无偏估计指一个估计量的数学期望等于被估计参数的真实值,对于样本方差与总体方差来说,指的就是样本方差的期望等于总体方差,样本方差相当于从总体中多次抽取(而不是仅抽取一次),当抽取的次数足够多时,样本方差的期望等于总体方差。
协方差是统计学中衡量两个随机变量之间"协同变化"关系的重要指标,通俗地说,可以理解为两个变量在变化过程中是同方向变化,还是反方向变化,以及同向或反向程度如何。协方差,又称共变异数,被用来描述两个随机变量之间线性相关程度。
协方差数学定义 对于两个随机变量X和Y,协方差的数学定义为:

其中:
EEE 表示期望值(均值) μ_X: 是变量X的均值(即E[X] ) μ_Y: 是变量Y的均值(即E[Y] )
这个公式表示:两个变量各自偏离其均值的乘积的期望值,协方差公式可以进一步推导为更简洁的形式:

样本协方差公式 在实际应用中,通常只有样本数据,而非整个总体,因此常用样本协方差,公式为:

其中:
N 是样本数量 x_i 和 y_i 是第i 个样本点的值 u_x 和 u_y 是X和Y的样本均值
假设有5个人的身高(cm)和体重(kg)数据:
序号 | 身高(x) | 体重(y) |
|---|---|---|
1 | 160 | 50 |
2 | 165 | 55 |
3 | 170 | 60 |
4 | 175 | 65 |
5 | 180 | 70 |
身高均值 :u_x = (160+165+170+175+180)/5=170 体重均值 :u_x =(50+55+60+65+70)/5 =60

这个正的协方差值表明身高和体重呈正相关关系,即身高越高,体重也倾向于越大。
协方差的正负号表示两个变量变化的方向关系,而绝对值大小表示这种关系的强度,协方差公式中的(X−μX)(Y−μY)是关键。
为克服协方差的量纲依赖性问题,可以使用相关系数:

其中σ_X 和σ_Y,分别是X和Y的标准差,相关系数是协方差的标准化形式,取值范围在[−1,1] 之间: