第九讲 卡方检验(两个定性变量之间的关系)
卡方检验是用途很广的一种假设检验方法,它最基本的无效假设是:
H0:观察频数与期望频数没有差别。
其原理为考察基于H0的理论频数分布和实际频数分布间的差异大小,据此求出相应的P值。
残差
设A代表某个类别的观察频数,E是代表基于H0计算出的期望频数,A与E之差被称为残差。
残差可以代表表示某一个类别观察值和理论值的偏离程度,但残差有正有负,相加后会彼此抵消,总和仍然为0。为此可以将残差平方后求和,以表示样本总的偏离无效假设的程度。
另一方面,残差大小是一个相对的概念,相对于期望频数为10时,20的残差非常大;但相对于期望频数为1000时20就很小了。因此又将残差平方除以期望频数再求和,以标准化观察频数与期望频数的差别。这就是我们所说的卡方统计量,在1900年由英国统计学家Pearson首次提出。
当观察频数与期望频数完全一致时,卡方值为0;观察频数与期望频数越接近,两者之间的差异越小,卡方值越小;反之亦然。当然,卡方值的大小也和自由度有关(毕竟,又加了一些平方后的非负数)。也就是说,卡方值的大小不仅与A、E之差有关,还与单元格数(自由度)有关。
操作时要注意:对于有关计数的变量,一定要“个案加权”一下(即:需要对计数变量进行加权处理):
比较一个变量前后的变化,或者多个变量之间的比较,需要用到交叉表:
在“统计”下打开,可以在最左上角看到“卡方”,选择后就可以进行卡方检验了:
输出结果:
显著性是小于0.05的,所以说男女生的这次考试成绩存在显著差异,通过观察交叉表可知,女生成绩要高于男生成绩。
未完待续。
领取专属 10元无门槛券
私享最新 技术干货