本节主要聚焦单样本Wilcoxon符号秩和检验,首先咱们先简单介绍一下什么叫做参数检验和非参数检验,然后介绍一下什么叫做秩次和秩和,接着正式讲解Wilcoxon符号秩和检验的含义和作用,最后通过一个小的案例来看一下这个检验如何通过Python代码实现。
参数检验
假定样本数据来自具有特定分布(一般是假设服从正态分布)的总体,然后通过构造出来的估计量对总体的集中趋势和离散程度的参数进行检验,例如总体均值、总体方差和总体标准差等。
非参数检验
不需要假定总体分布的形式,用到排秩(排序)的思想来规避分布未知带来的问题,直接对数据的分布和总体参数进行检验。
注:由于参数检验的精确度高于非参数检验,因此在数据符合参数检验的条件时,仍优先采用参数检验。
01
秩次
将数据从小到大依次排序。
举一个例子:把A组和B组数据统一排序(见下表),并标记出它们的次序(即秩次):
02
秩和
A组的秩和: 4 + 5 + 8 + 9 + 10 = 7.2
单样本Wilcoxon符号秩和检验
单样本的Wilcoxon符号秩和检验:该检验属于非参数检验,一般用在数据呈现非正态分布的情况下,主要用来对总体均值进行检验,当数据呈现正态分布时,一般使用单样本t检验或者z检验(这两种检验均属于参数检验)。
01
单样本Wilcoxon符号秩和统计量思想
1、首先把样本与总体中位数(理论值)的差值的绝对值|X1|、|X2|、|X3|……|Xn|进行排序,其顺序统计量为|X|(1)、|X|(2)、|X|(3)……|X|(n)
2.如果总体中位数确实等于给出的值,则其差值会关于零点对称,对称中心两侧数据的疏密和取负值的数据交错出现,取正值数据在样本绝对值样本中的秩和与取负值数据在绝对值样本中的秩和应近似相等
3.在求得正值秩和和负值秩和后,通过较小秩和和自由度(n-1)查询相应T界值表,获得相应P值
02
案例
根据如下采集到的样本,请判断:健康妇女的日常能量摄入平均为7725KJ这一论断是否正确?
第一步:
计算每个观测值和感兴趣的值的差异,如上表:表格第三列是观测值和感兴趣的值7725的差值
第二步:
忽略差异的符号,将它们按照大小排序,如上表:表格第四列是差异由小到大秩次的排列顺序,假如数值相同,取平均值即可,比如:表格中出现两个210,那么他们的秩次等于:(1+2)/2=1.5
第三步:
在求得正值秩和和负值秩和后,通过较小秩和和自由度(n-1)查询相应T界值表,获得相应P值,比如:在本次案例中,负值的秩次秩和等于3+5=8,为较小秩和。
第四步:
代码实现,代码如下:
# 导包
from scipy import stats
d = [2255,2085,1545,1335,1210,920,210,210,-505,-1045]
stats.wilcoxon(d)
最后结果:WilcoxonResult(statistic=8.0, pvalue=0.048828125)
经过上边检验发现:该论断错误。