在过去的几十年间,P值作为常用的统计学概念,一直活跃在临床研究中。尤其在假设检验中,我们经常见到这样的说法:因为P
关于P值,教科书会告诉你“它是在零假设成立的条件下,出现统计量目前值及更不利于零假设数值的概率。也就是当零假设成立时,我们凭借样本中所见去拒绝零假设(下阳性结论),有可能犯假阳性错误,犯假阳性错误的概率就是P。当P值较小,表明“不大可能”犯假阳性错误,于是拒绝零假设”。
本文期望能为研究者正确理解P值提供帮助、提高临床试验结果报告质量,得到客观准确的研究结论。
案例分析:
如研究中所示,TL组和TC组不良事件发生率分别为91.38%和100%,P=0.0221<0.05。你会想到怎样的结果,脑海中是否会浮现出以下几类陈述?
1、零假设(“TL组和TC组不良事件发生率一致”)是绝对错误的,或者对立假设(“TL组和TC组不良事件发生率不一致”)是绝对正确的;
2、零假设(“TL组和TC组不良事件发生率一致”)有2.21%的可能性是真的;
3、根据上述信息可以算出对立假设为真的概率;
4、如果同样的实验重复很多遍,其中将有97.79%的实验获得统计学意义上显著的结果;
5、如果同样的实验重复很多遍,其中将有2.21%的实验获得统计学意义上显著的结果;
6、我们完全由于随机因素而得到这一结果的概率是2.21%。
事实上,上述陈述全都不够准确,下面我们逐个分析。
1、零假设(“TL组和TC组不良事件发生率一致”)是绝对错误的,或者对立假设(“TL组和TC组不良事件发生率不一致”)是绝对正确的。
原因:统计学永远没有绝对的答案。
2、零假设(“TL组和TC组不良事件发生率一致”)有2.21%的可能性是真的。
原因:这是关于P值较为常见的误区。大家都知道P值很低时,拒绝原假设,P值不就是代表假设有几分真吗?并不。对原假设而言,它为真的概率是固定的。而0.0221是根据具体的样本计算出来的,在不同样本中重复同样的试验,会得到不同的P值,因此P值不可能是零假设。P值只是描述样本与零假设的相悖程度,以此为依据对零假设的真假做出一个判断。
3、根据上述信息可以算出对立假设为真的概率。
原因:频率主义统计学只考虑数据与假设的相符程度,并不对假设本身成立与否的概率作出推断。
4、如果同样的实验重复很多遍,其中将有97.79%的实验获得统计学意义上显著的结果。
原因:P值与统计结果的可重复性没有关系。统计结果的可重复性依然取决于零假设为真的概率,但我们不能从P值中推出这个概率。
5、我们完全由于随机因素而得到这一结果的概率是2.21%。
原因:前面需要加上“在零假设成立的前提下”,这一结论才正确。
P值提供的信息有限,临床试验在获得主要疗效P值后,绝不可轻易做阳性或阴性的决断结论,P值只关心数据与原假设之间多不一致。但是,如果某种效应或差异存在,P值不能准确地告诉我们效应的大小,更不能告诉我们这效应是否具有实际意义。
统计报告中不能仅仅给出P值,还需要给出相应的效应大小(比如均值的差、回归系数、OR值等等)及置信区间。结合研究背景、研究设计、研究实施、多种数据分析结果做综合的推断,才能得出相对客观、可信的推断。
领取专属 10元无门槛券
私享最新 技术干货