首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

显著性检验可能是片面的吗?

显著性检验是一种统计方法,用于判断两个或多个样本间的差异是否显著,即这些差异是否不太可能仅由随机变异造成。显著性检验的结果通常以p值表示,p值越小,表明观察到的数据与零假设(null hypothesis)之间的差异越大,拒绝零假设的证据越强。

显著性检验可能的片面性:

  1. 零假设的局限性:显著性检验通常围绕零假设进行,即假设两组之间没有差异。这种假设可能过于简化,无法捕捉到数据中的复杂关系。
  2. p值的误用:p值只是一个衡量标准,并不直接说明效应的大小或实际意义。有时研究者可能过分依赖p值来做出结论,忽略了效应量的重要性。
  3. 多重比较问题:在进行多个显著性检验时,发生假阳性的风险会增加。如果没有进行适当的校正(如Bonferroni校正),可能会错误地认为某些无意义的差异是显著的。
  4. 样本大小的影响:大样本量可能导致即使是很小的效应也被认为是显著的,而小样本量可能使真正的效应被忽视。
  5. 数据挖掘和选择性报告:研究者可能会尝试多种统计方法,只报告那些得到显著结果的,这种做法称为p-hacking,会导致研究结果的不可靠性。

解决方法:

  1. 考虑效应量:除了p值外,还应考虑效应量的大小,这有助于理解实际的研究意义。
  2. 使用多重比较校正:在进行多个显著性检验时,应使用适当的多重比较校正方法,如Bonferroni校正或False Discovery Rate (FDR) 控制。
  3. 透明度和预注册:研究设计应事先明确,并在研究开始前预注册,以减少数据挖掘和选择性报告的可能性。
  4. 贝叶斯方法:贝叶斯统计提供了一种不同的框架来评估证据,它考虑了先验知识,并且可以直接给出效应存在的概率,而不是仅仅依赖于拒绝零假设。

应用场景:

显著性检验广泛应用于医学研究、社会科学、生物学、经济学等领域,用于确定实验或观察结果是否具有统计学意义。

示例代码(Python):

代码语言:txt
复制
import scipy.stats as stats

# 假设我们有两个样本数据
sample1 = [1, 2, 3, 4, 5]
sample2 = [6, 7, 8, 9, 10]

# 进行t检验
t_statistic, p_value = stats.ttest_ind(sample1, sample2)

print(f"t-statistic: {t_statistic}")
print(f"p-value: {p_value}")

# 如果p值小于显著性水平(如0.05),则拒绝零假设
alpha = 0.05
if p_value < alpha:
    print("拒绝零假设,样本间存在显著差异")
else:
    print("无法拒绝零假设,样本间无显著差异")

参考链接:

通过上述方法和注意事项,可以更全面地理解和应用显著性检验,减少其片面性带来的影响。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

p 值是什么?数据科学家用最简单的方式告诉你

在假设检验中,常用 p 值确定结果的统计显著性。 我们的最终目标是确定结果的统计显著性。...而要知道声明是否有效,就要用 p 值来衡量证据的强度,从而了解到它是否有统计显著性。如果证据支持备择假设,那就拒绝零假设并接受备择假设。后面的章节中会解释这些内容。...还记得文章开头说的发现希格斯玻色子的「5-sigma」阈值?在科学家证实发现希格斯玻色子之前,5-sigma 约为数据的「99.9999426696856%」。...这就是解决这个难题的最后一拼图——p 值。根据实验开始前设定的显著水平(alpha)检验结果是否具有统计学意义。...p 值越低,结果越有意义,因为它不太可能是由噪声引起的。 大多数人对于 p 值都有一个常见的误解: p 值为 0.03 意味着有 3%(概率百分比)的结果是偶然决定的——这是错误的。

54620

p值是什么?统计学家用最简单的方式告诉你

在假设检验中,常用 p 值确定结果的统计显著性。 我们的最终目标是确定结果的统计显著性。...而要知道声明是否有效,就要用 p 值来衡量证据的强度,从而了解到它是否有统计显著性。如果证据支持备择假设,那就拒绝零假设并接受备择假设。后面的章节中会解释这些内容。...还记得文章开头说的发现希格斯玻色子的「5-sigma」阈值?在科学家证实发现希格斯玻色子之前,5-sigma 约为数据的「99.9999426696856%」。...这就是解决这个难题的最后一拼图——p值。根据实验开始前设定的显著水平(alpha)检验结果是否具有统计学意义。...p值越低,结果越有意义,因为它不太可能是由噪声引起的。 大多数人对于 p 值都有一个常见的误解: p 值为 0.03 意味着有 3%(概率百分比)的结果是偶然决定的——这是错误的。

1.2K20
  • p 值是什么?数据科学家用最简单的方式告诉你

    在假设检验中,常用 p 值确定结果的统计显著性。 我们的最终目标是确定结果的统计显著性。...而要知道声明是否有效,就要用 p 值来衡量证据的强度,从而了解到它是否有统计显著性。如果证据支持备择假设,那就拒绝零假设并接受备择假设。后面的章节中会解释这些内容。...还记得文章开头说的发现希格斯玻色子的「5-sigma」阈值?在科学家证实发现希格斯玻色子之前,5-sigma 约为数据的「99.9999426696856%」。...这就是解决这个难题的最后一拼图——p 值。根据实验开始前设定的显著水平(alpha)检验结果是否具有统计学意义。...p 值越低,结果越有意义,因为它不太可能是由噪声引起的。 大多数人对于 p 值都有一个常见的误解: p 值为 0.03 意味着有 3%(概率百分比)的结果是偶然决定的——这是错误的。

    74620

    被Nature科学家封杀的P值,到底有什么意义?

    P值在潜移默化地影响着我们的生活,那么有没有想过我们所依赖的P值到底可靠?...统计显著性 假设检验 假设检验 在讨论P值的含义之前,让我们先理解下假设检验吧。P值是用于确定我们结果的统计显著性的,而我们的最终目标就是要确定我们结果的统计显著性。...因为我们只关心平均配送时间是否大于30分钟,所以我们这里使用单侧检验。因为我们只想知道配送时间大于30分钟的可能性,所以忽略配送时间不大于30分钟这一方面的可能性。...我很喜欢Will Koehrsen的说法——Z得分越高或是越低,结果就越不可能是偶然发生的,结果也就越有意义,但是,Z得分究竟为多少时,才能确保我们的结果是有意义并且可以量化的呢?...但是,为了理解这个神秘的p值,以及它是如何应用到假设检验中去的,你们还是不能把先前说到的那些一股脑儿地还给我。 如果你还记得上面的内容,那么恭喜你,接下来你读到的会是这篇文章中最精彩的部分。

    77050

    统计学速成班:谷歌首席决策工程师的一分钟入门指南

    是基于假设检验还是基于先验信念?或者也有可能你没有任何看法,大脑一空白。 贝叶斯学派从先验信念的角度看待问题。 贝叶斯统计学通过结合数据来更新人们对事物的先验信念。...进行假设检验,我们只需要将P值与显著性水平进行比较。这就像是一个旋钮,可以用来控制我们承受风险的大小。显著性水平指当原假设正确时,人们却因拒绝它而犯错的上限概率。...如果你将显著性水平设置为0,那么就意味着你拒绝了备择假设。那么停下笔吧!别分析数据了,直接按默认方法去做吧。(但坚持默认做法也有可能是错误的。) ? 如何使用P值来获取假设检验的结果。...如果P值小于显著性水平,拒绝原假设;如果P值大于显著性水平,接受原假设。 置信区间可以用来表示假设检验的结果。它的用法是,检验其是否与零假设重叠。如果重叠,那么就意味着我们没有得到任何新结论。...目前分为两种流派,更常见的是频率统计派——检验你是否应该拒绝你的原假设。贝叶斯统计派则是根据数据更新先验信念。如果你在开始分析数据之前大脑一空白,那就先看看你的数据,然后跟着直觉走吧。

    38460

    SPSS扫清障碍:区分T检验与F检验

    如 p=0.05 提示样本中变量关联有 5% 的可能是由于偶然性造成的。...每一种统计方法的检定的内容都不相同,同样是t-检定,可能是上述的检定总体中是否存在差异,也同能是检定总体中的单一值是否等於0或者等於某一个数值。...它主要用于:均数差别的显著性检验、分离各有关因素并估计其对总变异 的作用、分析因素间的交互作用、方差齐性(Equality of Variances)检验等情况。 4....T 检验和 F 检验的关系 t 检验过程,是对两样本均数(mean)差别的显著性进行检验。惟 t 检验须知道两个总体的方差(Variances)是否相等;t 检验值的计算会因方差是否相等而有所不同。...所有的检验统计都是正态分布的并不完全如此,但大多数检验都直接或间接与之有关,可 以从正态分布中推导出来,如 t检验、f 检验或卡方检验

    2.3K170

    800 名科学家联名主张废除 p 值!斯坦福教授直言,没有p值,期刊将充斥“无可辩驳的废话”!

    统计显著性和p值是衡量研究可靠性的重要标准。这个标准是怎么来的?今年3月Nature上一篇主张废除p值的文章,为何获得800位科学家联名支持?如果没有p值门槛,研究质量会出现大滑坡?...他在书中着重讲到研究人员应如何将统计检验理论应用于实际数据,以便基于数据得出他们所发现的结论。当使用某个统计假设来做检验时,该检验能够概述数据与其假设的模型之间的兼容性,并生成一个p值。...大学里好不容易听懂的统计学,会变成一件没“意义”的事情? 为什么要放弃统计学显著性的概念? ?...他们认为:“麻烦是人为的和认知层面的,而不是统计学上的:将结果分类为'统计显著'和'统计不显著',使人们认为以这种方式划分的对象属于不同类别。”...他认为,设立一定的门槛是有必要的,如果没有“统计显著性”作为界限,那么几乎任何结果都可能会发表,“无可辩驳的废话”将会占据统治地位。 “放弃统计学意义”真的是个好主意

    64310

    讲讲大厂面试必考的假设检验

    拿上面的女士品茶例子来讲。 H0:把茶加到奶里和把奶加到茶里面得到的『奶茶』是一样的。 H0:把茶加到奶里和把奶加到茶里面得到的『奶茶』是不一样的。...还记得我们在前面提到的小概率事件?...双侧检验 单侧检验 到这里显著性水平对应的临界值和拒绝域就算出来了。 step4:计算检验统计量 根据我们在前面选择检验统计量类型,计算对应的检验统计量的值。...比较计算出来的P值和显著性水平α值,如果P值小于等于α,则拒绝零假设,否则接受原假设。 上面两种方法分别叫做统计量检验和P值检验。 以上就是假设检验的一般流程。...这可能是今年最值得入手的一本思维导图书架构实践全景图 知识图谱上的图神经网络 ▼点击阅读原文,获取本书详情~

    40810

    最简单的统计学之取交集

    在:换一个分析策略会导致文章的全部论点都得推倒重来,我们把一个单细胞转录组数据集进行基础的降维聚类分群,并且针对里面的上皮细胞亚群进行细分亚群,而且在 肿瘤单细胞转录组拷贝数分析结果解读和应用我们根据拷贝数情况判断了其中...LAMP3-epi 93 4 6 86 14 secretory 89 11 7 91 7 其中cycle的肿瘤单细胞亚群里面的特异性高表达量基因集合里面的超过一半都是有生存分析的统计学显著性...跟前面的:关键单细胞亚群辅助判定之生存分析 过程有异曲同工之妙哈 虽然说我们上面展现的是肿瘤单细胞亚群里面的特异性高表达量基因集合在生存分析基因集的个数,但是它实际上是一个交集的简化版,其实这个交集还可以有一个统计学显著性判断方式...,在统计学中,要判断两个集合取交集的结果是否显著,通常需要进行一定的假设检验或者计算一些统计量来评估这种显著性。...这个检验考虑了抽样的随机性。 Bootstrap方法:Bootstrap方法可以用于估计两个集合交集的显著性。它通过对样本进行重抽样来估计交集的分布,并计算置信区间或p值来判断显著性

    28610

    Python工具推荐 | 古气候时间序列库-Pyleoclim

    大概就分为了两部分,第一是数据的预处理,比如有的古气候数据需要去除趋势啥的,要标准化啥的那些,预处理完成之后就进入分析环节,看下图提供了谱分析及其显著性检验,小波变换和小波相干分析及其显著性检验,接着还有呢...接下来就简单介绍一下里面的某些方法 ? 这个是数据的标准化 ? 这个是谱分析,默认的方法是wwz,Weighted Wavelet Z-transform。...显著性检验 ? 这个是小波周期分析及其显著性检验,这里的检验一般用蒙特卡罗方法 ? 这个是相干分析,相干,顾名思义,需要的数据长什么样就很容易理解了,箭头代表相位关系,相干值介于0-1之间。...想实现上面的方法,虽然matlab也能实现,而且安装很容易,但是Python现在也可以了,就是安装烦了啊,老是安装不上。

    1.1K30

    10个必知必会的统计学问题 (附答案)

    如P=0.05提示样本中变量关联有5%的可能是由于偶然性造成的。即假设总体中任意变量间均无关联 我们重复类似实验,会发现约20个实验中有一个实验,我们所研究的变量关联将等于或强于我们的实验结果。...6、问:所有的检验统计都是正态分布的? 答:并不完全如此,但大多数检验都直接或间接与之有关,可以从正态分布中推导出来,如t检验、F检验或卡方检验。...发生第一类错误的概率被称作显著性水平,一般用α表示,在进行假设检验时,是通过事先给定显著性水平α的值而来控制第一类错误发生的概率。...,和给定的显著性水平,确定拒绝域及其临界值; 5)比较这次抽样中检验统计量的值与临界值的大小,如果检验统计量的值在拒绝域内,则拒绝假设; 到这一步,假设检验已经基本完成,但是由于检验是利用事先给定显著性水平的方法来控制犯错概率的...通过直接比较P值与给定的显著性水平α的大小就可以知道是否拒绝假设,显然这就代替了比较检验统计量的值与临界值的大小的方法。

    2.2K20

    没有最好,只有AB测试!

    这边问几个简单的问题: A/B 测试不是基于假设检验?假设在哪儿呢?检验在哪儿? 这个 z 值公式哪来的? 为了搞清楚这些问题,我们继续探究。 2....我们再用上面的数据走下流程。 首先,我们做一个假设: 原假设 :实验组和对照组无显著差异; 备择假设 :实验组和对照组存在显著差异。...我可能还会有一些疑问,比如说: 什么是双侧检验? 为什么 z 检验适用大样本,而 t 检验适用小样本? 四格表不是应该用卡方检验? 2.2 检验方式 检验方式分为两种:双侧检验和单侧检验。...值得注意的是,置信区间同为正或负时,只能说明试验是统计显著的(也就是试验组和对照组有差异),但是这个差异有可能是非常小,在实际应用中微不足道的。...统计量好理解,比如上面的实验统计量为:[0, 0.28],如果你的实验的统计量为 [0.2, 0.48],自然范 II 类错误的概率会小很多; 增加样本容量可以同时减少两类错误,这个也很好理解; 与 I

    1.6K30

    科学家们真的在反对统计学意义

    科学家们真的是在反对统计学意义? 答案显然是否定的。...首先这篇评论的题目应该准确翻译为“科学家们奋起反抗统计学显著性”,这里的significance特指统计检验显著性,也即我们平常所指的显著性检验的结果为显著或者不显著。...(认为是不可能发生的事件)发生了,可以推翻零假设,而零假设不成立是有差异、有功效的充分必要条件,这时候我们认为具有显著性差异。...即使按照现行通用的p=0.05作为阈值,实验数据检验中p=0.51和p=0.49有什么不可逾越的鸿沟;此外,小概率事件不发生则无法推翻零假设,也无法证明零假设,同样也不能推翻非零假设,p>0.05也不是检验结果不显著的充分必要条件...也即,在通用显著性检验中p0.05是无法证明检验结果不显著的。通俗来说就是显著性检验是为了检验显著性而使用的方法,并不能用来检验显著性

    43720

    统计学10个必知问题 (附答案)

    如P=0.05提示样本中变量关联有5%的可能是由于偶然性造成的。即假设总体中任意变量间均无关联 我们重复类似实验,会发现约20个实验中有一个实验,我们所研究的变量关联将等于或强于我们的实验结果。...6、问:所有的检验统计都是正态分布的? 答:并不完全如此,但大多数检验都直接或间接与之有关,可以从正态分布中推导出来,如t检验、F检验或卡方检验。...发生第一类错误的概率被称作显著性水平,一般用α表示,在进行假设检验时,是通过事先给定显著性水平α的值而来控制第一类错误发生的概率。...,和给定的显著性水平,确定拒绝域及其临界值; 5)比较这次抽样中检验统计量的值与临界值的大小,如果检验统计量的值在拒绝域内,则拒绝假设; 到这一步,假设检验已经基本完成,但是由于检验是利用事先给定显著性水平的方法来控制犯错概率的...通过直接比较P值与给定的显著性水平α的大小就可以知道是否拒绝假设,显然这就代替了比较检验统计量的值与临界值的大小的方法。

    52120

    增长黑客AB-Test系统(五)——AB-Test 双样本显著性计算

    1)A-A组z检验: A-A组试验的目的是为了确认我们的随机样本分流是否平衡,如果A-A组试验存在显著性差异,则表示分流失败,试验的可信度降低,严重情况下存在试验失效的风险,因此我们需要进行A-A...2)A-B组z检验: A-A试验的目的是为了查看显著性,即谁高谁低并没有太多差异,所以在进行显著性检验时可以采用双尾检验,只进行是否显著的查看,但是在A-B试验中,我们除了查看两个试验组是否有显著性差异...Z<=Z0.1,则拒绝原假设,AB方案没有显著性差异; 双样本的t检验计算 ?...1)A-A组t检验: Z检验中我们通过计算总体方差得到z值,与此同时,随着试验的不停推进,样本数据也会积累出一定的数据量,使用样本方差,我们也可以进行一定的显著性比较,在A-A试验中t检验的计算过程得出如下...● 你相信逛B站也能学编程 ? 点击阅读原文,即可参与京东100-50购书活动

    3K30

    感染新冠病毒(COVID-19)看血型?

    面的数字都是什么意思,大家知道? 要理解这些数据的含义,我们首先要明确一个概念:卡方检验。 卡方检验是一种统计量的分布在零假设成立时,近似服从卡方分布的假设检验。...检验观测样本和零假设下推导出的分布数据是否具有显著性差异—— 若有,则拒绝零假设,接受备择假设; 若无,则接受零假设。 过程-1 这里又出现了一个新的概念:显著性差异。...当显著性水平为5%时,置信度则为 1 - 5% = 95%。 ”置信度为95%”表明:有95%的概率可以确定置信区间包含所有样本。 说了这么多,还是不知道卡方检验是怎么回事啊。...检验观测样本和零假设下推导出的分布数据是否具有显著性差异 【计算实际的χ2值】 卡方检验就是将我们已经掌握的理论值和实际观测值都带入到下列函数中,计算实际的χ2值。 ?...若P值低于我们定义的显著性水平阈值 ,则说明观察值与理论值偏离程度太大,应当拒绝零假设;否则不能拒绝原假设。 这里可以理解

    1.1K20

    AB Test 的统计原理和效果解读

    例如,抛一次硬币是正面向上?新出生的小孩是女孩?大部分率指标如发单率、应答率等都满足这种分布 (一个用户只有发单或不发单两种情况)。...「中心极限定理是概率论的重要定理,它是接下来谈到的显著性检验的基础」。...更 smart 的表述可能是这样的: ❝我认为实验组转化率相比对照组转化率高 0.8-1.2%(1% ± 0.2 %), 置信度为 95%。...通过上面的例子,我们知道置信区间的上届是样本均值 + 抽样误差,下届是样本均值 - 抽样误差,95% 置信度下的抽样误差是 1.96 * 样本标准差。...当得到了一个置信区间后,我们需要通过统计上的假设检验来判断这次抽样的结果是否具有统计上的显著性

    2K10

    数据分析中常见的数据陷阱 !!!

    读到这里相信读者心中也有疑问,有谁会范这样的错误,这不是傻?...真实这样?如果只是通过这样的简单分析就开始进入全量用户的广告投放,对某一性别的用户做特别的宣传,容错率是特别低的,若实验结论错误,是会给个人和团队甚至公司带来很大损失的。...在假设检验中如果得到 p 值小于显著性水平 α,则拒绝了原假设且认为这一策略是有效的,可称该次检验是“显著的”,若得到 p 值大于显著性水平 α,则同意了原假设认为这一策略是无效的,可称此次检验是“不显著的...同样再这个例子中,由于一个策略既有可能是有效的,也有可能是无效的,我们也可能拒绝有效的,也可能接纳了无效的,所以针对一次检验我们可能得到四种可能的结果: 若原假设为真但被拒绝(H0 is true but...在具体工作中肯定不会知道 R+Q 的具体值,但是会根据之前的经验和一些别的工作指标来将 m 次检验(或者对指标的检验)进行排序,设置显著性水平为(α/n)*i,i 表示排序时的参数,这是控制多重比较谬误时比较常用的方式

    1.9K11

    方差分析中的多因子交互作用

    多因子方差分析的因子交互作用可以这样理解,比如经常吃的消炎药头孢,通常会认为服用三要比服用一效果好,但经过实际验证测试发现,男女之间用药效果并不相同。...对于男性而言,吃三的效果好些,而对女性而言,吃一效果要更好。这种情况下,头炮剂量和性别之间便产生了了交互作用。...在回顾性实验研究中,由于事前无法对变量进行有效的控制,而且各因素对结果的影响程度也缺乏理论体系的支撑,即变量间的交互行为没有理论判断依据,这时可以只通过检验交互项是否显著来决定模型中是否纳入交互项。...其实,除非有理论认为交互项没有意义,否则一般都可以通过统计检验交互项的显著性去判断并决定要不要纳入交互项。...例如教育程度和年龄对收入都有影响,年龄和教育程度可能是相关的,但是年龄的变化对教育程度、对收入不存在影响; 3 调节变量:举个例子来说明,例如公司福利费的投入对员工忠诚度的改善情况受到员工工资收入高低的影响

    2.4K20

    【机器学习笔记】:大话线性回归(二)

    开始线性模型的假设成立?如何验证这些假设?还会有其它问题会影响模型效果?带着这些问题我们开始本篇的内容。 线性回归拟合优度 线性回归假设检验 线性回归诊断 ▌线性回归拟合优度 1....根据我们前面的分析,SSR越高,则代表回归预测越准确,观测点越是靠近直线,也即 ? 越大,直线拟合越好。因此,判定系数的定义就自然的引出来了,我们一般称为R2。 ?...▌线性回归的显著性检验 要想知道我们根据样本拟合的模型是否可以有效地预测或估计,我们需要对拟合的模型进行显著性检验。回归分析中的显著性检验主要包括两方面内容:线性关系检验;回归系数检验。 1....(2)作出统计决策 与假设检验相同,如果给定显著性水平α,则根据两个自由度k和n-k-1进行F分布的查表。若 ? ,则拒绝原假设,说明发生了小概率事件,若 ? ,则不拒绝原假设。...回归系数检验 回归系数的显著性检验与线性检验不同,它要求对每一个自变量系数进行检验,然后通过检验结果可判断出自变量是否显著。

    1.9K60
    领券