首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >数分人必知必会 | 分析方法:假设检验

数分人必知必会 | 分析方法:假设检验

作者头像
做数据的二号姬
发布2025-09-04 11:09:55
发布2025-09-04 11:09:55
1210
举报

原创内容

No.776

数分人必知必会 | 分析方法:假设检验

做数分怎么可以不会假设检验呢?

图片由夸克AI绘制

假设检验是绝对符合这个系列标题的一集:数分人必知必会。如果是你在泛数据分析这个行业,假设检验基本是一门必修的技术,虽然直接使用的场景不多,但是间接使用的场景还是很多的。

假设检验的思想类似于数学中的“反证法”和法庭上的“无罪推定”。

  • 先立一个假设:我们首先假设一个立场(比如,被告无罪);
  • 寻找证据:然后我们收集证据(数据)来审视这个假设;
  • 判断证据强度:如果找到的证据与我们的初始假设极度矛盾(比如,在案发现场发现了他的指纹、DNA,且有目击证人),那么我们就有理由拒绝最初的假设;
  • 做出结论:如果证据不足,我们则不能拒绝初始假设(但也不等于证明它完全正确)。

在很多业务分析场景中,我们试图分析的问题就是一个假设检验:比如两种营销策略哪种更好,不同年龄段的客户消费偏好有差异,新算法效果比旧算法好,新药疗效比旧药疗效好……

假设检验是这是一个非常统计学的分析方法,这个假设的立场就是我们一般说的零假设。

在统计学上,我们通常用符号H₀来表示,通常是想要反驳的、默认成立的、或表示“没有效果”、“没有差异”、“没有变化”的假设。

比如我想证明A策略比B策略好,那我旧可以假设A策略没有比B策略好(注意,这里假设A没有B更好而不是假设A比B要差,因为还有A和B差不多这种情况);我想证明90后和80后的购买行为有差异,我就可以假设80后和90后的购买行为没有差异。

和原则对应的,我们用备择假设(符号表示:H₁ 或 Hₐ)来表示与零假设对立,是研究者想要支持的假设。表示“有效果”、“有差异”。

接下来就是根据一些统计学上的计算来计算出P值。

P值的含义是在零假设H₀为真的条件下,观察到当前样本数据或更极端数据的概率。我们可以通俗地理解为,P值越小,说明当前观察到的结果在“零假设成立”的那个世界里越不可能发生。 这反过来成为了反对零假设的有力证据。

通常我们会预先设定一个显著性水平α,如果P值 < α,我们就拒绝零假设(也就是想要证明两者的差异成立)。

统计学上,我们常用0.05或者0.01、0.001作为假设检验的阈值,但是在商业分析的场景下,我们很少能遇到小于0.05的场景。因此,在商业分析场景下这个阈值的处理会更加灵活。

阈值的选择意味着我们要承担的决策错误的风险。通常来说这个错误有两类:误杀好人和放走一个。通常情况下这两类错误是此消彼长的,如果想要让两钟错误的概率都下降通常只能选择增加样本量再次分析以得到更加精准的结论。

对商业决策来说,很多时候我们要做得不是同时降低两类错误的可能性,而是在两类错误中做一个取舍:到底是弃真对我的损失更大还是取伪对我的损失更大。这也就是商业分析和统计分析之间一个很大的区别点了,商业分析并不纠结于结论是否可以代表真理,而是纠结于如何进行决策,在两种错误之间做出决断和平衡。

在这一点上就像极了人生,没有什么选项是绝对正确的,也没有什么选项是双赢的,我们只能做得事情就是做取舍罢了。

至于P值是怎么来的,就比较复杂了,是根据样本数据计算出的一个值,用于衡量样本结果与零假设之间的差异程度(例如,z值、t值)。它服从某种已知的抽样分布(如正态分布、t分布),通过它可以计算出P值。

选择检验方法主要取决于以下三个核心问题:

数据类型是什么?

  • 连续数据:如身高、体重、温度、销售额、考试成绩等。通常可以计算平均值和标准差
  • 分类数据:如性别(男/女)、是否合格(是/否)、产品类型(A/B/C)等。通常计算的是频数和比例

你要比较什么?(研究目标)

  • 比较均值?(例如:两个班级的平均分是否有差异?)
  • 比较比例?(例如:两种营销策略的转化率是否有差异?)
  • 比较分布或相关性?(例如:收入和学历是否有关联?)

数据的设计和前提条件?

  • 组数:是1组、2组还是多于2组?
  • 独立性:数据是来自不同的个体(独立样本)还是来自同一个体的不同测量(配对样本/重复测量)?
  • 前提条件:数据是否满足某些假设(如正态性、方差齐性)?这决定了使用参数检验(要求满足假设)还是非参数检验(不要求满足假设)

用于连续数据(比较均值),我们可以使用参数检验的方法(要求数据大致符合正态分布):

对于参数检验的假设不符合的时候,我们也可以蚕蛹非参数检验的方法:

如果是分类数据,可以采用这些检验的方法:

总的来说,参数检验和非参数检验的差异是这样的:

实操的过程中,我们可以按照这么个步骤进行执行:

  • 明确你的研究问题和数据类型
  • 检查你的数据是否满足参数检验的假设(如正态性、方差齐性)
    • 正态性检验:Shapiro-Wilk检验、Kolmogorov-Smirnov检验
    • 方差齐性检验:Levene's检验
  • 如果满足假设,优先使用参数检验(如t检验、ANOVA),因为它的检验效能更高。
  • 如果不满足假设,则使用对应的非参数检验(如Mann-Whitney U检验、Kruskal-Wallis H检验),虽然效能低,但结论更稳健。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-08-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 做数据的二号姬 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档