统计学是一个令人畏惧的学科,但统计学不一定有那么难学。这些指南旨在让更多人掌握统计学工具。本文将展示如何计算A/B测试的样本量(效能检验)。阅读之前请熟悉抽样分布的概念(点击这里复习)以及比例的标准误差的计算方法(点击这里复习)。祝学习愉快!
假设我们要用A/B测试来决定是否采用主页的新设计。当前主页平均每天有200个独立访客以及5%的点击率 (Click-through-rate, CTR) 。预计新主页能带来至少7%的点击率。我们给两个变量分别分配50%的访问量:
分组 | 日独立访客量 | 点击率 |
---|---|---|
控制组主页 | 100 | 5% |
实验组主页 | 100 | ≥ 7% (估计值) |
这个测试需要多少天呢?
假设A/B测试只有7天,测试结束后每组都有700名访客。接下来计算零假设(总体CTR无差异)和备择假设(总体CTR存在真实差异)的样本分布。
第一步:计算现有的样本比例p
第二步:用p计算标准误差s
第三步:计算样本分布
分布图如下:
在0.05的显著性水平(𝛂)下,临界值为0.0249.这意味着:
1. 若样本CTR的绝对差大于0.0249,拒绝零假设(H0)。
2. 若样本CTR的绝对差小于或等于0.0249,不能拒绝零假设(H0)。
总结:
真假设 | 决定 | 决定类型 | 几率 |
---|---|---|---|
H0 | 拒绝 H0 | 第一类型错误 | 𝛂 (显著性) = 5% |
H0 | 不拒绝 H0 | 正确 | 1-𝛂 (置信度) = 95% |
HA | 拒绝 H0 | 正确 | 1-𝛃 (效能) = 35% |
HA | 不拒绝 H0 | 第二类型错误 | 𝛃 = 65% |
A/B测试只有7天,这导致无法检测出实验组CTR上升的几率达到65%。这个错误率太高了!一般来说,我们希望将错误率降低至20%,这相当于80%的效能。我们可以通过增加样本量来达成这一目的。
简要回顾:通过7天的A/B测试,每组收集到了700个独立访客的样本量,但是实验的效能只有35%。将效能提升至80%需要扩大样本量,这需要延长A/B测试的时间。
如果要使测试的效能达到80%,需要多大的样本量呢?
将零假设的样本分布转化为标准正态分布,让计算过程更加直观:
借助图表可能更容易理解:
真正的均值差是0.02,因此,标准化均数差等于0.02/se。我们可以建个等式来解出样本量n:
因此,每组需要2211个观测值。当每组的日访问量为100个独立访客时,测试时长至少要达到23天才能得到效能达到80%的实验结果。
简要回顾:利用标准正态分布,可以得出80%效能需要标准化均值差达到约2.8。套用标准误差的公式可以求得n,经计算,n=2211。
到这里,我们已经非常熟悉样本量计算(效能分析)的整体框架了。接下来,来看看如何将上述所有步骤简化为几行代码。在R中输入以下代码:
就会得到:
[1] "absolute difference (Test — Control)" 0.02[1] "pooled sample proportion" 0.06[1] "se" 0.0126942056522989[1] "standardized distance for requested power" 2.80158521811297[1] "solve for n" 2213.38408508644
本文系外文翻译,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文系外文翻译,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。