衡量业务表现有很多的指标,比如均值类指标、比例类指标等。不同的指标类型,服从不同的概率分布,我们需要通过一个合理的检验方法,了解指标本身的离散程度,才能知道当指标发生变化的时候,是不是说明实验是显著的还是自然的波动。所以在进行AB实验的过程中,需要使用不同的假设检验方法。
最常见的均值类(Mean)指标,比如用户的人均时长、平均购买金额等。中心极限定理是均值类指标的特性,当样本容量足够大时,均值类指标会趋近于正态分布。但是,有个问题是我们做实验只能抽样做实验,没有办法在总体上进行实验。所以总体的方差对我们是不可知的,在进行均值类指标的假设检验时,会选用T检验。 T检验的来源也即是根据小样本来估计总体均值。最普通的单样本t检验就是通过样本均值来检验总体均值是否大于某个值。
而在AB实验中,实验组和对照组的比较,会使用两总体均值的T检验来检验实验组的变化是否显著。
比例类(Proportion)指标比如UV转化率、次日留存率等,一般是“某条件下用户去重计数 / 用户去重计数”,使用的是两总体比例的T检验。比如对于单个用户的留存行为,结果只有两种:要么发生,要么不发生。n次试验中成功次数的概率满足二项分布。
当样本容量n很大时候,样本比率的抽样分布近似服从正态分布,因此我们可以使用Z检验来检验两个总体比例相等的假设是否成立。
设两个总体服从二项分布,这两个总体中具有某种特征单位数的比例分别为
和
,但总体的比例未知,我们可以知道样本比例为
和
。
原假设的表达式为
。在原假设成立的条件下,方差是
,其中
是合并两个样本的比例估计量:
,
表示样本
中具有某种特征的单位数,
表示样本
中具有某种特征的单位数。
最后给出统计量
样本量类(Count)指标,比如DAU、点击UV等。对于此类样本量类的指标,因为不适用于中心极限定理,我们也不能近似它为某一种分布类型,就会使用非参数假设检验(不要求总体的分布以特定参数为特征的假设检验)来进行检验,如卡方检验。
chi-square的计算公式如下,其中O代表观测值(observed value), 代表期望值(expected)。n代表实验方案数量。
卡方检验常用于验证两个变量抽出的配对观察组是否相互独立。在我们的场景中,假如我们要观察实验组和对照组,点击UV是否有差别。即检验两个变量(变量1是不同组,变量2是点击UV)是否独立。零假设是:没有差别,点击UV和不同组没有关系。
我们计算出
和自由度,就能计算卡方分布的P值,根据P值的大小判断是否显著,如果不显著则无法拒绝原假设。
参考: 1. https://www.zhihu.com/question/54444591 2. wiki百科-卡方检定 3. https://www.jianshu.com/p/9ff6f9c4fb14