聊一聊AB Test,近些年在增长和数据领域比较流行的话题。
首先我们看下,为什么要做AB Test,一般有2个目的:
1、判断哪个更好:例如,有2个UI设计,究竟是A更好一些,还是B更好一些,我们需要实验判定
2、计算收益:例如,最近新上线了一个直播功能,那么直播功能究竟给平台带了来多少额外的DAU,多少额外的使用时长,多少直播以外的视频观看时长等
我们一般比较熟知的是上述第1个目的,对于第2个目的,对于收益的量化,计算ROI,往往对数据分析师和管理者非常重要。
对于一般实验,本质上就是流量均分为几个组,每个组赋予不同的策略,根据几个组数据,例如:留存、点击率、人均时长等核心指标,选择最好的策略。
------ 实验设计 ------
实验的几个基本步骤一般如下
------ 流量分配 ------
实验设计时,我们追求:
1、希望尽快得到实验结论,快速决策
2、希望收益最大化
3、用户体验影响最小
因此经常需要在权衡分配流量,一般有以下几个情况:
1、实验不影响用户体验:如UI实验、文案类实验等,一般可以均匀分配流量实验,可以快速得到实验结论
2、实验不确定性较强的实验:如产品新功能上线,一般需小流量实验,尽量减小用户体验影响,在允许的时间内得到结论
3、希望收益最大化的实验:如运营活动等,尽可能将效果最大化,一般需要大流量实验,留出小部分对照组用于评估ROI
根据实验的预期结果,大盘用户量,确定实验所需最小流量。这里涉及较多的数学计算,为了方便起见,一般找个专门计算样本量的网站就好。
举个例子:
1、以次日留存率为例,目前大盘留存率80%,预期实验能够提升0.2pp
注:也可为渗透率、留存率等等,只要是比例值就可以,如果估不准,此处可低估,不可高估,也就是0.2pp是预期能够提升的最小值
2、网站计算,最少样本量就是63W
注:这里的最少样本量,指的是最少流量实验组的样本量
3、如果我们每天只有5W的用户可用于实验,63 / 5 = 13天,我们需要至少13天才能够得到实验结论
注:5W的用户,每个实验组是5W用户,如果只有1个实验组,就是实验组+对照组至少10W
网址:https://www.evanmiller.org/ab-testing/sample-size.html
说明:
这里并不特别严谨,原则上同一个实验组样本之间应该是独立的,但实际上我们分多天实验,不同天相同用户重复计入了样本量,样本不独立。
初阶实验可以暂时这样计算,后续我会有专门的文章讨论这里,另外,对于其他类型指标样本量的计算,我们也在后续的文章另行讨论。
------ 实验效果分析 ------
我们以一个稍复杂点的运营活动实验为例,活动有方案1、方案2,同时为了量化ROI,对照组没有运营活动
作为活动策划者,实验效果的分析是最重要的环节,我们要知道哪个更好,还要回答很多问题:
1、方案1和方案2,哪个效果更好?
2、哪个ROI更高?
3、长期来看哪个更好?
4、不同群体有差异吗?
第1个问题:方案1和方案2,哪个效果更好?
我们要运用大学时候学习过的假设检验方法了
对于留存率、渗透率等漏斗类指标,采用卡方检验
网址:https://www.evanmiller.org/ab-testing/chi-squared.html
对于人均时长类等均值类指标,采用t检验
网址:https://www.evanmiller.org/ab-testing/t-test.html
通过上面的假设检验,如果结论置信,我们就能够得到方案1和方案2在哪项指标更好(有显著性差异);
如果不置信,则说明尽管方案1和方案2的指标可能略有差异,但很可能是数据正常波动产生。
第2个问题:哪个ROI更高?
一般情况下,大型的运营活动,有活动相比无活动,留存、人均时长等各项指标均会有较明显提升,显著检验都能够通过,我们不再重复上述的假设检验过程。
对于ROI的计算,成本方面,每个实验组成本可以直接计算。
对于收益方面,就要和对照组相比较,假定以总日活跃天(即DAU按日累计求和)作为收益指标,需要假设不做运营活动,DAU会是多少,需要以下步骤:
1、实验组假设不做活动日活跃天 = 对照组日活跃天 * (实验组流量 / 对照组流量)
2、实验组收益 = 实验组日活跃天 - 实验组假设不做活动日活跃天
这样就可以量化出每个方案的ROI。
第3个问题:长期来看哪个更好?
这里就要考虑新奇效应的问题了,一般在实验上线前期,用户因为新鲜感,效果可能都不错,因此在做评估的时候,需要观测指标到稳定态后,再做评估。
例如有的时候出现,刚刚上线前期,实验组效果更好,但是经过一段时间,用户的新鲜感过去了,实验组的效果可能更差,因此,从长远收益来看,我们应该选择对照组,是实验组的新奇效应欺骗了我们。
在做实验分析时,应剔除新奇效应的部分,待平稳后,再做评估。
第4个问题:不同用户群体有差异吗?
很多情况下,对新用户可能实验组更好,老用户对照组更好;对年轻人实验组更好,中年人对照组更好。
作为数据分析师,分析实验结论时,还要关注用户群体的差异。
说明:初学者可以简单的分群对比差异,在数据专业方面叫「维度下钻」,现在先进的实验分析方法已经可以实现自动维度下钻和方差缩减,后续我们有时间再详细介绍。
------ 实验结束 ------
实验结束后,反馈结论同时,还要充分利用实验数据探索分析,一般:
1、反馈实验结论,包括直接效果(渗透、留存、人均时长等)、ROI
2、充分利用实验数据,进一步探索分析不同用户群体,不同场景下的差异,提出探索性分析
3、对于发现的现象,进一步提出假设,进一步实验论证
------ 更高级的实验 ------
对于长线业务,可能同时有数十个实验同时进行,不但对比每项小迭代的差异,同时对比专项对大盘的贡献量、部门整体对大盘的贡献量,这样就需要运用到了实验的层域模型,详见下一篇文章介绍。
例如:
1、对比每个产品细节迭代的结果
2、对比每个专项在一个阶段的贡献
3、对比整个项目在一个阶段的贡献
感谢阅读,欢迎讨论,可关注公众号后留言。