前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >浅谈AB Test实验设计——基础篇

浅谈AB Test实验设计——基础篇

作者头像
刘健阁
发布2021-08-13 13:11:20
3.4K0
发布2021-08-13 13:11:20
举报
文章被收录于专栏:阁下 HE

聊一聊AB Test,近些年在增长和数据领域比较流行的话题。

首先我们看下,为什么要做AB Test,一般有2个目的:

1、判断哪个更好:例如,有2个UI设计,究竟是A更好一些,还是B更好一些,我们需要实验判定

2、计算收益:例如,最近新上线了一个直播功能,那么直播功能究竟给平台带了来多少额外的DAU,多少额外的使用时长,多少直播以外的视频观看时长等

我们一般比较熟知的是上述第1个目的,对于第2个目的,对于收益的量化,计算ROI,往往对数据分析师和管理者非常重要。

对于一般实验,本质上就是流量均分为几个组,每个组赋予不同的策略,根据几个组数据,例如:留存、点击率、人均时长等核心指标,选择最好的策略。

------ 实验设计 ------

实验的几个基本步骤一般如下

------ 流量分配 ------

实验设计时,我们追求:

1、希望尽快得到实验结论,快速决策

2、希望收益最大化

3、用户体验影响最小

因此经常需要在权衡分配流量,一般有以下几个情况:

1、实验不影响用户体验:如UI实验、文案类实验等,一般可以均匀分配流量实验,可以快速得到实验结论

2、实验不确定性较强的实验:如产品新功能上线,一般需小流量实验,尽量减小用户体验影响,在允许的时间内得到结论

3、希望收益最大化的实验:如运营活动等,尽可能将效果最大化,一般需要大流量实验,留出小部分对照组用于评估ROI

根据实验的预期结果,大盘用户量,确定实验所需最小流量。这里涉及较多的数学计算,为了方便起见,一般找个专门计算样本量的网站就好。

举个例子:

1、以次日留存率为例,目前大盘留存率80%,预期实验能够提升0.2pp

注:也可为渗透率、留存率等等,只要是比例值就可以,如果估不准,此处可低估,不可高估,也就是0.2pp是预期能够提升的最小值

2、网站计算,最少样本量就是63W

注:这里的最少样本量,指的是最少流量实验组的样本量

3、如果我们每天只有5W的用户可用于实验,63 / 5 = 13天,我们需要至少13天才能够得到实验结论

注:5W的用户,每个实验组是5W用户,如果只有1个实验组,就是实验组+对照组至少10W

网址:https://www.evanmiller.org/ab-testing/sample-size.html

说明:

这里并不特别严谨,原则上同一个实验组样本之间应该是独立的,但实际上我们分多天实验,不同天相同用户重复计入了样本量,样本不独立。

初阶实验可以暂时这样计算,后续我会有专门的文章讨论这里,另外,对于其他类型指标样本量的计算,我们也在后续的文章另行讨论。

------ 实验效果分析 ------

我们以一个稍复杂点的运营活动实验为例,活动有方案1、方案2,同时为了量化ROI,对照组没有运营活动

作为活动策划者,实验效果的分析是最重要的环节,我们要知道哪个更好,还要回答很多问题:

1、方案1和方案2,哪个效果更好?

2、哪个ROI更高?

3、长期来看哪个更好?

4、不同群体有差异吗?

第1个问题:方案1和方案2,哪个效果更好?

我们要运用大学时候学习过的假设检验方法了

对于留存率、渗透率等漏斗类指标,采用卡方检验

网址:https://www.evanmiller.org/ab-testing/chi-squared.html

对于人均时长类等均值类指标,采用t检验

网址:https://www.evanmiller.org/ab-testing/t-test.html

通过上面的假设检验,如果结论置信,我们就能够得到方案1和方案2在哪项指标更好(有显著性差异);

如果不置信,则说明尽管方案1和方案2的指标可能略有差异,但很可能是数据正常波动产生。

第2个问题:哪个ROI更高?

一般情况下,大型的运营活动,有活动相比无活动,留存、人均时长等各项指标均会有较明显提升,显著检验都能够通过,我们不再重复上述的假设检验过程。

对于ROI的计算,成本方面,每个实验组成本可以直接计算。

对于收益方面,就要和对照组相比较,假定以总日活跃天(即DAU按日累计求和)作为收益指标,需要假设不做运营活动,DAU会是多少,需要以下步骤:

1、实验组假设不做活动日活跃天 = 对照组日活跃天 * (实验组流量 / 对照组流量)

2、实验组收益 = 实验组日活跃天 - 实验组假设不做活动日活跃天

这样就可以量化出每个方案的ROI。

第3个问题:长期来看哪个更好?

这里就要考虑新奇效应的问题了,一般在实验上线前期,用户因为新鲜感,效果可能都不错,因此在做评估的时候,需要观测指标到稳定态后,再做评估。

例如有的时候出现,刚刚上线前期,实验组效果更好,但是经过一段时间,用户的新鲜感过去了,实验组的效果可能更差,因此,从长远收益来看,我们应该选择对照组,是实验组的新奇效应欺骗了我们。

在做实验分析时,应剔除新奇效应的部分,待平稳后,再做评估。

第4个问题:不同用户群体有差异吗?

很多情况下,对新用户可能实验组更好,老用户对照组更好;对年轻人实验组更好,中年人对照组更好。

作为数据分析师,分析实验结论时,还要关注用户群体的差异

说明:初学者可以简单的分群对比差异,在数据专业方面叫「维度下钻」,现在先进的实验分析方法已经可以实现自动维度下钻和方差缩减,后续我们有时间再详细介绍。

------ 实验结束 ------

实验结束后,反馈结论同时,还要充分利用实验数据探索分析,一般:

1、反馈实验结论,包括直接效果(渗透、留存、人均时长等)、ROI

2、充分利用实验数据,进一步探索分析不同用户群体,不同场景下的差异,提出探索性分析

3、对于发现的现象,进一步提出假设,进一步实验论证

------ 更高级的实验 ------

对于长线业务,可能同时有数十个实验同时进行,不但对比每项小迭代的差异,同时对比专项对大盘的贡献量、部门整体对大盘的贡献量,这样就需要运用到了实验的层域模型,详见下一篇文章介绍。

例如:

1、对比每个产品细节迭代的结果

2、对比每个专项在一个阶段的贡献

3、对比整个项目在一个阶段的贡献

感谢阅读,欢迎讨论,可关注公众号后留言。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-07-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 阁下 HE 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云直播
云直播(Cloud Streaming Services,CSS)为您提供极速、稳定、专业的云端直播处理服务,根据业务的不同直播场景需求,云直播提供了标准直播、快直播、云导播台三种服务,分别针对大规模实时观看、超低延时直播、便捷云端导播的场景,配合腾讯云视立方·直播 SDK,为您提供一站式的音视频直播解决方案。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档