前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >AB实验的踩坑之路

AB实验的踩坑之路

作者头像
曲奇
发布于 2022-05-09 13:54:57
发布于 2022-05-09 13:54:57
1.3K0
举报
文章被收录于专栏:曲奇的博客曲奇的博客

AB实验是互联网行业产品功能优化和迭代常用的工具,覆盖了大部分的需求场景,如内容推荐、搜索、商业化、UI迭代等。从统计学的角度出发,AB实验本质上是使用假设检验去证明假设是否成立,从而达到验证我们想法的目的。本文记录了在日常使用AB实验中涉及到的一些比较常见的陷阱。

辛普森效应

当人们尝试探究两种变量是否具有相关性的时候,会分别对之进行分组研究或细分分析。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。该现象于20世纪初就有人讨论,但一直到1951年,E.H.辛普森在他发表的论文中阐述此一现象后,该现象才算正式被描述解释。后来就以他的名字命名此悖论,即辛普森悖论。

从数学上解释,虽然

,那么

也有可能是成立的。

来看一个经典的例子:

一个美国大学里有商学院和法学院两个学院。单独看两个学院的录取数据,人们都怀疑有性别歧视。但是学校给出的总录取率报告,结果却是相反的!下面来分别看下

法学院:

性别

录取

拒收

总数

录取比例

男生

8

45

53

15.1%

女生

51

101

152

33.6%

合计

59

146

205

商学院:

性别

录取

拒收

总数

录取比例

男生

201

50

251

80.1%

女生

92

9

101

91.1%

合计

293

59

352

单独看两个学院的录取数据,女生的录取率都比较高。但是将两学院的数据加起来,结果却是相反的,男生的录取率反而更高:

性别

录取

拒收

总数

录取比例

男生

209

95

304

68.8%

女生

143

110

253

56.5%

合计

352

205

557

为什么会产生这种现象呢?有学者认为导致辛普森悖论主要体现在权重扭曲或遗漏变量偏差(omitted variable bias)。主要是因为这两个学院男女比例和录取率都很不一样,相当于在细分分析的时候引入了其他影响结果的变量。即使总体 A 的条件期望总是大于总体 B 的条件期望,而由于总体每种 “条件” 的发生概率(比重)不同,使得在将 “部分” 加总之后,所得的 “整体” 结果可能逆转。

假设下图中三种不同颜色的散点代表三个不同的企业的数据。如图所示,无论单独考虑任何一家企业,变量

对于变量

都有正的作用,即回归斜率为正。然而,当你把这三个企业的数据混合在一起进行 “混合回归”(pooled regression),则所得的回归斜率就变为负。混合回归相当于 “无条件期望”,因为没有控制企业的个体固定效应(individual fixed effects),故无法反映变量 x 对于变量 y 的真实作用(混合回归一般不一致)。在理论上,如果能控制足够多的条件,则可以避免。

混合回归

在真实实验场景中,我们要保证实验的流量跟大盘分布保持一致,如性别比例、系统型号比例、高中低活用户比例、不同版本的用户比例等在统计学意义上保持一致。此外,实验放量要控制实验组和对照组放量的比例、时间一致。

AA实验

如果各实验组用户特征分布不均衡,会引入额外的变量,导致实验结果不准确,甚至导致上面讲到的辛普森悖论等问题。常见的要校验的特征,如性别比例、系统型号比例、好友个数等。这里补充介绍下AA实验(空跑),AA实验可以在正式AB实验之前,排查实验的埋点、分流、统计是否有问题。如果实验的埋点、分流、统计没有问题的话,AA实验中各分组的数据表现应该差异不大。

除此之外,如果指标上报异常或者实验组中含有离群用户等,都可以在AA空跑期提前排查出来。比如一些均值类的指标,本质上是没有上限的,一些离群用户产生的极大数值可能就会造成影响。也可辅助进行指标的选取,检测指标的稳定性,如某些指标本身波动性很大,就不太适合用作AB实验的指标。

AA实验

AA实验主要有以下几个作用:

  1. AA实验能够验证实验所在层的分流均匀和正交性,保证分流同质。
  2. 观测指标是否存在指标生产异常,如实验曝光上报异常、异常用户影响等
  3. 评估指标波动范围
  4. 防止上一个AB实验释放的流量带来的惯性的影响(carry over)

AA实验一般也都是保持现状,不会给产品带来额外的风险,当然会有时间上的成本。也有AA回溯等替代方法。

学习效应

当我们想通过AB实验检验对用户来说感知明显的变化时,用户可能习惯了原先的功能或者交互,新的交互或功能对他们来说有一定的学习成本。所以老用户在学习适应阶段的表现可能会与原先有些不同。但实际表现有可能是积极的,也有可能是消极的。

积极的反应又称为新奇效应,实验的指标可能会表现出正向的增长,到那时当用户好奇心消退之后,又会回到之前一般的水平。 举个例子,当某一天我们打开微信,发现微信的导航栏多了一个图标,我们肯定会非常好奇地去点开它看看是什么功能。打开发现它其实就是原来的朋友圈而已,那第二天第三天可能就慢慢习惯了这个新的东西,回到原先的使用习惯。

另一方面,学习效应也有可能表现为消极反应。老用户对改变可能不习惯甚至反感,有一定上手成本,这个时候需要可能会带来短期负面的影响,当然一部分可能最终表现为实验不显著。比如使用的某项功能的入口在实验中又多了一层,用户可能一时没看到就不用了。

实践中,面对可能出现的学习效应,有什么应对方法呢:

  1. 采用入组多天的数据,表征实验组的指标随着时间的变化情况,表征实验指标是否收敛。如果指标有一定的周周期性,实验周期包含周末,观察工作日和周末的不同表现。但是在实验中,每天都去计算实验是否显著、比较两组指标大小是没有意义的,还会导致多重检验问题,只有达到最小样本量以及学习效应消退才能分析实验结果。
  2. 采用全新用户开展实验,全新用户就没有使用惯性的问题。

网络效应

这种情况通常体现在互联网社交网络、双边市场的跨边网络效应中。

互联网产品很多都带有社交属性,每个用户的行为并非完全独立,用户间的行为并非完全独立。如果存在网络效应,我们分组的独立性假设往往不能满足。举个例子,我们在进行推荐算法的优化实验,检验优化方案是否带来了用户活跃或留存的提升。假设好友被分到了实验组,我被分到了对照组。曝光给好友的内容更加的有吸引力,他作出了点赞、评论等互动行为。而产品的社交属性,使我可以看到好友的互动行为,原本不会被曝光给我的内容,我通过好友的互动间接接收到了。也提高了我去互动的概率,提高了活跃程度。这样就发生了实验组想对照组溢出的问题,独立的假设受到了破坏。

另一种情况是发生在类似打车平台这样的共享经济业务中,打车平台就是个双边市场,一边是注册司机,另外一边是乘客。如果在一个地理区域中划分实验组对照组,验证一个乘客端的优化。如果实验组的优化带来了需求的提升,那就会有更多的司机接到了来自实验组的订单。短时间内司机的数量是固定的,分配给实验组的司机多了,自然对照组司机就少了。导致实验组结果高估,且破坏了独立假设。

常见的解决方法是地理分离或者用户聚类。

地理分离从地理上区隔用户,这种情况适合打车平台这样能从地理上区隔的,比如北京是实验组,上海是对照组,只要两个城市样本量相近即可。

用户聚类是指按照用户的关联度将用户聚成簇(Cluster),保证簇内用户的关联强,而簇间的关联弱,那么簇与簇之间是近似独立的。假如一个用户被划分到对照组,那么大部分与他直接联系的用户也应该被分到对照组中。

网络中进行聚类

变量不可控

AB实验中需要给实验组和对照组进行变量控制,让用户得到不同的用户体验。但是很多情况下,比如在很多游戏场景中,我们是没有办法进行控制想要测试的变量的。从用户角度讲,一部分用户无法使用某类功能而另一类用户则可以,可能会引发舆情问题;从开发角度,同时维护多套代码也有一定成本。这就导致我们无法直接使用AB实验。

可能有同学会说,能不能通过营销活动去激励用户进行某个操作或行为,来对用户进行分组,进而研究用户的这个行为和留存是否有关联。实际上这样会产生新的偏差,得到的分组用户特征是有差异的。用户的很多行为是我们无法控制的,如果我们去刺激用户进行某个行为,有的用户对营销活动不敏感,可能会参加营销活动的用户本身活跃程度就比较高。

此外,AB实验还有一定的实验成本,可能损害用户体验等问题。在无法满足AB实验的条件下,可以使用手边已有的历史数据进行推断和决策就变得很重要,这个时候可以用因果推断或者称为观察性研究来解决。

PSM

因果推断中常用的评估因果效应的方法是PSM(Propensity Score Method,倾向分)。PSM做的事情是帮助在历史数据中找到合适的人去做对比,人为地构建出特征相似的实验组和对照组,然后对两组进行比较。

计算得分前我们会先明确Treatment(我们要控制的变量),要控制的特征X(混淆变量)和目标变量Y。定义

为在对象自身特征和外部因素的条件下,实验对象倾向于某个treatment的概率。可以看成是一个二分类问题,使用随机森林或逻辑回归等去求解计算得到PSM倾向分。得到倾向分之后,再用诸如Nearest Neighbor等方法进行匹配。从treatment=0的样本中挑选和treatment=1相似的样本,没有匹配的样本则丢弃掉。匹配之后实验组和对照组在PSM分值的分布是基本一致的。之后再去进行因果效应推断。

总结

在互联网公司中,AB实验已经非常普遍,AB实验是促进业务持续迭代最有效的方式之一。虽然AB实验很好,但是它并不是一劳永逸的。本文列举了一些AB实验实践中可能遇到的问题,辛普森悖论、网络效应、学习效应、变量不可控等。当然除了本文提到的问题,还有其他的需要在实践中注意,如carry over、多重检验问题等。归根结底AB实验只是工具,如何用工具更好地为业务创造新的价值,才是我们的最终目的。

参考:

维基百科-辛普森悖论

陈强《一石二鸟:从迭代期望定律透视辛普森悖论》

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021-12-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
AB试验(五)实验过程中的一些答疑解惑
对于第二种原因,尝试提高power:通过样本量公式,可以发现提高样本量或者减小方差即可。
HsuHeinrich
2023/10/10
8870
AB试验(五)实验过程中的一些答疑解惑
成功甩锅!原来模型效果不好是因为这个
最近在工作当中做模型的时候,遇见了一件很神奇的怪事,明明一件商品在两类人群当中的点击率都比另外一件要高。但是当我把它们的数据汇总之后,结论反而变了。
TechFlow-承志
2022/08/26
3040
成功甩锅!原来模型效果不好是因为这个
因果推断笔记——双重差分理论、假设、实践(四)
本节参考: 因果推断综述及基础方法介绍(一) 双重差分法(DID)的原理与实际应用
悟乙己
2021/12/07
3K0
因果推断笔记——双重差分理论、假设、实践(四)
因果推断笔记——自整理因果推断理论解读(七)
之前有整理过一篇:因果推断笔记—— 相关理论:Rubin Potential、Pearl、倾向性得分、与机器学习异同(二) 不过,那时候刚刚开始学,只能慢慢理解,所以这边通过一轮的学习再次整理一下手里的笔记。
悟乙己
2021/12/07
11.1K0
因果推断笔记——自整理因果推断理论解读(七)
算法AB实验平台进化历程和挑战
AB 实验平台这几年在互联网公司得到了越来越广泛的应用,采用 AB 实验来评估产品和技术迭代效果也成为主流的业务新功能效果评估方式,数据驱动的文化在这几年得到了不少公司的广泛的认同,通过数据和指标来说明产品效果也得到了越来越多的公司的认可和应用。
得物技术
2023/09/11
9000
AB测试实战
严谨的产品迭代过程(策略,算法, 界面调整, 功能调整), 一定要先经过AB测试, 在少部分流量上进行测试, 没问题了再逐渐放量
@小森
2024/06/06
1570
AB测试实战
AB试验(三)一次试验的规范流程
8规则详述: · 流量从上往下流过分流模型 · 域1和域2拆分流量,此时域1和域2是互斥的 · 流量流过域2中的B1层、B2层、B3层时,B1层、B2层、B3层的流量都是与域2的流量相等。此时B1层、B2层、B3层的流量是正交的 · 流量流过域2中的B1层时,又把B1层分为了B1-1,B1-2,B1-3,此时B1-1,B1-2,B1-3之间又是互斥的 应用场景 · 如果要同时进行UI优化、广告算法优化、搜索结果优化等几个关联较低的测试实验,可以在B1、B2、B3层上进行,确保有足够的流量 · 如果要针对某个按钮优化文字、颜色、形状等几个关联很高的测试实验,可以在B1-1、B1-2、B1-3层上进行,确保实验互不干扰 · 如果有个重要的实验,但不清楚当前其他实验是否对其有干扰,可以直接在域1上进行,确保实验结果准确可靠
HsuHeinrich
2023/09/22
8930
AB试验(三)一次试验的规范流程
数据分析中常见的"数据陷阱" !!!
做数据分析的人相信对辛普森悖论(Simpson's Paradox)早已耳熟能详,所谓辛普森悖论,通俗来说就是观测者在观测分组指标时得到了性质 A,但在汇总指标情况下却到了不一样甚至完全相反的性质 B。工作中辛普森概率非常常见,举个简单的例子:
857技术社区
2022/05/17
2K0
数据分析中常见的"数据陷阱" !!!
因果推断笔记—— 相关理论:Rubin Potential、Pearl、倾向性得分、与机器学习异同(二)
《Theoretical Impediments to Machine Learning With Seven Sparks from the Causal Revolution》这篇论文说到了因果推断的三层。
悟乙己
2021/12/07
4.4K0
因果推断笔记—— 相关理论:Rubin Potential、Pearl、倾向性得分、与机器学习异同(二)
「原理」AB测试-案例串讲及踩坑事项
上篇文章我们详细的解读了AB测试的原理及流程。今天我们来结合流程,讲讲具体的AB测试案例,以及AB测试中需要注意的问题,还有面试中可能会踩的坑。
巡山猫说数据
2021/05/18
1.4K0
「原理」AB测试-案例串讲及踩坑事项
A/B Test︱一轮完美的A/B Test 需要具备哪些要素(一)
文章[2] 策略的改变,不是由我们随便“拍脑袋”得出,而是一种建立在数据基础上的思维方式,数据反馈会告诉我们做的好不好,哪里有问题,以及衡量可以带来多少确定性的增长。
悟乙己
2022/01/21
8.7K0
A/B Test︱一轮完美的A/B Test 需要具备哪些要素(一)
AB实验的高端玩法系列3 - AB组不随机?观测试验?Propensity Score
都说随机是AB实验的核心,为什么随机这么重要呢?有人说因为随机所以AB组整体不存在差异,这样才能准确估计实验效果(ATE)
风雨中的小七
2019/11/06
2.3K0
AB实验的高端玩法系列3 - AB组不随机?观测试验?Propensity Score
干货 | 因果推断在项目价值评估中的应用
我们的日常生活中充斥着各种需要推断原因和结果的问题,比如,吸烟是否会导致肺癌,大学教育是否能够提高收入水平?有时,当我们试图回答这些问题的时候,会陷入相关的陷阱,即认为相关等于因果。
携程技术
2022/12/14
1.4K0
干货 | 因果推断在项目价值评估中的应用
「经验」不适合做AB实验的场景下,通过这4种方式来衡量策略效果
在日常产品迭代过程中,我们常常需要去验证某个功能、策略的改动是否符合预期,是否可以完全替代现有的方案。小流量实验往往是最常用、最直接验证因果的方式。然而有些时候,由于忘记开展实验、实验成本较高等因素,没有对策略进行AB实验,但又希望评估策略效果,这个时候,则可以通过其他因果推断方式进行佐证。
小火龙说数据
2024/03/20
5010
「经验」不适合做AB实验的场景下,通过这4种方式来衡量策略效果
如何提供一个可信的AB测试解决方案
本文以履约场景下的具体实践为背景,介绍如何提供一个可信赖的AB测试解决方案。一方面从实验方法的角度论述实验过程中容易被忽视的统计陷阱,给出具体的解决方案,一方面从平台建设角度论述针对业务场景和对应约束制定实验方案提供给用户,而不只是功能和方法由用户自由选择,因为实验方法差之毫厘,结果可能是失之千里。希望能给大家带来一些帮助或启发。
美团技术团队
2023/09/05
7420
如何提供一个可信的AB测试解决方案
因果推断DiD方法在游戏数据分析中的实践
我们在日常数据相关的工作中,常常需要去推断结果Y是否由原因X造成。“相关性并不意味着因果关系”,相信做数据分析的同学都明白这个道理。有一个喜闻乐见的例子:夏天海岸,鲨鱼袭击事件较其他季节多20%,同时冰淇淋销量比其他季节多100%,冰淇淋销量和鲨鱼袭击事件成正相关关系,得出结论销售冰淇凌会导致鲨鱼袭击。这实际上是违背常识的。
曲奇
2022/01/21
2.2K0
因果推断DiD方法在游戏数据分析中的实践
因果推断笔记——python 倾向性匹配PSM实现示例(三)
因果推断笔记—— 相关理论:Rubin Potential、Pearl、倾向性得分、与机器学习异同(二) 因果推断笔记——因果图建模之微软开源的dowhy(一)
悟乙己
2021/12/07
5K0
因果推断笔记——python 倾向性匹配PSM实现示例(三)
AB实验的高端玩法系列4- 实验渗透低?用户未被触达?CACE/LATE
CACE全称Compiler Average Casual Effect或者Local Average Treatment Effect。在观测数据中的应用需要和Instrument Variable
风雨中的小七
2020/03/19
2.4K0
AB实验的高端玩法系列4- 实验渗透低?用户未被触达?CACE/LATE
一文助你上年薪30w,史上最全AB-Test知识点
越来越多的公司重视AB测试,按照猫哥的经验,之前会Excel就行,SQL是加分项。后来变成了必须懂SQL,AB测试是加分项。再到后来变成了,AB测试和SQL都是必会的东西。
巡山猫说数据
2021/12/15
1.5K0
一文助你上年薪30w,史上最全AB-Test知识点
一文详解 非标准AB实验
导语|标准AB实验归因顺利,非标准AB实验劳心劳力,一文get非标准AB实验案例。 本文作者:makinochen,腾讯PCG产品策划 1.  AB实验概要  1.1.  AB实验是什么 A/B实验是一种在线对照实验,即通过控制变量法来对比两个策略之间的效果。 1.2.  为什么要AB实验 AB实验的优点是能够帮助业务快速验证业务假设与结论的因果关系,避免做决策没有可靠的数据支撑。 1.3.  AB实验应用现状 以腾讯为例,PCG有TAB实验平台,WXG有X实验平台,CDG有天秤实验平台。在PCG内部,
腾讯大讲堂
2022/11/09
1.3K0
一文详解 非标准AB实验
推荐阅读
相关推荐
AB试验(五)实验过程中的一些答疑解惑
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档