Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >用泊松和(或)二项分布分析劈裂试验(A/B)

用泊松和(或)二项分布分析劈裂试验(A/B)
EN

Data Science用户
提问于 2014-08-08 05:44:52
回答 3查看 4.1K关注 0票数 2

从交叉验证的交叉张贴:

我以前见过这个问题,但我还没有找到一个明确的消息来源来回答以下具体问题:

  • 应用于小型A/B测试的最合适的统计测试是什么?
  • 分析小型A/B测试的R代码和解释是什么?

我正在做一个小测试,看看哪些广告表现得更好。我有以下结果:

位置1:

variation,impressions,clicks row-1,753,26 row-3,767 7

位置2:

variation,impressions,clicks row-1,753,16 row-3,767 13

位置3:

variation,impressions,clicks row-1,753,2 row-3,767 7

我认为可以肯定地说,这些数字很小,很可能不是正态分布的。此外,它是点击数据,所以有一个二元的结果点击与否和试验是独立的。

合适的测试

在分析每个位置的重要性,我认为比较二项式或泊松分布是最有意义的。

根据OpenIntro统计 (和其他来源)的书,变量遵循泊松分布“.如果考虑的事件是罕见的,人口就很大,并且事件是相互独立发生的。”

同一来源对二项式变量进行了大致相同的分类,并补充说,成功的概率是相同的,试验的次数是固定的。

我理解这不是一个任意/或一个决定,可以使用这两个发行版进行分析。

鉴于A/B (拆分)测试是一门已经实践了几年的科学,我想有一个规范的测试。然而,环顾互联网,我大部分时间都会遇到使用标准正态分布的分析。这似乎是错误的:)

对于点击次数较小的S的A/B测试,是否有标准测试?

解释与R码

我使用了以下R代码来测试每个职位的重要性:

立场1:

代码语言:javascript
运行
AI代码解释
复制
binom.test(7, 767, p=(26/753))

Exact binomial test

data:  7 and 767
number of successes = 7, number of trials = 767, p-value = 1.077e-05
alternative hypothesis: true probability of success is not equal to 0.03452855
95 percent confidence interval:
 0.003676962 0.018713125
sample estimates:
probability of success 
           0.009126467

我将这一结果解释为:试验组的成功概率确实不同于对照组,其95%的置信区间为.368%和1.87%之间。

代码语言:javascript
运行
AI代码解释
复制
ppois(((26-1)/753), lambda=(7/767), lower.tail = F)
[1] 0.009084947

我对这个结果的解释是:假设泊松分布的点击率为每767次试验7次,那么在同一分布中,每753次试验中有26次或更多次的点击率为0.9%。在广告示例中,在上下文化的情况下,控制广告实际上执行与测试广告相同的.1%可能性。

以上解释正确吗?测试和解释是否随着不同的位置而变化(即泊松测试的结果是否更适合于位置3,给定较小的数目)?

EN

回答 3

Data Science用户

发布于 2014-08-17 06:17:41

好的,这是你的数据。

代码语言:javascript
运行
AI代码解释
复制
dd <- data.frame(position=rep(1:3, each=2), 
                 variation=rep(c(1,3), 3), 
                 impressions=rep(c(753, 767), 3), 
                 clicks=c(26,7,16,13,2,7))

这就是

代码语言:javascript
运行
AI代码解释
复制
  position variation impressions clicks
1        1         1         753     26
2        1         3         767      7
3        2         1         753     16
4        2         3         767     13
5        3         1         753      2
6        3         3         767      7

你正在考虑的两个模型假设是二项式的

代码语言:javascript
运行
AI代码解释
复制
mod.bin <- glm(cbind(clicks, impressions-clicks) ~ variation + position,
               family=binomial, data=dd)

其中,因变量被构造为在第一列中有兴趣事件的计数,以及Poisson

代码语言:javascript
运行
AI代码解释
复制
md.pois <- glm(clicks ~ variation + position + offset(log(impressions)), 
               family=poisson, data=dd)

当试验次数因观察而异时,log(impressions)偏移是必要的。这意味着系数可以用比率的变化来解释,而不是在计数上的变化,这就是你想要的。

第一个模型将binom.test概括为一个具有协变量的设置,这就是您所拥有的。这可以让你更直接地回答你的问题,更好地(如果不是完美的)测量相关的不确定性。

Notes

这两种模型都假定变化与位置之间不存在交互作用(“独立效应”)。这可能是合理的,也可能不是合理的。你会想要更多的复制品来正确地调查这个问题。将+替换为*

在这个数据中,summary证实了这两个模型给出了相当相似的结果,因此对泊松与二项式的关注似乎并不重要。

在野外,计数数据通常是过分散的,也就是说:比您预期的更多的变量来自具有恒定速率的泊松或具有恒定点击概率的二项分布,这通常是由于未建模的单击率/概率的决定因素。如果是这样的话,那么这些模型的预测间隔就太窄了。

票数 2
EN

Data Science用户

发布于 2014-09-25 23:47:45

正确的模型是二项式的,泊松和正态都是近似的。二项式pdf定义在零和试验次数之间的整数上。poisson定义在0到无穷之间的整数上,法向定义在+/-无穷远之间的所有实变量上。

换句话说,对于泊松来说,有一个(可能很小)但非零的概率,有更多的点击,而不是印象。对于高斯,你甚至可以有负点击。当然,特定的参数决定了它的影响有多大.可能值得绘制相应的pdfs。

票数 1
EN

Data Science用户

发布于 2014-08-08 11:23:33

本文给出了近似二项式(k,n,p) ~=泊松(k,s) (S= n*p)的假设条件:

( 1) n >> k(说n!/(n-k)!~= n^k),

2) p <<1 (即(1-p)^(N) ~= (1-p)^n)。

这取决于你是否足够满意。如果能快速完成精确的计算,在我看来,保持这一点是很好的。

另外,如果第3行样本的概率与第1行样本的概率不同,那么它几乎肯定位于较低的一侧。也许你最好用

binom.test(7,767,p=(26/753),alternative=' less ')最后一个选项,表明你的零假设的替代方法是概率小于26/753,不等于。当然,这只是从0到7的二项式概率之和(你可以自己检查一下),解释是,如果概率真的是26/753,这是最多从随机机会得到7圈的概率。

记住对最后一句的解释。当我们知道我们所比较的内在概率时,通常会使用这类测试(例如,看看硬币翻转的概率是否与1/2的概率有很大的不同,这就是我们对公平硬币的期望)。在这种情况下,我们不知道我们比较的概率是多少,我们只是粗略地猜测,第1行的26/753结果反映了真实的概率。在这种情况下,它比常规的常规t检验要好,但是,除非您对第1行有更高的样本大小,否则不要将太多的库存投入其中。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/946

复制
相关文章
概率算法_二项分布和泊松分布
create_rand_list() #创建一个含有指定数量元素的list sum_fun() #累加 len_fun() #统计个数 multiply_fun() #累乘 sum_mean_fun() #算数平均数 sum_mean_rate() #算数平均数计算回报 median_fun() #中位数 modes_fun() #众数 ext_minus_fun() #极差 geom_mean_fun() #几何平均数 geom_mean_rate() #几何平均回报 var_fun() #方差-样本S^2 covar_fun() #协方差(标准差)-样本S trans_coef_fun() #变异系数CV pearson_fun() #相关系数-样本r
py3study
2020/01/19
7290
用SAS进行泊松,零膨胀泊松和有限混合Poisson模型分析
原文链接:http://tecdat.cn/?p=6145 泊松模型 proc fmm data = tmp1 tech = trureg; model majordrg = age acadm
拓端
2020/07/17
7380
Python之二项分布、泊松分布
敲黑板,干货已到达战场!!!在数据分析中,二项分布、泊松分布是我们经常用到的两个分布,今天小编将会先简单介绍二项分布基础:伯努利试验、n重伯努利试验以及两点分布,接着咱们讲解二项分布和泊松分布的概念,完事之后,咱们讲解一下二项分布转换泊松分布求解的条件,最后通过python来看一下,为什么二项分布在某种条件下可以转换成泊松分布近似求解。
数据山谷
2020/11/25
2K0
Python之二项分布、泊松分布
二项分布、泊松分布和正态分布的区别及联系?
今天我们来聊聊几种特殊的概率分布。这个知识目前来看,还没有人令我满意的答案,因为其他人多数是在举数学推导公式。
猴子数据分析
2024/04/17
9170
二项分布、泊松分布和正态分布的区别及联系?
【统计学家的故事】泊松定理、泊松公式、泊松方程、泊松分布、泊松过程的西莫恩·德尼·泊松
西莫恩·德尼·泊松(Simeon-Denis Poisson 1781~1840)法国数学家、几何学家和物理学家。1781年6月21日生于法国卢瓦雷省的皮蒂维耶,1840年4月25日卒于法国索镇。1798年入巴黎综合工科学校深造。受到拉普拉斯、拉格朗日的赏识。1800年毕业后留校任教,1802年任副教授,1806年任教授。1808年任法国经度局天文学家。1809年巴黎理学院成立,任该校数学教授。1812年当选为巴黎科学院院士。泊松的科学生涯开始于研究微分方程及其在摆的运动和声学理论中的应用。他工作的特色是应用数学方法研究各类物理问题,并由此得到数学上的发现。他对积分理论、行星运动理论、热物理、弹性理论、电磁理论、位势理论和概率论都有重要贡献。他还是19世纪概率统计领域里的卓越人物。他改进了概率论的运用方法,特别是用于统计方面的方法,建立了描述随机现象的一种概率分布──泊松分布。他推广了“大数定律”,并导出了在概率论与数理方程中有重要应用的泊松积分。
统计学家
2019/04/10
4.1K0
每个数据科学家都应该知道的六个概率分布
介绍 假设你是一所大学的老师。在对一周的作业进行了检查之后,你给所有的学生打了分数。你把这些打了分数的论文交给大学的数据录入人员,并告诉他创建一个包含所有学生成绩的电子表格。但这个人却只存储了成绩,而
小莹莹
2018/04/20
1.9K0
每个数据科学家都应该知道的六个概率分布
用python重温统计学基础:离散型概率分布
在上一篇描述性统计中提到数据分析的对象主要是结构化化数据,而所有的结构化数据可以从三个维度进行描述,即数据的集中趋势描述,数据的离散程度描述和数据的分布形态描述,并对前两个维度进行了介绍。
朱小五
2019/11/26
1.3K0
用python重温统计学基础:离散型概率分布
泊松分布 二项分布 正态分布之间的联系
二项分布有两个参数,一个 n 表示试验次数,一个 p 表示一次试验成功概率。现在考虑一列二项分布,其中试验次数 n 无限增加,而 p 是 n 的函数。   1.如果 np 存在有限极限 λ,则这列二项分布就趋于参数为 λ 的 泊松分布。反之,如果 np 趋于无限大(如 p 是一个定值),则根据德莫佛-拉普拉斯(De'Moivre-Laplace)中心极限定理,这列二项分布将趋近于正态分布。   2.实际运用中当 n 很大时一般都用正态分布来近似计算二项分布,但是如果同时 np 又比较小(比起 n来说很小)
学到老
2018/03/16
2.5K0
泊松分布 二项分布  正态分布之间的联系
每个数据科学专家都应该知道的六个概率分布
摘要:概率分布在许多领域都很常见,包括保险、物理、工程、计算机科学甚至社会科学,如心理学和医学。它易于应用,并应用很广泛。本文重点介绍了日常生活中经常能遇到的六个重要分布,并解释了它们的应用。 介绍 假设你是一所大学的老师。在对一周的作业进行了检查之后,你给所有的学生打了分数。你把这些打了分数的论文交给大学的数据录入人员,并告诉他创建一个包含所有学生成绩的电子表格。但这个人却只存储了成绩,而没有包含对应的学生。 他又犯了另一个错误,在匆忙中跳过了几项,但我们却不知道丢了谁的成绩。我们来看看如何来解决这个问题
小莹莹
2018/04/24
1.3K0
每个数据科学专家都应该知道的六个概率分布
【陆勤笔记】《深入浅出统计学》7几何分布、二项分布、泊松分布:坚持离散
作者:王陆勤 计算概率分布颇为耗时。但是,我们可以掌握一些特殊而有用的概率分布,比方说几何分布、二项分布和泊松分布,利用这些特殊的概率分布,可以快速地计算概率、期望和方差。 几何分布 几何分布有以下特点: 进行一系列相互独立的试验。 每一次试验都既有成功的可能,也有失败的可能,且单次试验的成功概率相同。 你所研究的是为了取得第一次成功需要进行多少次试验。 几何分布表示形式。 几何分布的形状如下。 几何分布的描述。 几何分布的期望 几何分布的方差 几何分布汇总 二项分布,举例和总结
小莹莹
2018/04/23
2.1K0
【陆勤笔记】《深入浅出统计学》7几何分布、二项分布、泊松分布:坚持离散
[机器学习算法]泊松回归
对因变量是离散型变量的问题建模时,普通的线性回归模型、定序回归模型和逻辑回归模型已经能解决我们大部分的需求。但有一类特殊的因变量记录某个特定事件出现的次数(有序的非负整数),它们被称之为“计数数据”。如果我们按照普通的线性回归模型建模:
TOMOCAT
2020/06/09
1.2K0
[机器学习算法]泊松回归
内容范围:正态分布,泊松分布,多项分布,二项分布,伯努利分布
伯努利分布(两点分布/0-1分布):伯努利试验指的是只有两种可能结果的单次随机试验。如果对伯努利试验独立重复n次则为n重伯努利试验。
zenRRan
2019/07/16
4.5K0
从泊松方程的解法,聊到泊松图像融合
2004 年 SIGGRAPH 上,Microsoft Research UK 有篇经典的图像融合文章《Poisson Image Editing》。先看看其惊人的融合结果(非论文配图,本人实验结果):
周旋
2022/09/19
8240
从泊松方程的解法,聊到泊松图像融合
泊松分布
一个故事:你已经做了10年的自由职业者了。到目前为止,你的平均年收入约为8万美元。今年,你觉得自己陷入了困境,决定要达到6位数。要做到这一点,你需要先计算这一令人兴奋的成就发生的概率,但你不知道怎么做。
deephub
2021/01/25
8380
从贝叶斯定理到概率分布:综述概率论基本定义
选自 Medium & analyticsvidhya 本文从最基础的概率论到各种概率分布全面梳理了基本的概率知识与概念,这些概念可能会帮助我们了解机器学习或开拓视野。这些概念是数据科学的核心,并经常出现在各种各样的话题上。重温基础知识总是有益的,这样我们就能发现以前并未理解的新知识。 简介 在本系列文章中,我想探讨一些统计学上的入门概念,这些概念可能会帮助我们了解机器学习或开拓视野。这些概念是数据科学的核心,并经常出现在各种各样的话题上。重温基础知识总是有益的,这样我们就能发现以前并未理解的新知识,
小莹莹
2018/04/24
1.2K0
从贝叶斯定理到概率分布:综述概率论基本定义
数据分析方法论-统计学内容学习
最初学习数据分析只是出于兴趣,自学了Python。最近才生出转行数据分析的想法,目前已经辞职,准备全身心地投入到学习中。
带萝卜
2020/10/23
4210
数据分析方法论-统计学内容学习
从贝叶斯定理到概率分布的全面梳理!
在本系列文章中,我想探讨一些统计学上的入门概念,这些概念可能会帮助我们了解机器学习或开拓视野。这些概念是数据科学的核心,并经常出现在各种各样的话题上。重温基础知识总是有益的,这样我们就能发现以前并未理解的新知识,所以我们开始吧。
算法进阶
2023/09/01
5030
从贝叶斯定理到概率分布的全面梳理!
从贝叶斯定理到概率分布:综述概率论基本定义
选自 Medium & analyticsvidhya 机器之心编译 机器之心编辑部 本文从最基础的概率论到各种概率分布全面梳理了基本的概率知识与概念,这些概念可能会帮助我们了解机器学习或开拓视野。这些概念是数据科学的核心,并经常出现在各种各样的话题上。重温基础知识总是有益的,这样我们就能发现以前并未理解的新知识。 简介 在本系列文章中,我想探讨一些统计学上的入门概念,这些概念可能会帮助我们了解机器学习或开拓视野。这些概念是数据科学的核心,并经常出现在各种各样的话题上。重温基础知识总是有益的,这样我们就能发
机器之心
2018/05/08
8760
从贝叶斯定理到概率分布:综述概率论基本定义
连载 | 概率论与数理统计(3) – 一维离散型随机变量及其Python实现
上一小节对随机变量做了一个概述,这一节主要记录一维离散型随机变量以及关于它们的一些性质。对于概率论与数理统计方面的计算及可视化,主要的Python包有scipy, numpy和matplotlib等。
小莹莹
2018/07/24
1.3K0
连载 | 概率论与数理统计(3) – 一维离散型随机变量及其Python实现
通过实例理解如何选择正确的概率分布
概率分布是描述获得事件可能值的数学函数。概率分布可以是离散的,也可以是连续的。离散分布是指数据只能取某些值,而连续分布是指数据可以取特定范围内的任何值(可能是无限的)。
deephub
2020/09/28
1.3K0
通过实例理解如何选择正确的概率分布

相似问题

列车试验劈裂误差

10

列车试验劈裂程序

10

用泊松分布拟合大熊猫数据

10

如何比较泊松点过程、ARIMA和LSTM?

10

泊松分布,标准差,拟合线

20
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档