从交叉验证的交叉张贴:
我以前见过这个问题,但我还没有找到一个明确的消息来源来回答以下具体问题:
我正在做一个小测试,看看哪些广告表现得更好。我有以下结果:
variation,impressions,clicks row-1,753,26 row-3,767 7
variation,impressions,clicks row-1,753,16 row-3,767 13
variation,impressions,clicks row-1,753,2 row-3,767 7
我认为可以肯定地说,这些数字很小,很可能不是正态分布的。此外,它是点击数据,所以有一个二元的结果点击与否和试验是独立的。
在分析每个位置的重要性,我认为比较二项式或泊松分布是最有意义的。
根据OpenIntro统计 (和其他来源)的书,变量遵循泊松分布“.如果考虑的事件是罕见的,人口就很大,并且事件是相互独立发生的。”
同一来源对二项式变量进行了大致相同的分类,并补充说,成功的概率是相同的,试验的次数是固定的。
我理解这不是一个任意/或一个决定,可以使用这两个发行版进行分析。
鉴于A/B (拆分)测试是一门已经实践了几年的科学,我想有一个规范的测试。然而,环顾互联网,我大部分时间都会遇到使用标准正态分布的分析。这似乎是错误的:)
对于点击次数较小的S的A/B测试,是否有标准测试?
我使用了以下R代码来测试每个职位的重要性:
立场1:
binom.test(7, 767, p=(26/753))
Exact binomial test
data: 7 and 767
number of successes = 7, number of trials = 767, p-value = 1.077e-05
alternative hypothesis: true probability of success is not equal to 0.03452855
95 percent confidence interval:
0.003676962 0.018713125
sample estimates:
probability of success
0.009126467
我将这一结果解释为:试验组的成功概率确实不同于对照组,其95%的置信区间为.368%和1.87%之间。
ppois(((26-1)/753), lambda=(7/767), lower.tail = F)
[1] 0.009084947
我对这个结果的解释是:假设泊松分布的点击率为每767次试验7次,那么在同一分布中,每753次试验中有26次或更多次的点击率为0.9%。在广告示例中,在上下文化的情况下,控制广告实际上执行与测试广告相同的.1%可能性。
以上解释正确吗?测试和解释是否随着不同的位置而变化(即泊松测试的结果是否更适合于位置3,给定较小的数目)?
发布于 2014-08-17 06:17:41
好的,这是你的数据。
dd <- data.frame(position=rep(1:3, each=2),
variation=rep(c(1,3), 3),
impressions=rep(c(753, 767), 3),
clicks=c(26,7,16,13,2,7))
这就是
position variation impressions clicks
1 1 1 753 26
2 1 3 767 7
3 2 1 753 16
4 2 3 767 13
5 3 1 753 2
6 3 3 767 7
你正在考虑的两个模型假设是二项式的
mod.bin <- glm(cbind(clicks, impressions-clicks) ~ variation + position,
family=binomial, data=dd)
其中,因变量被构造为在第一列中有兴趣事件的计数,以及Poisson
md.pois <- glm(clicks ~ variation + position + offset(log(impressions)),
family=poisson, data=dd)
当试验次数因观察而异时,log(impressions)
偏移是必要的。这意味着系数可以用比率的变化来解释,而不是在计数上的变化,这就是你想要的。
第一个模型将binom.test
概括为一个具有协变量的设置,这就是您所拥有的。这可以让你更直接地回答你的问题,更好地(如果不是完美的)测量相关的不确定性。
这两种模型都假定变化与位置之间不存在交互作用(“独立效应”)。这可能是合理的,也可能不是合理的。你会想要更多的复制品来正确地调查这个问题。将+
替换为*
。
在这个数据中,summary
证实了这两个模型给出了相当相似的结果,因此对泊松与二项式的关注似乎并不重要。
在野外,计数数据通常是过分散的,也就是说:比您预期的更多的变量来自具有恒定速率的泊松或具有恒定点击概率的二项分布,这通常是由于未建模的单击率/概率的决定因素。如果是这样的话,那么这些模型的预测间隔就太窄了。
发布于 2014-09-25 23:47:45
正确的模型是二项式的,泊松和正态都是近似的。二项式pdf定义在零和试验次数之间的整数上。poisson定义在0到无穷之间的整数上,法向定义在+/-无穷远之间的所有实变量上。
换句话说,对于泊松来说,有一个(可能很小)但非零的概率,有更多的点击,而不是印象。对于高斯,你甚至可以有负点击。当然,特定的参数决定了它的影响有多大.可能值得绘制相应的pdfs。
发布于 2014-08-08 11:23:33
本文给出了近似二项式(k,n,p) ~=泊松(k,s) (S= n*p)的假设条件:
( 1) n >> k(说n!/(n-k)!~= n^k),
2) p <<1 (即(1-p)^(N) ~= (1-p)^n)。
这取决于你是否足够满意。如果能快速完成精确的计算,在我看来,保持这一点是很好的。
另外,如果第3行样本的概率与第1行样本的概率不同,那么它几乎肯定位于较低的一侧。也许你最好用
binom.test(7,767,p=(26/753),alternative=' less ')最后一个选项,表明你的零假设的替代方法是概率小于26/753,不等于。当然,这只是从0到7的二项式概率之和(你可以自己检查一下),解释是,如果概率真的是26/753,这是最多从随机机会得到7圈的概率。
记住对最后一句的解释。当我们知道我们所比较的内在概率时,通常会使用这类测试(例如,看看硬币翻转的概率是否与1/2的概率有很大的不同,这就是我们对公平硬币的期望)。在这种情况下,我们不知道我们比较的概率是多少,我们只是粗略地猜测,第1行的26/753结果反映了真实的概率。在这种情况下,它比常规的常规t检验要好,但是,除非您对第1行有更高的样本大小,否则不要将太多的库存投入其中。
https://datascience.stackexchange.com/questions/946
复制