前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >AB试验(七)利用Python模拟A/B试验

AB试验(七)利用Python模拟A/B试验

作者头像
HsuHeinrich
发布于 2023-11-02 11:09:56
发布于 2023-11-02 11:09:56
58000
代码可运行
举报
文章被收录于专栏:HsuHeinrichHsuHeinrich
运行总次数:0
代码可运行

AB试验(七)利用Python模拟A/B试验

到现在,我相信大家理论已经掌握了,轮子也造好了。但有的人是不是总感觉还差点什么?没错,还缺了实战经验。对于AB实验平台完善的公司 ,这个经验不难获得,但有的同学或多或少总有些原因无法接触到AB实验。所以本文就告诉大家,如何利用Python完整地进行一次A/B试验模拟。

现在,前面造好的轮子ABTestFunc.py就起到关键作用了

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from faker import Faker
from faker.providers import BaseProvider, internet 
from random import randint
from scipy.stats import bernoulli
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split 
from scipy import stats
from collections import defaultdict
import toad 
import matplotlib.pyplot as plt
import seaborn as sns
import math

# 绘图初始化
%matplotlib inline
sns.set(style="ticks")
plt.rcParams['axes.unicode_minus']=False # 用来正常显示负号
plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号

# 导入自定义模块
import sys
sys.path.append("/Users/heinrich/Desktop/Heinrich-blog/数据分析使用手册")
from ABTestFunc import *

上述自定义模块ABTestFunc如果有需要的同学可关注公众号HsuHeinrich,回复【AB试验-自定义函数】自动获取~

均值类指标实验模拟

实验前准备

  • 背景:某app想通过优化购物车来提高用户的人均消费,遂通过AB实验检验优化效果。
  • 实验前设定
    • 实验为双尾检验
    • 实验分流为50%/50%
    • 显著性水平为5%
    • 检验功效为80%
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 实验设定
alpha=0.05
power=0.8
beta=1-power

确定目标和假设

  • 目标:提高人均消费
  • 假设:选择商品时,醒目提示各商品优惠金额,并按照优惠截止日期排序,提高紧促感。

确定指标

  • 评价指标:人均购买金额
  • 护栏指标:样本比例、特征分布一致

确定实验单位

  • 用户ID

样本量估算

  • 模拟历史样本
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 假设用户的购买金额服从正态分布
# 模拟过去一段时间的用户购买金额
np.random.seed(0)
pays=np.random.normal(2999, 876, 50000)
plt.hist(pays, 30, density=True)
plt.show()

output_8_0

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 输出当前消费金额的均值
print(pays.mean())
# 输出当前消费金额的方差
print(np.std(pays, ddof=1))
# 计算历史数据的波动区间,并假设此次提升高于最大波动上限
print(numbers_cal_ci(pays))
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
2995.676447900933
873.0773017854648
[2988.0237285541257, 3003.3291672477403]
  • 依据提升情况计算样本量
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 当前消费均值为2996,方差为873,波动上限为3003。
# 假设此次实验能提高消费金额至3050元
u1=2996
u2=3050
s=np.std(pays, ddof=1)

n1=n2=numbers_cal_sample_third(u1, u2, s)
print(2*n1)
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
8210

随机分组

  • CR法

测试时间的估算

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 假设每天用户流量680,且用户在周终于周末的购买行为不一致,因此至少包含一周的时间
test_time=max(math.ceil(2*n1/680), 7)
print(test_time)
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
13

实施测试

  • 测试过程无明显异常
  • 模拟实验数据产生,并在结束时收集数据
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 自定义数据
fake = Faker('zh_CN')
class MyProvider(BaseProvider):
    def myCityLevel(self):
        cl = ["一线", "二线", "三线", "四线+"]
        return cl[randint(0, len(cl) - 1)]
    def myGender(self):
        g = ['F', 'M']
        return g[randint(0, len(g) - 1)]
    def myDevice(self):
        d = ['Ios', 'Android']
        return d[randint(0, len(d) - 1)]
fake.add_provider(MyProvider)

# 构造假数据,模拟实验过程产生的样本数据的特征
uid=[]
cityLevel=[]
gender=[]
device=[]
age=[]
activeDays=[]
for i in range(8225):
    uid.append(i+1)
    cityLevel.append(fake.myCityLevel())
    gender.append(fake.myGender())
    device.append(fake.myDevice())
    age.append(fake.random_int(min=18, max=45)) # 年龄分布
    activeDays.append(fake.random_int(min=0, max=7)) # 近7日活跃分布
    
raw_data= pd.DataFrame({'uid':uid,
                        'cityLevel':cityLevel,
                        'gender':gender,
                        'device':device,
                        'age':age,
                        'activeDays':activeDays,
                       })

raw_data.head()

image-20230206155220266

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 数据随机切分,模拟实验分流
test, control= train_test_split(raw_data.copy(), test_size=.5, random_state=0)
# 模拟用户购买金额
np.random.seed(1)
test['pays']=np.random.normal(3049, 850, test.shape[0])
control['pays']=np.random.normal(2999, 853, control.shape[0])
# 数据拼接,模拟数据收集结果
test['flag'] = 'test'
control['flag'] = 'control'
df = pd.concat([test, control])

分析测试结果

  • 样本比例合理性检验
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 查看样本比例
sns.countplot(x='flag', data=df)
plt.show()

# 查看离散变量的分布
fig, ax =plt.subplots(1, 3, constrained_layout=True, figsize=(12, 3))
for i, x in enumerate(['cityLevel', 'gender', 'device']):
    sns.countplot(x=x, data=df, hue='flag', ax=ax[i])
plt.show()

# 查看连续变量的分布
fig, ax =plt.subplots(1, 3, constrained_layout=True, figsize=(12, 3))
for i, x in enumerate(['age', 'activeDays', 'pays']):
    sns.histplot(x=x, data=df, hue='flag', ax=ax[i])
plt.show()

output_18_0

output_18_1

output_18_2

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 检验样本比例一致性
n1=control.size
n2=test.size
p1=p2=0.5
two_sample_proportion_test(n1, n2, p1, p2)
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
两样本比例校验: 通过
  • 样本特征一致性校验
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 检验特征分布一致性
cols=['cityLevel', 'gender', 'device', 'age', 'activeDays']
feature_dist_ks(cols, test, control)
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
cityLevel: 相似
gender: 相似
device: 相似
age: 相似
activeDays: 相似
  • 显著性校验
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 显著性检验
numbers_cal_significant(test['pays'], control['pays'])
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
方差齐性校验结果:方差相同

(3.1882855769529668,
 0.0014365540563265368,
 [23.101471736420166, 96.85309892416026])

p值小于5%,置信区间不包含0且最小提升为23,明显高于自然波动的上线。因此可以认为此次购物车优化实验有助于提高用户的人均消费

  • 拓展-维度下钻分析
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 进行维度下钻分析,采用BH法进行多重检验校正
feature=[]
value=[]
pvaules=[]
for x in ['cityLevel', 'gender', 'device']:
    for i in df[x].unique():
        feature.append(x)
        value.append(i)
        # 构造细分维度的样本
        te=test[test[x]==i]
        co=control[control[x]==i]
        # 计算细分维度的p值
        p=numbers_cal_significant(te['pays'], co['pays'], levene_print=False)[1]
        pvaules.append(p)
    
df_multiple=pd.DataFrame({'feature':feature,
                        'value':value,
                        'pvaules':pvaules
                       })
df_multiple

image-20230206155310768

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 多重检验校正
print(multiple_tests_adjust(df_multiple['pvaules']))
df_multiple['pvaules_correct']=multiple_tests_adjust(df_multiple['pvaules'])[1]
df_multiple['reject']=multiple_tests_adjust(df_multiple['pvaules'])[0]
df_multiple
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
(array([False, False, False, False, False, False,  True, False]), array([0.05672733, 0.19828707, 0.05672733, 0.57652105, 0.05672733,
       0.05672733, 0.04760055, 0.10353442]), 0.00625)

image-20230206155325025

维度下钻发现,只有iOS设备的用户存在显著提升

实验报告

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 关键数据展示

# 样本及均值
print('control:' ,f'sample {control.shape[0]} / mean:{control.pays.mean()}')
print('test:' ,f'sample {test.shape[0]} / mean:{test.pays.mean()}')
# 实验周期
print('times:', test_time)
# diff
print('diff:', test['pays'].mean()-control['pays'].mean())
# p值
print('p-value:', numbers_cal_significant(test['pays'], control['pays'], levene_print=False)[1])
# diff-置信区间
print('diff-ci:', numbers_cal_significant(test['pays'], control['pays'], levene_print=False)[2])
# 维度下钻结果
print('dim-result:')
for i,v in zip(df_multiple.value,df_multiple.reject):
    print(' '*2,f'{i}:{v}')
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
control: sample 4113 / mean:3000.5565990602113
test: sample 4112 / mean:3060.533884390513
times: 13
diff: 59.977285330301584
p-value: 0.0014365540563265368
diff-ci: [23.101471736420166, 96.85309892416026]
dim-result:
   三线:False
   二线:False
   四线+:False
   一线:False
   M:False
   F:False
   Ios:True
   Android:False

  • 实验13天,收集到实验组数据4112,对照组4113,共计8225。
  • 实验过程无异常,实验组人均购买金额为3061元,较对照组提高60元
  • 整体上,实验组的提升是显著的,且提升范围在[23, 97]元之间
  • 通过维度下钻,发现实验组仅在Ios设备用户有显著提升

概率类指标实验模拟

实验前准备

  • 背景:某音乐app想通过优化功能提示提高用户功能使用率。
  • 实验前设定
    • 实验为双尾检验
    • 实验分流为50%/50%
    • 显著性水平为5%
    • 检验功效为80%
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 实验设定
alpha=0.05
power=0.8
beta=1-power

确定目标和假设

  • 目标:提高【把喜欢的音乐加入收藏夹】功能的使用率
  • 假设:用户从未使用过这个功能,且播放同一首歌到达4次时,在播放第5次进行弹窗提醒可以把喜欢的音乐加入收藏夹

确定指标

  • 评价指标:【把喜欢的音乐加入收藏夹】功能的使用率
  • 护栏指标:样本比例、特征分布一致

确定实验单位

  • 用户ID

样本量估算

  • 模拟历史样本
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 假设用户的购买金额服从正态分布
# 模拟过去一段时间的用户【把喜欢的音乐加入收藏夹】
np.random.seed(1)
collect=stats.bernoulli.rvs(0.02, size=20000, random_state=0)
plt.hist(collect, 30, density=True)
plt.show()

output_33_0

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 输出当前【把喜欢的音乐加入收藏夹】功能的使用率
print(collect.mean())
# 计算历史数据的波动区间,并假设此次提升高于最大波动上限
print(prob_cal_ci(0.02, 20000))
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
0.0197
[0.01805973464591045, 0.02194026535408955]
  • 依据提升情况计算样本量
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 当前转化率为0.02,波动上限为0.0219。
# 假设此次实验能提高使用率至0.022
p1=0.02
p2=0.022

n1=n2=prob_cal_sample_third(p1, p2)
print(2*n1)
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
161276

随机分组

  • CR法

测试时间的估算

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 假设每天符合条件用户流量1.7w,且用户在周终于周末的听音乐行为不一致,因此至少包含一周的时间
test_time=max(math.ceil(2*n1/17000), 7)
print(test_time)
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
10

实施测试

  • 测试过程无明显异常
  • 模拟实验数据产生,并在结束时收集数据
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 自定义数据
fake = Faker('zh_CN')
class MyProvider(BaseProvider):
    def myCityLevel(self):
        cl = ["一线", "二线", "三线", "四线+"]
        return cl[randint(0, len(cl) - 1)]
    def myGender(self):
        g = ['F', 'M']
        return g[randint(0, len(g) - 1)]
    def myDevice(self):
        d = ['Ios', 'Android']
        return d[randint(0, len(d) - 1)]
fake.add_provider(MyProvider)

# 构造假数据,模拟实验过程产生的样本数据的特征
uid=[]
cityLevel=[]
gender=[]
device=[]
age=[]
activeDays=[]
for i in range(161280):
    uid.append(i+1)
    cityLevel.append(fake.myCityLevel())
    gender.append(fake.myGender())
    device.append(fake.myDevice())
    age.append(fake.random_int(min=18, max=45)) # 年龄分布
    activeDays.append(fake.random_int(min=0, max=7)) # 近7日活跃分布
    
raw_data= pd.DataFrame({'uid':uid,
                        'cityLevel':cityLevel,
                        'gender':gender,
                        'device':device,
                        'age':age,
                        'activeDays':activeDays,
                       })

raw_data.head()

image-20230206155348234

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 数据随机切分,模拟实验分流
test, control= train_test_split(raw_data.copy(), test_size=.5, random_state=0)
# 模拟用户收藏转化率
test['collect']=stats.bernoulli.rvs(0.023, size=test.shape[0], random_state=0)
control['collect']=stats.bernoulli.rvs(0.02, size=control.shape[0], random_state=0)
# 数据拼接,模拟数据收集结果
test['flag'] = 'test'
control['flag'] = 'control'
df = pd.concat([test, control])

分析测试结果

  • 样本比例合理性检验
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 查看样本比例
sns.countplot(x='flag', data=df)
plt.show()

# 查看离散变量的分布
fig, ax =plt.subplots(1, 3, constrained_layout=True, figsize=(12, 3))
for i, x in enumerate(['cityLevel', 'gender', 'device']):
    sns.countplot(x=x, data=df, hue='flag', ax=ax[i])
plt.show()

# 查看连续变量的分布
fig, ax =plt.subplots(1, 3, constrained_layout=True, figsize=(12, 3))
for i, x in enumerate(['age', 'activeDays', 'collect']):
    sns.histplot(x=x, data=df, hue='flag', ax=ax[i])
plt.show()

output_43_0

output_43_1

output_43_2

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 检验样本比例一致性
n1=control.size
n2=test.size
p1=p2=0.5
two_sample_proportion_test(n1, n2, p1, p2)
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
两样本比例校验: 通过
  • 样本特征一致性校验
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 检验特征分布一致性
cols=['cityLevel', 'gender', 'device', 'age', 'activeDays']
feature_dist_ks(cols, test, control)
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
cityLevel: 相似
gender: 相似
device: 相似
age: 相似
activeDays: 相似
  • 显著性检验
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 显著性检验
count1=test['collect'].sum()
nobs1=test['collect'].size
count2=control['collect'].sum()
nobs2=control['collect'].size

prob_cal_significant(count1, nobs1, count2, nobs2)
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
(3.8761435754191123,
 0.00010612507775057984,
 [0.0013796298310413291, 0.004202600259759636])

  • p值小于5%,置信区间不包含0。因此整体上可以认为此次优化有助于提高【把喜欢的音乐加入收藏夹】功能的使用率。
  • 但是需要注意置信区间最小提升为0.0014,而在自然波动的最大提升是0.0019(0.0219-0.02),所以此次提升有可能在自然波动范围内,可能存在业务不显著,需要额外关注。
  • 拓展-维度下钻分析
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 进行维度下钻分析,采用BH法进行多重检验校正
feature=[]
value=[]
pvaules=[]
for x in ['cityLevel', 'gender', 'device']:
    for i in df[x].unique():
        feature.append(x)
        value.append(i)
        # 构造细分维度的样本
        te=test[test[x]==i]
        co=control[control[x]==i]
        # 计算细分维度的p值
        c1=te['collect'].sum()
        n1=te['collect'].size
        c2=co['collect'].sum()
        n2=co['collect'].size
        p=prob_cal_significant(c1, n1, c2, n2)[1]
        pvaules.append(p)
    
df_multiple=pd.DataFrame({'feature':feature,
                        'value':value,
                        'pvaules':pvaules
                       })
df_multiple

image-20230206155415768

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 多重检验校正
print(multiple_tests_adjust(df_multiple['pvaules']))
df_multiple['pvaules_correct']=multiple_tests_adjust(df_multiple['pvaules'])[1]
df_multiple['reject']=multiple_tests_adjust(df_multiple['pvaules'])[0]
df_multiple
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
(array([False, False, False,  True,  True,  True,  True,  True]), array([7.60220226e-01, 7.54367218e-02, 1.49044597e-01, 3.53217899e-05,
       1.77798888e-02, 1.10151024e-02, 1.10151024e-02, 1.97199451e-02]), 0.00625)

image-20230206155435070

维度下钻发现,一线、二线和四线+城市提升不显著

实验报告

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 关键数据展示

# 样本及均值
print('control:' ,f'sample {control.shape[0]} / mean:{control.collect.mean()}')
print('test:' ,f'sample {test.shape[0]} / mean:{test.collect.mean()}')
# 实验周期
print('times:', test_time)
# diff
print('diff:', test['collect'].mean()-control['collect'].mean())
# p值
print('p-value:', prob_cal_significant(count1, nobs1, count2, nobs2)[1])
# diff-置信区间
print('diff-ci:', prob_cal_significant(count1, nobs1, count2, nobs2)[2])
# 维度下钻结果
print('dim-result:')
for i,v in zip(df_multiple.value,df_multiple.reject):
    print(' '*2,f'{i}:{v}')
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
control: sample 80640 / mean:0.019952876984126983
test: sample 80640 / mean:0.022743055555555555
times: 10
diff: 0.002790178571428572
p-value: 0.00010612507775057984
diff-ci: [0.0013796298310413291, 0.004202600259759636]
dim-result:
   二线:False
   四线+:False
   一线:False
   三线:True
   F:True
   M:True
   Android:True
   Ios:True

  • 实验10天,收集到实验组数据80640,对照组80640,共计161280。
  • 实验过程无异常,实验组人均收藏率为0.023,较对照组提高0.003
  • 整体上,实验组的提升是显著的,且提升范围在[0.001, 0.004]之间。但可能存在业务不显著,需要额外关注
  • 通过维度下钻,发现实验组在一线、二线和四线+城市提升不显著

总结

现在,关于均值类和概率类的所有实验细节和模拟实战都已结束,相信大家对如何科学地进行A/B试验已经了然于胸了吧~

共勉~

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-10-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 HsuHeinrich 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
AB试验(六)A/B实验常见知识点的Python计算
前面理论知识上提到了很多的知识点需要计算,作为一个实用主义的博主,怎么可以忍受空谈呢?所以本期就给大家分享如何利用Python对这些知识点进行计算。
HsuHeinrich
2023/10/25
9080
AB试验(六)A/B实验常见知识点的Python计算
因果推断(三)双重差分法(DID)
双重差分法是很简单的群体效应估计方法,只需要将样本数据随机分成两组,对其中一组进行干预。在一定程度上减轻了选择偏差带来的影响。
HsuHeinrich
2023/09/07
1.1K0
因果推断(三)双重差分法(DID)
【统计学基础】从可视化到统计检验,比较两个或多个变量分布的方法总结
因为是随机的所以两组个体不会完全的相同(identical)。但是有时候,它们在总体表现时甚至不是“相似”的(similar)。例如,我们可能在一个群体中有更多的男性,或者年长的人,等等。(我们通常称这些特征为协变量或控制变量)。当这种情况发生时,就不能再确定结果的差异只是由于实验得来的。因此,随机化后,检查所有观察变量是否在组间平衡,是否没有系统差异是非常重要的。
Ai学习的老章
2023/01/11
2.3K0
如何比较两个或多个分布:从可视化到统计检验的方法总结
来源:DeepHub IMBA本文6400字,建议阅读12分钟我们看到了很多不同的方法来比较两个或多个分布,无论是在可视化上还是在统计上。 比较一个变量在不同组中的分布是数据科学中的一个常见问题。当我们想要评估一项策略(用户体验功能、广告活动、药物等)的因果效应时,因果推断的黄金标准便是随机对照试验,也就是所谓的A /B测试。在实践中,我们为研究选择一个样本,并将其随机分为对照组(control group)和实验组(treatment group)比较两组之间的结果。随机化确保了两组之间的唯一差异,这样我
数据派THU
2022/07/25
1.7K0
如何比较两个或多个分布:从可视化到统计检验的方法总结
AB测试实战
严谨的产品迭代过程(策略,算法, 界面调整, 功能调整), 一定要先经过AB测试, 在少部分流量上进行测试, 没问题了再逐渐放量
@小森
2024/06/06
1910
AB测试实战
异动分析(四)利用Python计算指标贡献度
虽然不是必要的,但有时候异动的原因多个,通过计算每个原因的贡献程度即可以很好的分清主次。这里主要根据博客如何快速量化增长指标的各因子贡献[1]进行python化计算,主要采取的是相对贡献,即在指定维度下,各细分维度的总贡献为100%。
HsuHeinrich
2023/03/29
2.4K0
异动分析(四)利用Python计算指标贡献度
爱数课实验 | 第九期-利用机器学习方法进行健康智能诊断
简介:慢性肝病近年来对印度负担很高, 2017年由于肝硬化导致近22万人死亡。慢性肝病也会带来严重疾病的重叠感染,急性慢性肝功能衰竭,增加暴发性肝功能衰竭和死亡率。在本次案例中,我们对影响印度肝病发生的指标进行了探索性分析,并建立机器学习分类模型,对肝病进行自动智能诊断。
数据科学人工智能
2022/06/27
9300
爱数课实验 | 第九期-利用机器学习方法进行健康智能诊断
Python实战:A/B试验提升课程转化率的成效分析(二)
数据集和完整代码移步知识星球:https://t.zsxq.com/aAMByVv
数据万花筒
2021/09/17
6160
Python实战:A/B试验提升课程转化率的成效分析(二)
生存分析——跟着lifelines学生存分析建模(三)
github地址:CamDavidsonPilon/lifelines 文档地址:lifelines
悟乙己
2021/12/07
3.3K1
生存分析——跟着lifelines学生存分析建模(三)
自动化系列(四)Python实现钉钉机器人
定期数据需求除了以邮件的形式交付外,也可以发送到工作群里通知相关人员及时关注,本文将介绍如何推送数据到钉钉群里并@相关人员及时关注。
HsuHeinrich
2023/02/24
1.4K0
自动化系列(四)Python实现钉钉机器人
独家 | 如何比较两个或多个分布形态(附链接)
作者:Matteo Courthoud 翻译:陈超校对:赵茹萱本文约7700字,建议阅读15分钟本文从可视化绘图视角和统计检验的方法两种角度介绍了比较两个或多个数据分布形态的方法。 从可视化到统计检验全方位分布形态比较指南: 图片来自作者 比较同一变量在不同组别之间的经验分布是数据科学当中的常见问题,尤其在因果推断中,我们经常在需要评估随机化质量时遇到上述问题。 我们想评估某一政策的效果(或者用户体验功能,广告宣传,药物,……),因果推断当中的金标准就是随机对照试验,也叫作A/B测试。在实际情况下,我们会
数据派THU
2022/08/29
2.2K0
独家 | 如何比较两个或多个分布形态(附链接)
统计系列(四)利用Python进行假设检验
核心:一个多分类自变量与另一个多分类因变量。如检验学历(低、中、高)在收入等级(低、中、高)上的差异
HsuHeinrich
2023/03/16
1.3K0
统计系列(四)利用Python进行假设检验
python时间序列分析代码_时间序列分析VAR实验报告
题记:毕业一年多天天coding,好久没写paper了。在这动荡的日子里,也希望写点东西让自己静一静。恰好前段时间用python做了一点时间序列方面的东西,有一丁点心得体会想和大家分享下。在此也要特别感谢顾志耐和散沙,让我喜欢上了python。
全栈程序员站长
2022/09/19
1.1K0
python时间序列分析代码_时间序列分析VAR实验报告
时间序列模型(ARIMA和ARMA)完整步骤详述「建议收藏」
我于2019年发布此篇文章至今收获了许多人的指点,当时的代码的确晦涩难懂,近期有空,将代码重新整理了一遍,重新发送至此。希望能够帮助大家更好地理解。
全栈程序员站长
2022/08/25
7.8K0
时间序列模型(ARIMA和ARMA)完整步骤详述「建议收藏」
因果推断(二)倾向匹配得分(PSM)
前文介绍了如何通过合成控制法构造相似的对照组,除此之外,也可以根据倾向匹配得分(PSM)进行构造,即为每一个试验组样本在对照组中找对与之相似的样本进行匹配。PSM 通过统计学模型计算每个样本的每个协变量的综合倾向性得分,再按照倾向性得分是否接近进⾏匹配。本文参考自PSM倾向得分匹配法[1]。
HsuHeinrich
2023/08/10
8960
因果推断(二)倾向匹配得分(PSM)
python单因素方差分析实例
做方差分析的时候数据需要满足正态分布;方差齐性等。正常拿到数据后需要对数据是否符合正态分布和组间方差是否一致做检验。如何来做以上两个检验今天先忽略掉,在默认拿到的数据符合条件后直接在做单因素方差分析。
用户7010445
2020/03/03
3.1K0
分享一个超详细的数据分析案例【Python】附ABTest详细介绍
另外,我主页上还有不少与ABTest和数据分析相关的博客,感兴趣的朋友可以再去看看,希望能给你带来收获!
润森
2022/08/18
2.8K0
分享一个超详细的数据分析案例【Python】附ABTest详细介绍
基于生存分析模型的用户流失预测
生存模型就能很好的地解决上面的问题,生存分析(Survival analysis)是指根据历史数据对人的生存时间进行分析和推断,研究生存情况与众多影响因素间的关系。本文参考自python数据分析案例-利用生存分析Kaplan-Meier法与COX比例风险回归模型进行客户流失分析与剩余价值预测[1]。
HsuHeinrich
2023/05/25
1.4K1
R语言nlme、nlmer、lme4用(非)线性混合模型non-linear mixed model分析藻类数据实例|附代码数据
混合线性模型,又名多层线性模型(Hierarchical linear model)。它比较适合处理嵌套设计(nested)的实验和调查研究数据
拓端
2023/04/20
1K0
计算与推断思维 十六、比较两个样本
最近邻分类方法的动机是这样的,个体可能像最近的邻居。 从另一个角度来看,我们可以说一个类别的个体不像另一个类别中的个体。 机器学习为我们提供了一种有力的方法来发现这种相似性的缺乏,并将其用于分类。 它揭示了一种模式,通过一次检查一两个属性,我们不一定能发现它。
ApacheCN_飞龙
2022/12/01
4910
推荐阅读
相关推荐
AB试验(六)A/B实验常见知识点的Python计算
更多 >
LV.0
这个人很懒,什么都没有留下~
目录
  • AB试验(七)利用Python模拟A/B试验
    • 均值类指标实验模拟
      • 实验前准备
      • 确定目标和假设
      • 确定指标
      • 确定实验单位
      • 样本量估算
      • 随机分组
      • 测试时间的估算
      • 实施测试
      • 分析测试结果
      • 实验报告
    • 概率类指标实验模拟
      • 实验前准备
      • 确定目标和假设
      • 确定指标
      • 确定实验单位
      • 样本量估算
      • 随机分组
      • 测试时间的估算
      • 实施测试
      • 分析测试结果
      • 实验报告
    • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档