在数据分析中,常常需要根据某些变量的值来创建新的分类变量。基于标准差(SD)和均值(mean)来创建具有高、中、低水平的新分类变量是一种常见的方法。以下是详细步骤和相关概念:
x
。x
的均值(mean)和标准差(SD)。import pandas as pd
# 示例数据
data = {'x': [10, 12, 14, 16, 18, 20, 22, 24, 26, 28]}
df = pd.DataFrame(data)
# 计算均值和标准差
mean_x = df['x'].mean()
std_x = df['x'].std()
# 创建新分类变量
df['category'] = 'Medium'
df.loc[df['x'] > mean_x + std_x, 'category'] = 'High'
df.loc[df['x'] < mean_x - std_x, 'category'] = 'Low'
print(df)
通过上述方法,你可以有效地基于SD和mean创建具有高、中、低水平的新分类变量,并应用于各种实际场景中。
领取专属 10元无门槛券
手把手带您无忧上云