从Python数据帧的文本列中创建虚拟变量和分类变量的方法有多种。下面是一种常见的方法:
import pandas as pd
from sklearn.preprocessing import OneHotEncoder
data = {'文本列': ['苹果', '香蕉', '橙子', '苹果', '橙子']}
df = pd.DataFrame(data)
dummy_variables = pd.get_dummies(df['文本列'])
这将根据文本列的不同取值创建虚拟变量列,每个取值对应一列,取值存在的地方为1,否则为0。
encoder = OneHotEncoder()
encoded_variables = encoder.fit_transform(df[['文本列']])
这将根据文本列的不同取值创建分类变量列,每个取值对应一列,取值存在的地方为1,否则为0。
虚拟变量和分类变量的应用场景包括机器学习中的特征编码、数据分析中的数据转换等。
腾讯云相关产品和产品介绍链接地址:
领取专属 10元无门槛券
手把手带您无忧上云