我正在查看著名的泰坦尼克号数据集,该数据集来自于这里的卡格尔竞赛:
我已经使用以下命令加载和处理了数据:
# import required libraries
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
# load the data from the file
df = pd.read_csv('./data/train.csv')
# import the scatter_matrix functionality
from pandas.tools.plotting im
我目前正在做一个项目,我正在分析员工。在这个数据集中,我还有一个缺勤的表,按天数计算。我想把这个栏目分为三类:短期缺勤(<8天),中度缺勤(8-43天),长期缺勤(43 - 366天)和超长缺勤(>366天)。但是,当我尝试使用Bigquery中的IF语句执行此操作时,我得到了以下错误:
Error: No matching signature for function IF for argument types: BOOL. Supported signature: IF(BOOL, ANY, ANY) at [12:3]
因此,根据这个错误,如果该列的值超过2个,我就不能使用I
这可能是一个基本的问题,我有一个分类的数据,我想把它输入我的机器学习模型。我的ML模型只接受数值数据。将这些分类数据转换为数字数据的正确方法是什么?
我的样本DF:
T-size Gender Label
0 L M 1
1 L M 1
2 M F 1
3 S F 0
4 M M 1
5 L M 0
6 S F 1
7 S F 0
8 M
我有这样的数据集:
VisitID | Item |
1 | A |
1 | B |
1 | C |
1 | D |
2 | A |
2 | D |
2 | B |
3 | B |
3 | C |
4 | D |
4 | C |
我想根据集合论条件为项目创建一个分类栏目: VisitID只包含A、B、C、A&B、A&C、B&C、A&B&C、其他(A、B、C都不