15分钟
方法:
.construct()
: 延迟初始化函数。它返回当前的Dataset
本身.create_valid(data,label=None,weight=None,group=None,init_score=None,silent=False,params=None)
: 创建一个验证集(其格式与当前的Dataset
相同)- 参数:参考
Dataset
的初始化函数 - 返回值:当前的
Dataset
本身
- 参数:参考
.get_field(field_name)
: 获取当前Dataset
的属性 它要求Dataset
已经构建完毕。否则抛出Cannot get group before construct Dataset
异常。- 参数:
field_name
: 一个字符串,指示了属性的名字 - 返回值:一个
numpy array
, 表示属性的值。如果属性不存在则返回None
- 参数:
.set_field(field_name,data)
: 设置当前Dataset
的属性- 参数:
field_name
: 一个字符串,指示了属性的名字data
: 一个列表、numpy array
或者None
,表示属性的值
- 参数:
.get_group()
: 获取当前Dataset
的group
get_xxx()
等方法,都是调用的get_field()
方法来实现的- 返回值:一个
numpy array
,表示每个分组的size
。
- 返回值:一个
.set_group(group)
: 设置当前Dataset
的group
- 参数:
group
: 一个列表、numpy array
或者None
,表示每个分组的size
。
- 参数:
.get_init_score()
: 获取当前Dataset
的初始化score
get_xxx()
等方法,都是调用的get_field()
方法来实现的- 返回值:一个
numpy array
,表示Booster
的初始化score
- 返回值:一个
.set_init_score(init_score)
: 设置Booster
的初始化score
- 参数:
init_score
: 一个列表、numpy array
或者None
,表示Booster
的初始化score
- 参数:
.get_label()
: 获取当前Dataset
的标签get_xxx()
等方法,都是调用的get_field()
方法来实现的- 返回值:一个
numpy array
,表示当前Dataset
的标签信息
- 返回值:一个
.set_label(label)
: 设置当前Dataset
的标签- 参数:
label
: 一个列表、numpy array
或者None
,表示当前Dataset
的标签信息
- 参数:
.get_ref_chain(ref_limit=100)
: 获取Dataset
对象的reference
链。 假设d
为一个Dataset
对象,则只要d.reference
存在,则获取d.reference
;只要d.reference.reference
存在,则获取d.reference.reference
...- 参数:
ref_limit
: 一个整数,表示链条的最大长度 - 返回值:一个
Dataset
的集合
- 参数:
.set_reference(reference)
: 设置当前Dataset
的reference
- 参数:
reference
: 另一个Dataset
对象,它作为创建当前Dataset
的模板
- 参数:
.get_weight()
: 返回Dataset
中每个样本的权重get_xxx()
等方法,都是调用的get_field()
方法来实现的- 返回值:一个
numpy array
,表示当前Dataset
每个样本的权重
- 返回值:一个
.set_weight(weight)
: 设置Dataset
中每个样本的权重- 参数:
weight
: 一个列表、numpy array
或者None
,表示当前Dataset
每个样本的权重
- 参数:
.num_data()
: 返回Dataset
中的样本数量.num_feature()
: 返回Dataset
中的特征数量.save_binary(filename)
: 以二进制文件的方式保存Dataset
- 参数:
filename
: 保存的二进制文件的文件名
- 参数:
.set_categorical_feature(categorical_feature)
: 设置categorical
特征- 参数:
categorical_feature
: 一个字符串列表或者整数列表。给出了categorical
特征的名字,或者给出了categorical
特征的下标
- 参数:
.set_feature_name(feature_name)
: 设置特征名字- 参数:
feature_name
: 一个字符串列表。给出了特征名字
- 参数:
.subset(used_indices,params=None)
: 获取当前Dataset
的一个子集- 参数:
used_indices
: 一个整数的列表,它给出了当前Dataset
中样本的下标。这些样本将构建子集params
: 一个字典或者None
,给出了其它的参数。默认为None
- 返回值:一个新的
Dataset
对象。
- 参数:
学员评价