课程评价 (0)

请对课程作出评价:
0/300

学员评价

暂无精选评价
15分钟

方法:

  • .construct(): 延迟初始化函数。它返回当前的Dataset 本身
  • .create_valid(data,label=None,weight=None,group=None,init_score=None,silent=False,params=None): 创建一个验证集(其格式与当前的Dataset 相同)
    • 参数:参考Dataset 的初始化函数
    • 返回值:当前的Dataset 本身
  • .get_field(field_name): 获取当前Dataset 的属性 它要求Dataset 已经构建完毕。否则抛出Cannot get group before construct Dataset 异常。
    • 参数:field_name: 一个字符串,指示了属性的名字
    • 返回值:一个numpy array, 表示属性的值。如果属性不存在则返回None
  • .set_field(field_name,data): 设置当前Dataset 的属性
    • 参数:
      • field_name: 一个字符串,指示了属性的名字
      • data: 一个列表、numpy array 或者None,表示属性的值
  • .get_group(): 获取当前Datasetgroup get_xxx() 等方法,都是调用的 get_field() 方法来实现的
    • 返回值:一个numpy array,表示每个分组的size
  • .set_group(group): 设置当前Datasetgroup
    • 参数:group: 一个列表、numpy array 或者None,表示每个分组的size
  • .get_init_score(): 获取当前Dataset 的初始化score get_xxx() 等方法,都是调用的 get_field() 方法来实现的
    • 返回值:一个numpy array,表示Booster 的初始化score
  • .set_init_score(init_score): 设置Booster 的初始化score
    • 参数:init_score: 一个列表、numpy array 或者None,表示Booster的初始化score
  • .get_label(): 获取当前Dataset 的标签 get_xxx() 等方法,都是调用的 get_field() 方法来实现的
    • 返回值:一个numpy array,表示当前Dataset 的标签信息
  • .set_label(label): 设置当前Dataset 的标签
    • 参数:label: 一个列表、numpy array 或者None,表示当前Dataset 的标签信息
  • .get_ref_chain(ref_limit=100): 获取Dataset 对象的reference 链。 假设d 为一个Dataset 对象,则只要d.reference存在,则获取d.reference;只要d.reference.reference存在,则获取d.reference.reference...
    • 参数:ref_limit: 一个整数,表示链条的最大长度
    • 返回值:一个Dataset 的集合
  • .set_reference(reference): 设置当前Datasetreference
    • 参数:reference: 另一个Dataset 对象,它作为创建当前Dataset 的模板
  • .get_weight(): 返回Dataset 中每个样本的权重 get_xxx() 等方法,都是调用的 get_field() 方法来实现的
    • 返回值:一个numpy array,表示当前Dataset 每个样本的权重
  • .set_weight(weight): 设置Dataset 中每个样本的权重
    • 参数:weight: 一个列表、numpy array 或者None,表示当前Dataset 每个样本的权重
  • .num_data(): 返回Dataset 中的样本数量
  • .num_feature(): 返回Dataset 中的特征数量
  • .save_binary(filename): 以二进制文件的方式保存Dataset
    • 参数:filename: 保存的二进制文件的文件名
  • .set_categorical_feature(categorical_feature): 设置categorical 特征
    • 参数:categorical_feature: 一个字符串列表或者整数列表。给出了categorical 特征的名字,或者给出了categorical 特征的下标
  • .set_feature_name(feature_name): 设置特征名字
    • 参数:feature_name: 一个字符串列表。给出了特征名字
  • .subset(used_indices,params=None): 获取当前Dataset 的一个子集
    • 参数:
      • used_indices: 一个整数的列表,它给出了当前Dataset 中样本的下标。这些样本将构建子集
      • params: 一个字典或者None,给出了其它的参数。默认为None
    • 返回值:一个新的Dataset 对象。