25分钟
学习控制参数
max_depth
: 一个整数,限制了树模型的最大深度,默认值为-1
。如果小于0,则表示没有限制。min_data_in_leaf
或者min_data_per_leaf
或者min_data
或者min_child_samples
: 一个整数,表示一个叶子节点上包含的最少样本数量。默认值为 20min_sum_hessian_in_leaf
或者min_sum_hessian_per_leaf
或者min_sum_hessian
或者min_hessian
或者min_child_weight
: 一个浮点数,表示一个叶子节点上的最小hessian
之和。(也就是叶节点样本权重之和的最小值) 默认为1e-3
。feature_fraction
或者sub_feature
或者colsample_bytree
: 一个浮点数,取值范围为[0.0,1.0]
, 默认值为1.0
。 如果小于1.0
,则lightgbm
会在每次迭代中随机选择部分特征。如0.8
表示:在每棵树训练之前选择80%
的特征来训练。feature_fraction_seed
: 一个整数,表示feature_fraction
的随机数种子,默认为2。bagging_fraction
或者sub_row
或者subsample
:一个浮点数,取值范围为[0.0,1.0]
, 默认值为1.0
。 如果小于1.0
,则lightgbm
会在每次迭代中随机选择部分样本来训练(非重复采样)。如0.8
表示:在每棵树训练之前选择80%
的样本(非重复采样)来训练。bagging_freq
或者subsample_freq
: 一个整数,表示每bagging_freq
次执行bagging
。 如果该参数为0
,表示禁用bagging
。bagging_seed
或者bagging_fraction_seed
: 一个整数,表示bagging
的随机数种子,默认为 3 。early_stopping_round
或者early_stopping_rounds
或者early_stopping
: 一个整数,默认为0。 如果一个验证集的度量在early_stopping_round
循环中没有提升,则停止训练。如果为0则表示不开启早停。lambda_l1
或者reg_alpha
: 一个浮点数,表示L1
正则化系数。默认为0lambda_l2
或者reg_lambda
: 一个浮点数,表示L2
正则化系数。默认为0min_split_gain
或者min_gain_to_split
: 一个浮点数,表示执行切分的最小增益,默认为0drop_rate
: 一个浮点数,取值范围为[0.0,1.0]
,表示dropout
的比例,默认为0.1。 该参数仅在dart
中使用skip_drop
: 一个浮点数,取值范围为[0.0,1.0]
,表示跳过dropout
的概率,默认为0.5。 该参数仅在dart
中使用max_drop
: 一个整数,表示一次迭代中删除树的最大数量,默认为50。 如果小于等于0,则表示没有限制。 该参数仅在dart
中使用uniform_drop
:一个布尔值,表示是否想要均匀的删除树,默认值为False
。 该参数仅在dart
中使用xgboost_dart_mode
: 一个布尔值,表示是否使用xgboost dart
模式,默认值为False
。该参数仅在dart
中使用drop_seed
: 一个整数,表示dropout
的随机数种子,默认值为 4。 该参数仅在dart
中使用top_rate
: 一个浮点数,取值范围为[0.0,1.0]
,表示在goss
中,大梯度数据的保留比例,默认值为 0.2。该参数仅在goss
中使用other_rate
: 一个浮点数,取值范围为[0.0,1.0]
,表示在goss
中,小梯度数据的保留比例,默认值为 0.1。该参数仅在goss
中使用min_data_per_group
:一个整数,表示每个分类组的最小数据量,默认值为100。用于排序任务max_cat_threshold
: 一个整数,表示category
特征的取值集合的最大大小。默认为 32 。cat_smooth
: 一个浮点数,用于category
特征的概率平滑。默认值为 10。 它可以降低噪声在category
特征中的影响,尤其是对于数据很少的类。cat_l2
: 一个浮点数,用于category
切分中的L2
正则化系数。默认为 10 。top_k
或者topk
: 一个整数,用于投票并行中。默认为20 。 将它设置为更大的值可以获得更精确的结果,但是会降低训练速度。
学员评价