dask_lightgbm使用了完整的训练集吗？_验证集是训练集的一部分吗？_是否将完整列表划分为k倍的训练和测试集？ - 腾讯云开发者社区

、

我正在阅读dask-lightgbm估计器的实现(特别是dask_lightgb.core.py中的_train_part函数)，但我无法理解如何使用整个训练集来拟合最终的估计器？从逻辑上讲，每个工人都被分配到整个模型训练集的1/n块-其中n=工人总数-然后每个工人在自己的训练集的子集上训练自己的独立模型。finally:

浏览 38提问于2020-10-20得票数 0

2回答

从训练数据子集和整个测试数据(不是整个训练数据)创建学习曲线？

、、

假设我正在创建这样的学习曲线(代码中可能有一些小错误，这只是一个示例)。我想要的是一个经典的学习曲线，你可以扩大训练集，使验证/测试集保持相同的大小。list(setAggregation(auc, train.mean), setAggregation(auc, test.mean))以上代码的问题在于，学习者确实接受了关于训练数据的一部分的训练

浏览 10提问于2016-11-23得票数 2

回答已采纳

2回答

朴素贝叶斯训练集优化

、

我正在开发一个朴素的贝叶斯分类器，它采用了一系列用户配置文件数据，例如：CitySchoolURLS { ... }我的<

浏览 0提问于2014-01-30得票数 0

1回答

深度学习:在较小一部分数据上开始培训是否有意义？

、、、、

我用一小部分数据训练了一个深度神经网络，使我能够在短时间内经历多个时代，使模型能够合理地运行，然后给出整个数据集(10倍以上的数据)，并进一步改进。当我只给出整个数据集时，模型似乎表现得很糟糕，但由于训练所需的额外时间，很难达到许多时代。我的问题是:用较小的数据子集“热身”训练一个大的深层神经网络是有意义的，还是应该总是提供完整的</e

浏览 0提问于2018-08-17得票数 4

1回答

特征选择(Boruta)

、、、

我正在做信用风险建模，数据有大量的特性，我正在使用boruta软件包进行特征选择。该包计算成本太高，无法在完整的培训数据集上运行。我想要做的是获取训练数据的一个子集(比如20-30%)，并在该子集数据上运行boruta包，并获得重要的特性。但是当我使用随机森林来训练数据时，我也使用了完整的数据集。我的问题是，只在一部分训练数据上

浏览 2提问于2017-05-03得票数 0

回答已采纳

1回答

清理平均前后的NaNs？

、、、

这会导致价值观的偏差。我是否“符合”我的培训数据的平均值，就像缩放一样？还是使用整个数据集取平均值？

浏览 0提问于2021-01-05得票数 0

1回答

如何将MNIST训练数据集划分为子部分？

、、、

背景:我试图用Caffe来训练MNIST数据集的不同子样本(1模型为10,000，另一模型为20,000个样本，等等，直到所有60,000个训练样本的模型)。问:如何将60000个样本的培训数据集细分，使培训文件的格式与最初在http://yann.lecun.com/exdb/mnist/上发布的相同(完整)。 📷

浏览 0提问于2017-12-10得票数 1

1回答

应用欠采样技术训练和测试数据

、

我知道，如果您执行某种转换，并且使用fit()，那么您必须同时转换()训练集和测试集。假设您对培训数据应用了有针对性的欠采样技术(如TomekLinks )，以使模型能够更好地识别\单独的类。问题:如果要使用该模型对测试集进行预测，是否也对测试集执行相同的欠采样技术，还是仅在培训集上使用欠采样来帮助模型澄清类边界。然后将经过训练的模型应用于完整的</em

浏览 0提问于2021-11-04得票数 1

回答已采纳

2回答

用主成分分析法展开维数

、

我试图使用the算法进行降维，我知道这不是这个算法的主要用途，也不推荐。我看到了一个在t上实现的这里。，我不相信这个实现。该算法的工作方式如下：在完整数据集上运行the (不包括目标变量) 将the的输出作为K个新列添加到完整的数据集中，K是the的映射维数。将整个数据

浏览 0提问于2022-03-14得票数 1

回答已采纳

2回答

如何计算自定义数据集上TF对象检测API的准确率？

、

我正在使用TF对象检测API来检测自定义数据集上的对象，但是当涉及到精度时，我不知道如何计算它，因此，如何计算自定义数据集上的对象检测模型的准确性？并找到模型在测试数据集上的置信度分数？

浏览 1提问于2019-10-31得票数 0

1回答

通常，对于ML工作流，我们导入数据(X和y)，将X和y划分为train、valid和test，对train、valid和test的数据进行预处理(缩放、编码、计算nan值等)，执行HP调优，在得到最佳HP模型后，将最终模型拟合到整个数据集(即X和y)。现在的问题是，X和y不是预处理的，因为只有train、valid和test是预处理的。因此，当在X和y上拟合最终模型时，我们将得到一个错误，因为我们还没有对X和y进行编码(并执行其他预处理步骤)。那么我们应该如何在整个数据集上训练<

浏览 0提问于2021-11-29得票数 1

回答已采纳

1回答

使用Weka分类没有给出精度、Fmeasure和MCC的任何结果

、、、、

我有一个数据集。数据集有一些分类值和一些离散值。我的数据集是一个不平衡数据集。我使用Weka提供的Resample过滤器将数据集分为60%的训练数据和40%的测试数据。为了使数据集平衡，我使用了SMOTE技术。在那之后，我使用随机森林对数据集进行分类。现在我不能理解结果中的?是什么意思？其次，为什么假阳性和真

浏览 20提问于2021-10-21得票数 0

2回答

Keras关注引导CNN问题

、、、

我正在为XRay图像分类而工作，我似乎无法对它进行适当的训练。📷本地分支是没有预培训的ResNet或DenseNet (我使用了DenseNet)。它是在裁剪的数据<em

浏览 0提问于2018-12-23得票数 4

回答已采纳

1回答

哪个更好:交叉验证还是用于超参数优化的验证集？

、

对于超参数优化，我看到两种方法：那

浏览 0提问于2020-08-12得票数 2

回答已采纳

1回答

我可以在组合( train+dev)集上训练微调模型，然后用测试集进行评估吗？

、

我正在使用的数据集由训练集和测试集组成。为了对深度学习模型进行微调，使用10%的训练集作为验证集。找到最佳超参数值后，有两个可能的选项b)使用测试集评估模型(即，在完整训练集上重

浏览 4提问于2019-05-06得票数 0

1回答

R: randomForest中的额外随机性？

出于好奇，我在一个训练数据集上使用了包"randomForest“中的randomForest方法，以查看它与”树“包中提供的回归树方法之间的关系。mtry = var, ntree = 1,其中var是公式中的变量数由于采用了所有变量，采样是在完整的训练</e

浏览 4提问于2015-11-06得票数 2

1回答

GridSearchCV:根据mean_test_score的结果，预测应该表现得更糟，但事实并非如此。

、、

那么，按照这个概念背后的推理，当我将best_estimator_应用于整个数据集时，我希望看到至少部分数据预测的不完美，对吗？相反，对于所有数据点，预测量与实数之间的数值偏差接近于零。我不明白这一点，因为如果我删除一小部分数据并将GridSearchCV应用于其余部分，我会发现几乎相同的结果，但应用于完全看不见的数据的最佳回归值预测的误差要高得多，比如10%、30%或50%。这正是我所期望的，至少在某些点上，根据k

浏览 0提问于2018-07-27得票数 3

2回答

如何在python中调整图像大小以进行机器学习？

、、、

我使用了一个图像数据集进行机器学习训练。每个图像都有64px的宽度和64px的高度。现在，我想使用来自google的图像来测试我的机器学习模型。问题是google图像比训练图像大，我想调整它们的大小，使它们的高度和宽度为64px (就像训练集中的图像一样)。在python中有什么方法可以做到这一点吗？我确实找到了一些方法，但它们都保持纵横比。

浏览 0提问于2020-02-28得票数 0

1回答

测试整个数据集的模型性能是否正确？

、、

使用函数train_test_split()将数据集按75:25的比例划分为训练集和测试集。该模型是在数据集x_train和y_train上进行训练的(高斯朴素贝叶斯、随机森林、k近邻等分类器模型)。我们现在可以使用完整的数据集，即x和y来测试模型吗？

浏览 7提问于2020-02-27得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云