如何在意外情况下拆分数据集和交叉验证？

在意外情况下拆分数据集和交叉验证是在机器学习和数据科学领域中常见的任务。这个任务的目的是将数据集划分为训练集和测试集，并进行交叉验证以评估模型的性能。

拆分数据集的方法有多种，以下是一些常用的方法：

随机拆分：将数据集随机划分为训练集和测试集。可以使用随机函数或者随机采样的方法来实现。这种方法简单快捷，但可能会导致训练集和测试集的分布不一致。
时间序列拆分：对于时间序列数据，可以按照时间顺序将数据集划分为训练集和测试集。通常可以选择最新的一部分数据作为测试集，其余部分作为训练集。这种方法适用于具有时间相关性的数据。
分层拆分：对于分类问题，可以使用分层拆分方法来确保训练集和测试集中各类别样本的比例相似。这样可以避免某个类别在测试集中过于稀缺或过于频繁。

交叉验证是一种评估模型性能的方法，常用的方法有以下几种：

k折交叉验证：将数据集划分为k个子集，每次使用其中k-1个子集作为训练集，剩下的一个子集作为测试集，重复k次，最后将k次的评估结果取平均值作为模型的性能指标。
留一交叉验证：将数据集划分为n个子集，每次使用其中n-1个子集作为训练集，剩下的一个子集作为测试集，重复n次，最后将n次的评估结果取平均值作为模型的性能指标。适用于数据集较小的情况。
分层交叉验证：在分层拆分的基础上进行交叉验证，确保训练集和测试集中各类别样本的比例相似。

对于拆分数据集和交叉验证的应用场景，主要是在模型的开发和评估过程中使用。通过拆分数据集，可以将数据划分为训练集和测试集，用于模型的训练和评估。而交叉验证则可以更准确地评估模型的性能，避免过拟合或欠拟合的问题。

在腾讯云的产品中，可以使用腾讯云机器学习平台（https://cloud.tencent.com/product/tcml）来进行数据集的拆分和交叉验证。该平台提供了丰富的机器学习工具和算法，可以帮助用户进行数据处理、模型训练和评估等任务。

将k-折叠交叉验证应用于数据集的混淆

、

我有一个数据集，它已经被分成10倍，每个折叠都有训练、验证和测试集。我无法理解如何在这个数据集上应用10倍交叉验证。通常，如果我们想在数据集上应用k折叠交叉验证，步骤如下： 📷 在我的例子中，数据集已经被划分为10倍，除了训练集之外，每个折叠都包含验证和测试集。如果有人能指导我，如何对这种数据集进行10倍的交叉验证，这将是很有帮助的。

浏览 0提问于2019-03-27得票数 1

1回答

假设我有一个数据文件，如：索引，product_buying_date，col1，col2 0,2013-01-16,34，Jack 1,2013-01-12,43，莫莉 2013年2，01-21，亚当 2014-01-09，54，Peirce 2014年4月-01-17，38，戈德堡 5,2015-01-05,72，钱德勒。。。。 20000,2015-01-27，32，Mike 用更多的数据，我有一个目标变量y，根据你的方便来做一些假设。现在我知道，我们把数据分成两部分，即训练和测试。然后将列车划分为70:30，用70%建立模型，用30%对模型进行验证。我们调整参数，使模型不过分适

浏览 4提问于2016-02-02得票数 0

回答已采纳

1回答

如何在机器学习模型中使用train.csv、test.csv和ground_truth.csv？(交叉验证/ python)

、、、、

到目前为止，我只有一个数据集(df.csv)。到目前为止，我使用了20%的验证大小和.train_test_split作为一个正常的回归模型。 array = df.values X = array[:,0:26] Y = array[:,26] validation_size = 0.20 seed = 7 X_train, X_validation, Y_train, Y_validation = cross_validation.train_test_split(X, Y, test_size=validation_size, random_state=seed) num_f

浏览 2提问于2016-10-10得票数 0

回答已采纳

1回答

如何从UCI给定的标准数据集生成训练和测试数据集

、

我有一个包含699行和11个属性(包括class属性)的癌症数据集。如何将数据集划分为训练数据集和测试数据集？我知道下面的事情。它们是真的吗？(1)选择初始150行用于测试，剩余549行用于训练(2)选择初始549行用于训练，剩余150行用于测试此外，我是否需要在两个数据集中都包含类属性？是否还需要另一个称为“验证数据集”的数据集？我正在使用SVM进行分类

浏览 3提问于2016-07-01得票数 0

1回答

Azure ML调优模型超参数

、、

下面这个问题是在70-774考试参考书的最后一章提出的. 如果将一个神经网络与配置了随机扫描和最大随机扫描次数为1的优化模型超级参数模块连接起来，那么在实验执行过程中训练了多少个神经网络？为什么？如果您将验证数据集连接到Tune模型超级参数模块的第三个输入，那么现在有多少个神经网络被训练了？答案是：没有验证数据集11 (10的k倍交叉验证+1与所有数据与超参数的最佳组合)。有了验证集，只有一个神经网络被训练，所以最好的模型没有使用验证集来训练，如果你提供它。 10人从哪里来？据我所知，这个数字应该分别是2和1。它不应该在n等于运行次数的情况下创建n倍吗？

浏览 2提问于2018-10-08得票数 0

回答已采纳

2回答

cross_val_score、cross_val_predict和cross_val_validate是如何处理培训、测试和验证的？

、

根据我的理解，cross_val_score, cross_val_predict, and cross_val_validate可以使用K-fold validation。这意味着训练集部分作为训练集和测试集被迭代地使用。但是，我还没有看到任何关于如何处理验证的信息。数据似乎没有分成三组--培训、验证和测试集。cross_val_score、cross_val_predict和cross_val_validate是如何处理培训、验证和测试的？

浏览 2提问于2019-04-21得票数 0

回答已采纳

3回答

模型性能因列车试验的不同而不同？

、、

我将我的数据集与随机森林分类器相匹配，发现模型的性能在不同的训练和测试数据分割集之间会有所不同。正如我所观察到的，在ROC曲线下，AUC将从0.67上升到0.75 (在相同的参数设置下用相同的模型进行拟合)，下垫范围可能会更宽。那么，这种现象背后的问题是什么，以及如何处理这个问题呢？据我理解，交叉验证用于特定的列车和测试数据的分割。

浏览 0提问于2017-01-05得票数 2

回答已采纳

1回答

如何在python/sklearn中交叉验证来自随机森林的预测？

、、

请有人告诉我，如果这是正确的方法，计算交叉验证的精度我的分类器？我将我的数据集划分为训练数据的xtrain和ytrain，以及测试集的xtest & ytest。构建模型： RFC = RandomForestClassifier(n_estimators=100) 适合于训练集的： RFC.fit(xtrain, ytrain) ，这是我不确定的部分： scores = cross_val_score(RFC, xtest, ytest, cv = 10, scoring='precision') 使用上面的代码，“分数”会给我在我的模型上的精确性，而我的模型是关于

浏览 8提问于2015-07-04得票数 3

1回答

帮助理解交叉验证。

、

我对交叉验证的理解是，我们将数据集划分为第1-k部分，然后使用第1部分作为验证集，第2-k部分作为培训集，然后使用第2部分作为验证集，其余部分作为培训集等等，直到我们使用每个部分作为验证集。我不完全明白的是：这里的实际目标是什么？我知道我们平均要做k轮交叉验证，但是我们的输出是什么？我读到过，在计算验证错误之后，我们放弃了每一轮的结果，那么我们如何从这个结果产生一个模型呢？验证和测试集(如果有的话)有什么区别？也就是说，我们通常将我们的数据分为培训数据和测试数据，但是我们是将我们的培训数据进一步划分为验证集，并在交叉验证过程中将我们的测试数据放在一边，还是对整个数据集进行交叉验证？

浏览 0提问于2019-05-07得票数 2

回答已采纳

1回答

如何将数据X，Y拆分成训练和测试？

、、、、

大家好)我正在开发股票预测的应用程序(大学项目)为了训练支持向量机模型，我需要将我的数据拆分成训练和测试集<code>D0</code>，我得到了X和Y双重集合，我需要拆分。在python中，我知道有一些函数可以轻松地将数据拆分为四个变量<code>D1</code>，但我在python中找不到这样的函数。在微软的官方网站上，我只找到了这个例子，但正如我前面提到的，它只接受一个变量，在我的例子中，支持向量机将无法正常工作。我听说过microsoft ML项目，但它只拆分了一个变量。我尝试过这个例子，但正如我前面提到的，它只接受一个验证值，并提供训

浏览 41提问于2020-11-21得票数 0

回答已采纳

3回答

如果学习曲线显示验证误差低于训练误差，预测是否可信？

、、、

我正在使用神经网络(NN)作为我的地球物理学论文的一部分，并且正在使用TensorFlow和Keras来训练我的网络。我目前的任务是使用神经网络来近似热力学模型，即非线性回归问题。它接受13个输入参数，并输出450个参数的速度剖面(速度与深度)。我的数据由100,000个合成示例(即没有噪声存在)、训练(80k)、验证(10k)和测试(10k)组成。我已经针对许多不同的架构测试了我的网络:更宽(5-800个神经元)和更深(最多10层)，不同的学习率和批量大小，甚至是许多时期(5000)。基本上所有交易的标准技巧... 但是，令我困惑的是，学习曲线显示验证误差低于训练误差(对于我的所有测试)

浏览 0提问于2019-01-29得票数 2

1回答

交叉验证法在模型选择中的一些困惑

、

https://stats.stackexchange.com/questions/11602/training-with-the-full-dataset-after-cross-validation解释了进行交叉验证以评估方法/分类器性能的过程和重要性。我没有几个问题，我不能清楚地从这个答案中理解。如果这些问题得到澄清，将是非常有帮助的。考虑到我使用的是Matlab的fisheriris数据集。变量meas包含150个示例和4个特性。可变species包含标签。我已经将数据和标签放入一个变量：Data = [meas species]，按照上面概述的过程，我已经将使用Data的数据集c

浏览 0提问于2018-07-18得票数 0

回答已采纳

1回答

如何将数据集拆分为训练集和验证集

、、、、

我们有一些数据集：从1月到6月，每天销售100种产品，我们的目标是预测7月份的每一天的销售数量。那么如何将数据集分割为训练集、验证集

浏览 0提问于2016-05-18得票数 0

1回答

交叉验证:来自scikit的cross_val_score函数-学习参数

、、、、

根据科学的DOC -学习 sklearn.model_selection.cross_val_score(estimator，X，y=None，groups=None，scoring=None，cv=None，n_jobs=1，verbose=0，fit_params=None，预调度=‘2*n_jobs’) X和Y X:数组--像数据一样适合。例如，可以是列表，也可以是数组。 Y:类似数组的，可选的，默认的:在有监督学习的情况下，没有一个目标变量可以尝试预测。我想知道X，y是X_train和y_train还是X，y应该是整个数据集。在kaggle的一些笔记本中，有些人使用整

浏览 1提问于2018-05-04得票数 4

回答已采纳

1回答

如何将清理后的文本数据拆分成除随机抽样以外的训练和测试数据集

、、、、

我已经使用'count_raw_id‘列清理和消除了重复的文本数据，这意味着映射到一个清理的id的原始id的数量干净的id表示它是唯一的，并且有一些原始id映射到它现在我不想随机拆分我的清理的文本数据(’clean_df‘)我需要一些基于标准的采样来从这个大约2k行的整个清理的文件中创建两个数据集，一个用于训练模型，另一个用于测试模型我不想使用sklearn的train_test_split来拆分我的数据，因为它会随机地拆分我的数据。我想要一些方法来查询我的数据，这样我就可以使用其他一些采样技术，我也不能使用分层采样，因为我没有这些记录的实际标签 import pandas as

浏览 13提问于2019-10-17得票数 1

2回答

validation_curve如何计算test_scores

、、

我正在浏览validation_curve的sci学习文档，并看到它返回了两组不同的数据：返回 train_scores:训练集上的形状数组(n_ticks，n_cv_folds)分数。 test_scores:形状数组(n_ticks，n_cv_folds)在测试集上得分。在给定的函数中，我们只传递一个X和y数组，它如何从传递的训练数据中计算test_scores，它是否执行固有的train_test_split？ sklearn.model_selection.validation_curve(estimator, X, y, *, param_name, param_ran

浏览 6提问于2020-10-18得票数 0

1回答

区分过拟合与良好预测

、、、、

这些都是机器学习中如何计算和减少过度拟合的问题。我想许多机器学习的新手都会有同样的问题，所以我试着把我的例子和问题弄清楚，希望这里的答案能帮助到其他人。我有一个很小的文本样本，我试图预测与它们相关的值。我已经使用sklearn计算tf-以色列国防军，并将其插入回归模型中进行预测。这给了我26个有6323个特征的样本--不是很多..我知道： >> count_vectorizer = CountVectorizer(min_n=1, max_n=1) >> term_freq = count_vectorizer.fit_transform(texts) >>

浏览 2提问于2012-09-03得票数 33

回答已采纳

1回答

如果训练数据集比测试数据集小得多，则K-交叉验证？

、、、、

我是机器学习的初学者，我有一个特例，我只有大约500张图像的小训练数据集和10,000张图像的测试数据集。对培训数据进行10倍交叉验证或反复交叉验证仍然有意义吗？或者，由于大量的测试数据集，这不再是必要的了？事先非常感谢

浏览 0提问于2019-10-08得票数 1

2回答

韦卡-我如何检查是否有过火的韦卡？

、

在weka中，如何检查诱导树是否适合训练数据？编辑：现在，这些是我的随机森林分类器建立在一个大训练集和一个小得多的验证集上的结果(根据大训练集的类比动态生成)。您说过，如果存在过度拟合，测试集(我称之为验证集)的性能会严重下降？但在这种情况下，它似乎并没有下降太多。大型训练集(25000条记录) === Evaluation on training set === === Summary === Correctly Classified Instances 24849 99.3563 % Incorrectly Classified Insta

浏览 3提问于2013-05-29得票数 2

2回答

测试与交叉验证精度之间存在显著差异

、

交叉验证和测试f1_scores的显著差异的可能原因是什么？我正在执行3倍分层交叉验证，测试f1_score几乎比交叉验证分数少0.15。我怎样才能想出一个更有效的交叉验证策略，使这两个分数更接近？

浏览 0提问于2016-08-30得票数 2

3回答

K折叠交叉验证降低了准确性

、、、

我正在研究一个机器学习分类器，当我到达将我的数据划分为训练集和测试集的时候，我想得到两种不同的方法。在一种方法中，我只是将数据集分成训练集和测试集，而在另一种方法中，我使用k折叠交叉验证。奇怪的是，随着交叉验证的准确性下降，所以如果我有0.87与第一种方法，交叉验证，我有0.86。交叉验证不应该提高我的准确性吗？谢谢已经提前了。

浏览 0提问于2019-11-08得票数 1

回答已采纳

2回答

为什么同时使用验证集和测试集？

、、

考虑一个神经网络：对于给定的数据集，我们将其划分为训练、验证和测试集。假设我们按照经典的60:20:20的比例来做，然后通过在验证集上检查网络来防止过度拟合。那么，需要在测试集中测试它以检查它的性能吗？测试集上的错误不是和验证集有点相同吗?对于网络来说，它是一个看不见的数据，就像验证集一样，它们的数量也是相同的吗？相反，我们不能通过将测试集合并到它来增加训练集，以便我们有更多的培训数据和网络更好的训练，然后使用验证集来防止过度拟合吗？我们为什么不这么做呢？

浏览 0提问于2017-04-13得票数 36

回答已采纳

2回答

如何为mnist数据集中的交叉验证准备数据？

、、、

如何对MNIST数据集使用k折叠交叉验证？我阅读了关于sci学习的文章文档，在那个例子中，他们使用整个虹膜数据集进行交叉验证。 from sklearn.model_selection import cross_val_score clf = svm.SVC(kernel='linear', C=1) scores = cross_val_score(clf, iris.data, iris.target, cv=5) scores 例如，在keras中导入mnist数据集时 from

浏览 0提问于2018-03-19得票数 2

1回答

我如何使用K-折叠交叉验证的单类分类器？

、、

在测试阶段，我使用X类和Y类进行验证。我想计算Y级的F-分数。我如何使用K-折叠交叉验证方法？

浏览 0提问于2021-08-31得票数 1

2回答

交叉验证与忽略一个

、

我已经找到了以下定义，但我没有看到真正的区别。检验分类和预测模型的交叉验证方法。数据被随机分成N个分区(通常是N=10)，然后N次从N-1分区创建模型，并在“保留”数据上进行测试。去掉一个数据点，每个数据点准确地在一个测试集中一次，并在一个训练集k-1次。

浏览 0提问于2019-12-02得票数 1

3回答

是否有必要将数据分成三个部分:训练、评估和测试？

、、、、

描述了测试、训练和验证集的区别。在大多数关于训练神经网络的文档中，我发现这三个集合是使用的，但是它们通常是预先定义的。我有一个相对较小的数据集(总共906张3D图像，分布是平衡的)。在我的模型中，我使用sklearn.model_selection.train_test_split函数来拆分火车和测试集中的数据，并使用X_test和y_test作为验证数据。 X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=1) ... history = AD_model.fit(

浏览 4提问于2020-01-09得票数 1

回答已采纳

1回答

理解python中Spark的LinearRegressionWithSGD示例中的问题？

、、、、

因此，我是machine learning和Spark的新手，并且正在阅读关于Regression的MLlibs文档，特别是LinearRegressionWithSGD at 。我在理解python代码方面遇到了一些困难。这里提供了我到目前为止所理解的信息--代码加载数据，然后形成labeledpoint。然后建立模型，根据训练数据对模型进行评价，并计算出MSE值。现在，让我困惑的是，在正常的machine learning过程中，我们首先将数据划分为训练集和测试集。利用训练集建立模型，最后用测试集对模型进行评价。现在，在Spark文档的代码中，我没有看到任何关于训练和测试集的划分。最重要

浏览 4提问于2015-09-15得票数 3

回答已采纳

1回答

J48决策树不能提供更好的精度

我正在使用Weka来分析给出二进制结果的数据。我最初使用10倍交叉验证，并使用66%的数据集作为培训数据。我得到的准确率是77.1% (正确分类的实例)。然后，我试着看看当我使用80%的拆分而不是66%时会发生什么，但是使用相同的交叉验证。我得到的准确度仅略好一点，为77.25%。更糟糕的是，当我使用20倍交叉验证，然后是50倍交叉验证时，绝对没有任何改进。我认为使用更高的交叉验证的整个想法是为了提高准确性！当我用一个90%的分割与一个10倍，甚至20倍，准确性下降到74%。有人能告诉我为什么当我使用更大的分割时，我的准确性没有大幅度提高，而当我使用高交叉验证时却根本没有提高？

浏览 3提问于2014-04-01得票数 0

2回答

使用验证、培训和测试集之间的顺序

、、

我试图了解机器学习中的模型评估和验证过程。具体而言，培训、验证和测试集的使用顺序和方式。假设我有一个数据集，我想使用线性回归。我在各种多项式度(超参数)之间犹豫不决. 在中，这似乎意味着顺序应该是：将数据拆分为培训集、验证集和测试集使用训练集来拟合模型(找到最佳参数:多项式系数)。之后，使用验证集来找到最佳的超参数(在这种情况下，多项式度)(维基百科的文章说：“连续地，拟合模型用于预测第二个数据集中的观测结果，称为验证数据集”)。最后，使用测试集对与训练集相匹配的模型进行评分。然而，在我看来，这似乎很奇怪:如果您还没有选择您的超参数(在这种情况下是多项式度)

浏览 1提问于2019-01-10得票数 1

回答已采纳

1回答

交叉验证和测试性能的差异

、

我使用的是交叉验证(5倍)的学习技巧。交叉验证。，我得到我的数据集，并使用它在5倍交叉验证。返回的分数(全部5个)在.80到.85的范围内。直接训练，如果我使用相同的数据集与火车测试分割(0.2测试部分)，并直接拟合和预测，我得到了.70的准确性。(召回和中华民国也较少)。因此，在交叉验证中，折叠的单个组合等于我们在火车测试拆分中所做的工作，对吗？那为什么会有很大的不同？我已经读到，原因是交叉验证是过分适合培训数据。但是，当考虑到交叉验证的单一设置(组合)时，它不是与直接拟合和预测相同吗？如果我不知何故知道交叉验证中的特定组合如何分割数据，并使用这种精确的分割方法用于直接方法，难道我不应

浏览 3提问于2017-09-09得票数 0

回答已采纳

1回答

用于训练数据的好的随机洗牌状态真的对模型有好处吗？

、、、

我用keras训练一个二进制分类器神经网络。为了对训练数据进行洗牌，我使用了来自scikit-learn的洗牌功能。我观察到，对于一些shuffle_random_state (shuffle()种子)，网络给出了很好的结果(~86%的准确率)，而对其他的则不太好(~75%的准确率)。因此，我运行了1-20 shuffle_random_states的模型，并选择了random_state，为生产模型提供了最佳的精度。我想知道这是否是一种很好的方法，通过这些好的shuffle_random_state，网络实际上正在学习得更好吗？

浏览 0提问于2019-02-18得票数 2

2回答

在交叉验证后对所有训练数据进行scikit-learn训练

、

我正在使用scikit-learn来训练分类器。我还希望进行交叉验证，但在交叉验证之后，我希望对整个数据集进行训练。我发现cross_validation.cross_val_score()只返回分数。编辑:我想用我所有的数据来训练具有最佳交叉验证分数的分类器。

浏览 1提问于2014-03-24得票数 2

2回答

使用sci-kit中的训练/测试数据学习曲线，而不是交叉验证

、、、

我有一个独立的训练和测试数据(从不同的CSV加载到不同的pandas数据框中)，我想用这些训练和测试数据绘制学习曲线，而不是使用交叉验证从训练集本身生成训练和测试数据(这似乎是learning_curve的常见工作方式)。似乎scikit希望你的测试和训练数据出现在同一个Dataframe中，但这样分类器也会学习测试数据，这不是我想要的。我该如何着手解决这个问题呢？我是第一次接触科学工具包。

浏览 3提问于2015-09-20得票数 2

2回答

无监督学习中的训练/测试分离是否必要/有用？

、

在监督学习中，我使用典型的训练/测试分离来学习算法，例如回归或分类。关于无监督学习，我的问题是:训练/测试分离是必要的和有用的吗？若有，原因为何？

浏览 5提问于2015-07-28得票数 10

2回答

为什么需要k倍交叉验证？

、

我使用k-折叠交叉验证，但不明白它的目的。在分割训练和测试数据集中的数据集之前，通常会对数据集的条目进行随机化。给定训练数据集，进行k次交叉验证，目的是预先估计模型的性能。在随机化的情况下，在交叉验证的循环中，不太可能出现从一次运行到下一次的戏剧性变化。最多可以观察到一些正常的波动。考虑到交叉验证内部的性能，交叉验证回答了哪些问题？假设表现不佳，是否意味着我们应该放弃训练模式？如果整个模型的训练时间或其他资源都很昂贵，我就能理解k折叠交叉验证的目的。在这种情况下，将训练集分割到进行验证的k个子集中，可能会为模型的性能提供预测。考虑到即使在大数据上，对整个训练集进行模型拟合是以可接受的时间复

浏览 0提问于2022-03-05得票数 10

1回答

如果数据是非平稳的，如何将数据分成培训、验证、测试数据集？

、、、

当将数据分成训练、验证、测试数据集到机器学习模型时，理想的情况是数据是平稳的。然而，在现实世界中，一些数据是非平稳的.例如，金融时间序列数据是非平稳的. 那么，对于这种非平稳数据，您如何将数据分成培训、验证、测试数据集？

浏览 0提问于2020-12-18得票数 1

1回答

在小数据集情况下使用整个数据集进行测试(而不是验证)

、、、

对于对象检测任务，我创建了一个小数据集来训练对象检测器。类的频率或多或少是平衡的，但是我为每个图像定义了一些附加属性和环境条件，这导致了类的分布非常不均匀，取决于所查看的属性(例如，类X与属性A和B一起出现)。我使用了一个典型的训练/验证分割，损失曲线让我得出结论，没有过度拟合发生。我知道，一般来说，测试具有真实特征分布的未见图像应该使用，但是由于数据集的大小较小，将额外的10 %或20 %用于测试或随机绘制示例会导致测试数据集中没有或很少出现某些类和属性的组合，手工选择示例将非常耗时。因此，我现在想知道，使用整个dataset (train+val)测试和计算性能度量是否合理，因为我没有

浏览 0提问于2021-01-20得票数 2

回答已采纳

2回答

不平衡数据集上的GridSearch

、、、

我试图使用网格搜索为我的模型找到最佳参数。在进行交叉验证时，我知道必须执行Nearmise欠采样方法，在使用交叉验证之前，我是否应该将网格搜索与我的低采样数据集(无论在抽样技术下是哪种数据集)或我的整个培训数据集(整个数据集)进行匹配？

浏览 0提问于2021-02-16得票数 0

1回答

在Weka重复训练和测试？

、、

我使用一个文件进行培训(例如train.arff)，另一个用于测试(例如，test.atff)，在Weka中使用70-30的比率。我想问，当我有单独的火车和测试数据文件时，我如何使用Weka的重复培训/测试，问题的第二部分是，如果我们使用重复的话，有什么好处，如果我们不使用它呢？提前感谢

浏览 0提问于2019-07-18得票数 1

回答已采纳

2回答

分割训练和测试数据

、

在机器学习中，谁能推荐将训练数据和测试数据分开的最佳百分比是多少？如果我在中分割训练和测试数据，的缺点是什么？

浏览 2提问于2015-08-02得票数 3

回答已采纳

2回答

Python scikits SVM网格搜索和分类

、、、

我是一个初学者，我想检查几个问题。我有一个700个项目和35个功能的样本，我有3个类。我有一个数组X，其中包含使用"preprocessing.scale(X)“缩放的样本和特征。第一步是找到合适的支持向量机参数，我使用了嵌套交叉验证的网格搜索(参见)。我在“网格搜索”中使用了我所有的样本(X)。在网格搜索期间，数据被分成训练和测试(使用StratifiedKFold)。当我得到SVM参数时，我执行分类，将我的数据分为训练和测试。在网格搜索中使用我将在真正的分类过程中使用的相同数据可以吗？

浏览 3提问于2012-03-11得票数 0

回答已采纳

5回答

从K折交叉验证中选择哪个模型

、、、、

我读到了关于交叉验证以及如何使用它来选择最佳模型和估计参数的内容，我并不真正理解它的含义。假设我建立了一个线性回归模型，并进行了10折交叉验证，我认为这10个模型中的每一个都会有不同的系数值，现在我应该选择10个不同的系数值作为我的最终模型或估计参数。或者，我们使用交叉验证的目的只是为了找到平均误差(在我们的情况下，平均为10个模型)并与另一个模型进行比较？

浏览 3提问于2017-08-03得票数 2

1回答

多类分类:在验证集上具有良好的准确性，但在测试集上具有预测能力

、、、、

我正在尝试对属于16个类别的图像进行分类。这些图像具有不同的几何形状(<code>C0</code>)。训练集由16 x 320 = 5120个图像组成，验证集有16 x 160 = 2560个图像，测试集有16个x 2= 32个图像。我使用下面的代码来构建CNN并进行预测。 <code>A1</code> 对于训练和验证的准确性和损失，我得到了以下结果。 <code>A2</code> 当尝试在测试集的32个图像上测试该模型时，我只得到了3个正确的预测。所以我的问题是： 1)为什么我在验证上获得了很好的准确性，但模型在

浏览 8提问于2019-03-29得票数 0

1回答

基于标称值的Weka交叉验证

、、

我有要测试分类器的数据。这些数据有很多属性，目标类是二进制的true/false。此外，我知道数据来自称为1-32的32个来源。此信息位于存在的arff文件中。所以我有一个arff文件： @attribute <MANY ATTRIBUTES> @attribute <MANY ATTRIBUTES> @attribute class {True,False} @attribute source {1,2,3,4,5,6,7,8,9,...,30,31,32} 例如，在weka浏览器的分类器下，我可以选择交叉验证4折。但weka会将这些实例随机排序到4个存储箱中。我想

浏览 6提问于2017-12-11得票数 0

1回答

比较交叉验证和测试集结果

、、、、

我很难理解交叉验证测试和测试集上运行的测试结果。首先，我制作了以下管道： pipe=Pipeline([('clf',DecisionTreeClassifier(random_state=0))]) 然后，我在缩放训练集(原始数据集的75%)上使用交叉验证： >>> cross_val_score(pipe, X_train_scaled,Y_train,cv=7).mean() 0.7257796129913106 然后，我用训练数据拟合管道，并对训练数据运行分类器。 >>> pipe.fit(X_train_scaled,Y_tr

浏览 0提问于2020-11-05得票数 0

回答已采纳

1回答

random_state在train_test_split中是否会影响模型的实际性能？

、、、、

我明白为什么一个模型的分数对于每个random_state是不同的，但是我确实期望最高和最低分数之间的差异(从random_state 0到100)是0.37，这是很多的。也尝试了十倍交叉验证，差别还是有点大。所以这是否真的很重要，还是我应该忽略它？ (下载->数据文件夹-> student.zip -> student mat.csv) 完整法典： import pandas as pd acc_dic = {} grade_df_main = pd.read_csv(r'F:\Python\Jupyter Notebook\ML Projects\data\

浏览 4提问于2020-06-28得票数 1

回答已采纳

2回答

对模型进行培训是否需要验证集？

、、

为了我的研究，我用CNN建立了一个三维图像分类模型。我只有5000张图像，训练用4500张图像，测试集用500张图像。我尝试了不同的结构和参数的训练和F1评分和训练集的准确性高达0.9。幸运的是，我没有花很多时间来寻找这些设置的高精度。将该模型应用于测试集，得到了较满意的预测结果，F1评分为0.8~0.85。我的问题是，是否有必要进行验证？当我当时参加机器学习课程时，我被教导使用一个验证集来调整超参数。我没有做k-折叠交叉验证的原因之一是因为我没有太多的数据，并且希望使用尽可能多的培训数据。我的模型对测试集进行了很好的预测。我的模型还能说服人们，只要精确度/F1分数/ROC足够好吗？或者，

浏览 0提问于2018-03-02得票数 1

回答已采纳

1回答

如何将svm_problem划分为5倍进行自定义交叉验证

、、、、

我试图实现我自己的LIBSVM交叉验证功能，但是我对如何处理基于输入数据提供给我的数据结构感到困惑。数据存储在结构svm_problem中。 public class svm_problem implements java.io.Serializable { public int l; public double[] y; public svm_node[][] x; } 其中：l是数据集的长度；y是包含其目标值的数组；x是指针数组，每个指针指向一个训练向量的表示。 svm_node定义为： public class svm_node implements java.

浏览 4提问于2014-11-13得票数 0

1回答

决策树超适合检验

、、、

我目前正在处理易于过度拟合的数据，因此，当我在sklearn上看到max_depth通常是树过度适应的原因时，我通过测试每个深度的max_depth评分来实现功能。但我不确定我的想法是否正确，这里有我的结果的图片：我也试图要求后剪枝方法，但我的图表看起来与我在互联网上发现的其他人很不一样，所以我不知道它给了我什么。

浏览 9提问于2020-10-23得票数 0

回答已采纳

1回答

解释不平衡数据集交叉验证的pipe_line方法背后的逻辑

、、、、

阅读以下文章：https://kiwidamien.github.io/how-to-do-cross-validation-when-upsampling-data.html 对于如何使用from imblearn.pipeline import make_pipeline来在不平衡的数据集上执行交叉验证，同时避免内存泄漏进行了解释。在这里，我复制了本文链接到的笔记本中使用的代码： X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=45) rf = RandomForestClassifier(n_

浏览 0提问于2022-01-01得票数 0