使用sklearn.model_selection拆分不平衡数据集

时，可以采用StratifiedKFold或StratifiedShuffleSplit方法来保持数据集的类别分布比例。

StratifiedKFold：这是一种交叉验证方法，它将数据集分成k个折叠，每个折叠中的类别比例与整个数据集中的类别比例相同。可以使用sklearn.model_selection.StratifiedKFold函数来实现。优势是能够保持类别分布的一致性，适用于分类问题。应用场景包括文本分类、图像分类等。推荐的腾讯云相关产品是腾讯云机器学习平台（https://cloud.tencent.com/product/tcmlp）。
StratifiedShuffleSplit：这是一种随机拆分方法，它将数据集随机拆分成训练集和测试集，同时保持类别比例的一致性。可以使用sklearn.model_selection.StratifiedShuffleSplit函数来实现。优势是能够在不同的训练集和测试集中保持类别分布的一致性，适用于分类问题。应用场景包括异常检测、信用评分等。推荐的腾讯云相关产品是腾讯云机器学习平台（https://cloud.tencent.com/product/tcmlp）。

需要注意的是，以上方法只是拆分不平衡数据集的一种方式，具体选择哪种方法还需要根据具体问题和数据集的特点来决定。此外，还可以考虑使用过采样（如SMOTE）或欠采样（如RandomUnderSampler）等方法来处理不平衡数据集。

具有阈值的多输出图像分类的分割数据集

、、

我使用sklearn.model_selection中的StratifiedShuffleSplit来拆分数据集。但它只适用于1个标签。那么，如何对两个标签进行分层拆分，并为每个标签中每个类别中的样本数量添加阈值？对不起，我的英语不好。 from sklearn.model_selection import StratifiedShuffleSplit split = StratifiedShuffleSplit(n_splits=1, test_size=val_size, random_state=42) for train_index, val_index in split.split(

浏览 0提问于2021-10-12得票数 0

2回答

如何在分类模型中正确使用Smote

、、、、

我使用smote来平衡模型训练的输出(y)，但是我想用原始数据来测试模型，因为它使得我们可以用平滑创建的输出来测试模型。如果我解释得不好的话，请你澄清一下。这是我从堆叠溢出开始的。 from imblearn.over_sampling import SMOTE oversample = SMOTE() X_sm, y_sm = oversample.fit_resample(X, y) # Splitting Dataset into Train and Test (Smote) from sklearn.model_selection import train_test_split X_

浏览 8提问于2022-05-24得票数 0

回答已采纳

2回答

是什么使验证集成为测试集的良好代表？

、、、

我正在开发一个使用不平衡数据集的分类模型。我试图使用不同的抽样技术来提高模型的性能。对于我的基线模型，我定义了如下所示的AdaBoost模型： from sklearn.model_selection import KFold kf = KFold(n_splits=5, shuffle=False) ada = AdaBoostClassifier(n_estimators=100, random_state=42) params = { 'n_estimators': [50, 100, 200],

浏览 0提问于2020-09-29得票数 0

回答已采纳

1回答

为什么在训练模型之前应用交叉验证？

、

因此，我很难理解为什么，作为一种常见的做法，对模型进行交叉验证的步骤还没有经过训练。我所说的一个例子可以在中找到。下面粘贴了一段代码： from numpy import mean from numpy import std from sklearn.datasets import make_classification from sklearn.model_selection import RepeatedKFold from sklearn.model_selection import cross_val_score from sklearn.linear_model import Log

浏览 0提问于2021-11-27得票数 1

回答已采纳

1回答

为什么我得到了近乎完美的测试准确率？

、、

我正在使用这个使用不同的ML算法来预测employee performance，比如DecisionTreeClassifier，CategoricalNB，LogisticRegression，GaussianNB。这基本上就是数据集的结构 df.head(5) Age DailyRate DistanceFromHome EnvironmentSatisfaction HourlyRate ... EducationField Department BusinessTravel OverTime Over18 0 41 1102

浏览 12提问于2020-05-27得票数 0

2回答

不平衡数据集上的GridSearch

、、、

我试图使用网格搜索为我的模型找到最佳参数。在进行交叉验证时，我知道必须执行Nearmise欠采样方法，在使用交叉验证之前，我是否应该将网格搜索与我的低采样数据集(无论在抽样技术下是哪种数据集)或我的整个培训数据集(整个数据集)进行匹配？

浏览 0提问于2021-02-16得票数 0

3回答

scikit中的StratifiedKFold vs KFold -学习

、、

我使用这段代码来测试KFold和StratifiedKFold。 import numpy as np from sklearn.model_selection import KFold,StratifiedKFold X = np.array([ [1,2,3,4], [11,12,13,14], [21,22,23,24], [31,32,33,34], [41,42,43,44], [51,52,53,54], [61,62,63,64], [71,72,73,74] ]) y = np.array([0,0,0,0,1

浏览 0提问于2020-12-16得票数 5

回答已采纳

1回答

为什么"StratifiedShuffleSplit“对数据集的每一个分割都给出相同的结果？

、、、、

我使用StratifiedShuffleSplit来重复分割数据集、拟合、预测和计算度量的过程。你能解释一下为什么每次分裂都有相同的结果吗？ import csv import pandas as pd from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import StratifiedShuffleSplit from sklearn.metrics import classification_report clf = RandomForestClassifier(max_dep

浏览 1提问于2021-03-04得票数 0

回答已采纳

1回答

当您将模型应用于实际数据时，如何检查ML中的模型是否对数据集有好处？

、、、、

我有一个python脚本，它将文本分为正的或负的。我有一个数据集，在对我得到的文本进行预处理之后，我将它分割成训练和测试数据。对训练数据的准确率为91%测试数据的准确性为87% 当我尝试真实的数据时，它给了20%的精度，，误差在哪里?？经过训练的数据 Accuracy: 91.459% Best parameters set found on development set: {'bow__ngram_range': (1, 2), 'tfidf__use_idf': True} Optimized model achieved an ROC of:

浏览 6提问于2020-07-22得票数 0

2回答

当存在数据不平衡时，拆分数据以测试训练数据

、

我有一个不平衡的数据集，它有两个分类值。一个有大约500个特定类别的值，另一个只有一个数据点和另一个class.Now，我想将这些数据分成80-20比率的测试序列。但由于这是不平衡的，我希望第二类出现在测试和训练数据中。我尝试使用sklearn中的test-train-split，但它没有给出在它们中都存在的第二类数据。我甚至尝试了分层混洗拆分，但这也没有给出我认为的数据。我们有没有办法将数据从数据帧中分离出来，强制测试和训练数据集都有一个数据点？我是python的新手，所以很难理解它。数据如下所示： B、C、D标签 1 0 0 1 1 1 1 1 0 1 .. 1 0 0 1 0。标注只

浏览 1提问于2018-05-28得票数 0

1回答

如何使用自定义类层来学习kFold？

、、、

我正在阅读这篇关于如何对非常不平衡的数据集执行适当的KFold的article。在最后一个示例中，它展示了如何将数据集拆分为2折，50/50训练/测试。这一切都很酷也很有趣。然而，我想知道如何进行拆分，同时还可以控制每个文件夹中的类分布，例如50/50 class0/class1 (也称为欠采样/过采样)。因此，考虑到下面的数据，假设我想要4个Fold，我希望得到以下结果： >Train: 0=8, 1=8, >Train: 0=8, 1=8, >Train: 0=8, 1=8, >Train: 0=8, 1=8, 有没有什么方法可以用sklearn.mode

浏览 9提问于2020-04-16得票数 0

1回答

我认为所有的分类分数等于1是什么？

、、、、

我在一个数据集上构建了一个XGBoost分类器，该数据集有51列和1000行，代码如下： from xgboost import XGBClassifier from sklearn.model_selection import train_test_split from sklearn import metrics from sklearn.model_selection import cross_val_score X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=

浏览 0提问于2023-02-22得票数 0

3回答

在处理VotingClassifier或网格搜索时，Sklearn中的GradientBoostingClassifier是否有类权重(或替代方法)？

、

我正在为我的不平衡标签数据集使用GradientBoostingClassifier。在Sklearn中，类权重似乎并不是这个分类器的参数。我知道我可以在合适的时候使用sample_weight，但在处理VotingClassifier或GridSearch时就不能使用它了。有人能帮帮忙吗？

浏览 3提问于2016-02-22得票数 10

7回答

我的测试集的准确率是100%，有什么问题吗？

、、、、

当使用决策树algorithm.but训练时，我在测试集上的准确率为100%，在随机森林中只有85%的准确率。我的模型有问题吗?还是决策树最适合提供的数据集。代码： from sklearn.model_selection import train_test_split x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.20) #Random Forest from sklearn.ensemble import RandomForestClassifier rf = RandomForestCl

浏览 0提问于2018-07-19得票数 11

回答已采纳

2回答

如何为mnist数据集中的交叉验证准备数据？

、、、

如何对MNIST数据集使用k折叠交叉验证？我阅读了关于sci学习的文章文档，在那个例子中，他们使用整个虹膜数据集进行交叉验证。 from sklearn.model_selection import cross_val_score clf = svm.SVC(kernel='linear', C=1) scores = cross_val_score(clf, iris.data, iris.target, cv=5) scores 例如，在keras中导入mnist数据集时 from

浏览 0提问于2018-03-19得票数 2

1回答

在cross_val_predict中使用StratifiedShuffleSplit (sklearn)

、、

我正在尝试使用有监督的机器学习来根据作物(例如土豆)各自的长度和宽度来预测它们的重量。在拟合特定模型(例如线性回归)之前，我希望根据数据集中特定作物品种的频率对我的特征进行分层采样。例如，如果我将数据分成5个分区(即使用交叉验证)，并且variety1占我的观测值的50%，则每个分区训练集中的50%的观测值应该对应于variety1。这是我使用sklearn (版本0.23)在Python中尝试的代码： import numpy as np import pandas as pd from sklearn.model_selection import StratifiedShuffleSpl

浏览 57提问于2020-08-19得票数 1

回答已采纳

2回答

如何将数据集(CSV)拆分为培训和测试数据

、、、

如果没有因变量，如何用Python编程语言将数据集(CSV)分割成训练和测试数据？我目前正在从事的项目是基于机器学习的，数据集不包含任何依赖数据。只有当数据集包含依赖数据时，以下代码才能工作- from sklearn.model_selection import train_test_split xTrain, xTest, yTrain, yTest = train_test_split(x, y, test_size = 0.2, random_state = 0) 我期望在没有任何y变量的情况下进行拆分。有可能吗？

浏览 1提问于2019-02-06得票数 1

回答已采纳

1回答

交叉验证Python Sklearn

、、、、

我想在我的SVM分类器上进行交叉验证，然后在实际的测试集上使用它。我想问的是，我是在原始数据集上进行交叉验证，还是在训练集上进行交叉验证，这是train_test_split()函数的结果？ import pandas as pd from sklearn.model_selection import KFold,train_test_split,cross_val_score from sklearn.svm import SVC df = pd.read_csv('dataset.csv', header=None) X = df[:,0:10] y = df[:,10]

浏览 0提问于2018-03-08得票数 0

1回答

在学习中，火车测试拆分得分较高，CV得分较低

、、、、

我是数据科学的新手，一直在为Kaggle的问题而奋斗。用随机森林回归预测评分时，发现列车测试分割得分较高，而CV得分较低。 0.8746277302652172with 与列车测试split_randomforest无列车测试split_randomforest split_randomforest CV随机森林10.713885026374156 % import time import datetime import pandas as pd import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D i

浏览 2提问于2020-07-05得票数 0

1回答

在XGBoost中将自定义度量用于评分方法

、、

我正在使用xgboost来解决数据集不平衡的分类问题。我计划使用F1得分或roc-auc的一些组合作为我判断模型的主要标准。目前，从score方法返回的默认值是准确性，但我真的希望返回一个特定的评估指标。我这么做的主要动机是，我假设模型的feature_importances_属性是由影响score方法的因素决定的，而影响预测准确性的列可能与影响roc-auc的列非常不同。现在，我正在将值传递给eval_metric，但这似乎没有什么不同。下面是一些示例代码： from sklearn.model_selection import train_test_split from xgboos

浏览 14提问于2021-04-24得票数 0

1回答

在RF上奇怪的交叉验证分数，它是否意味着问题？

、

我正在泰坦尼克号数据集上试用兰登森林。然后我将交叉验证应用于我的模型。我发现所有分数都是'1.0‘。这是一个现实的分数吗？还是暗示我做错了什么？我已经试过SGD分类器了。SGD的CV评分是'0.81'，在我看来，这更可能是一个未经调整的分类器，而不是'1.0‘。尽管我已经对这个问题做了研究，但我还是找不到答案。我是机器学习的新手，所以如果我问了一个重复的问题/犯了基本错误，请原谅我。 from sklearn.ensemble import RandomForestClassifier forest_clf=RandomForestClassifier(n_e

浏览 1提问于2019-03-30得票数 2

回答已采纳

1回答

scikit学习CV出错

、、

当我尝试在Python中执行以下操作时 from sklearn.model_selection import KFold 但是当我尝试定义KFold时 kf=KFold(33,10, shuffle=True) 我得到以下错误： --------------------------------------------------------------------------- TypeError Traceback (most recent call last) <ipython-input-32-f6318606322

浏览 0提问于2017-08-10得票数 0

1回答

Sklearn train_test_split在2d矢量上失败

、

import sklearn.model_selection as skl_ms import numpy as np A = np.random.normal(0, 1, [1, 100]); (A_train, A_test) = skl_ms.train_test_split(A); A_train.shape #--> Answer is (0, 100) A_test.shape #---> Answer is (1, 100) 嗯..。这是所需的功能吗？我甚至不明白为什么numpy会让第一维为0的数组存在。 Numpy 1.14.2、sklearn 0.19.1、py

浏览 0提问于2018-04-25得票数 0

2回答

如何修复Python中的"ValueError:发现样本数量不一致的输入变量“问题

、、

我有两个文件，即data 3806，2和target 4039，2。我的目标是将这些文件分成训练和测试数据集。我已经尝试过这样做： from sklearn.model_selection import train_test_split data_train, data_test, target_train, target_test = train_test_split(data, target, test_size=0.2, random_state=0) 但是，它会给出以下错误： ValueError: Found input variables with inconsistent num

浏览 80提问于2020-12-17得票数 0

1回答

一个随机森林模型python的输出指标TP、NP、TN、FN值

、、、、

我正在对一个随机森林模型进行网格搜索。我用f1评分来得到最好的估计值和分数。从现在开始，我怎样才能得到精确和回忆的分数，这样我才能绘制出精确的回忆曲线？X是样本数据集，y是目标数据集。 from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import GridSearchCV from sklearn.model_selection import LeaveOneOut RF = RandomForestClassifier() param_grid = {

浏览 8提问于2021-06-14得票数 0

回答已采纳

1回答

为什么XGB模型没有在验证数据集上提供输出，而是更好地用于训练

、、、、

目前，我正在从事一个项目，其目标是找到谁有更多的可能性购买您的project.Its分类模型(0 &1 )的客户。我已经创建了使用RF和XGB两者的模型& calculated gain score (数据不平衡).Not我的超过80%的客户覆盖了前3位的训练数据，但当我在验证数据集上运行模型时，它在两个模型中都回落到56-59%。假设我有20个客户&为了更好的准确性，我对他们进行了集群，现在模型在集群1客户上给出了完美的结果，但在集群2客户上表现很差。任何调整同样的建议。

浏览 18提问于2019-12-04得票数 0

1回答

Matlab分类与Python分类的区别

、、、、

我有一个监督学习分类问题。我有4个数字类标签(0，1，2，3)，我有大约100次试验38个不同的特性作为输入。将这些数据输入Python和Matlab中的SVC分类器(特别是分类法Learner App)，并匹配超参数(C = 1，type =二次支持向量机，多类_方法= onevsone，标准化数据，无PCA)之后，所给出的精度差别很大： Matlab = 86.7 % Python = 45.0 % 有没有人遇到过这种情况，或者有什么其他的想法，我可以做什么，以知道哪一个是正确的？ Matlab输入： Python输入： import numpy as np f

浏览 0提问于2018-04-19得票数 1

2回答

是否可以为GridSearchCv设置拆分策略？

、、

我正在用GridSearchCv优化模型的超参数。因为我所处理的数据是非常不平衡的，所以我需要“选择”算法分割训练/测试集的方式，以确保在这两个集合中都存在代表不足的点。通过阅读scikit的文档，我认为为GridSearch设置拆分策略是可能的，但我不确定是如何实现的，也不确定是否如此。如果有人能帮我做这件事，我将非常感激。

浏览 19提问于2021-12-08得票数 0

1回答

首先选择CNN架构，然后优化参数-验证还是测试性能来选择架构？

、、

我正在做一些关于医学数据的实验。我即将转移，学习预先训练的网络，以解决我的问题。首先，我必须选择一个网络架构。其次，对优化器的参数/参数进行优化，以获得更好的性能。我想选择基于10倍交叉验证的几种架构的网络体系结构。我将执行交叉验证的方式，我有数据分割训练:测试以80:20的方式，然后列车被分割成10个分裂。测试集不应该改变。基于交叉验证，我想选择一个模型，我将进一步优化验证集。在优化参数之前，也可以测试测试数据上最好的体系结构，看看我正在朝着正确的方向移动，还是作弊？数据集是不平衡的，具有相对较高的类方差，所以我甚至不确定测试的2倍将显着地表示数据集。谢谢

浏览 0提问于2019-03-09得票数 0

3回答

如何将数据拆分为序列的前808698行，并将其余行作为测试？

、、

我有两个数据集，分别是测试和训练。我把它们集中在一个csv里。我想拆分我的数据用于训练和测试。但它不应该是随机的。我需要拆分火车的前808699行，其余的作为测试？我试着读两个不同的csv，但我做不到。 from sklearn.model_selection import train_test_split x_train,x_test,y_train,y_test=train_test_split(x,y,train_size=808698,test_size=121918,random_state=1) ValueError: train_size=808698 should be ei

浏览 3提问于2019-08-20得票数 0

1回答

模型由于数据不平衡而倾斜

、

在生活中，一些事件是罕见的，大多数情况是正常的。因此，我想知道，为了发现罕见的案例，我们是否应该使用一个不平衡的数据集，其中包含更多的历史罕见案例？以德国信用数据为例。它包含关于20个变量的数据，以及对1000名贷款申请者来说申请人是否被视为良好或不良信用风险的分类。70%是好的。30%坏蛋使用这个原始数据集，我假设模型将倾向于更好地识别正常情况(因为数据中有更多的正常情况)。如果使用一个平衡的数据集，即好信用的数量等于坏信用的数量，那么最后一个模型将很好地预测“好”和“坏”。但是，如果我们想使用机器学习来识别罕见的事件，例如在这种情况下，不良信贷客户。我们是否应该使用一个不平衡的数据

浏览 0提问于2020-11-06得票数 0

回答已采纳

1回答

K次交叉验证的评价

、、、

经过K倍交叉验证后，哪种评价指标被平均？精确性和回忆性，还是F-度量？ import pandas as pd import numpy as np from sklearn.model_selection import KFold KFold(n_splits=2, random_state=None, shuffle=False)

浏览 15提问于2022-06-23得票数 0

回答已采纳

2回答

cross_val_score与KFold的区别

、、、、

我正在学习机器学习，我对此表示怀疑。有谁能告诉我：- from sklearn.model_selection import cross_val_score 和 from sklearn.model_selection import KFold 我认为两者都用于k折叠交叉验证，但我不知道为什么要为相同的函数使用两种不同的代码。如果有什么东西我遗漏了，请告诉我。(如果可能，请解释这两种方法的不同之处) 谢谢,

浏览 0提问于2021-08-19得票数 1

回答已采纳

2回答

验证/测试集唯一性问题

、、、、

希望这是一个简单的问题，但对于如何最好地分离训练/验证/测试集，我有点不清楚。我说了100个A类的例子，我把文本分为A类(我所关心的)或B类(可能是世界上的任何文本)。显然，我有更多的B类的例子。当我将数据拆分为train/validate/测试集时，测试集(它根本不用于培训/调优)是否必须没有用于培训的A类示例？在现实世界中(鉴于我的样本有限)，它将对A类进行分类的文本将有一些精确的A类示例，但并不总是这样(可能会有变化-我并不是所有的都有)。我可以确保测试集有唯一的B类文本，但不清楚我是否还必须在测试集中维护完全唯一的A类示例，因为现实世界不一定是这样的。在测试集的训练中也有x%的A

浏览 0提问于2021-12-16得票数 0

回答已采纳

1回答

验证分类结果

、

我只为两个类创建了一个模型，分类报告如下： 📷 虽然精度看起来不错，但我不认为这个型号是好的。原始数据中有522条记录属于1类，123条记录属于第2类。因此，我认为该模型是最常见的(1类)。当我将模型应用于原始数据时，预测为585级1级和60级2级。当我平衡班级时，结果是： 📷 原始数据上的模型应用程序生成了396个1类和249个类别。由于我要使用这个模型进行预测，我仍然觉得它不太好。在这种情况下，我的计算值是:我将2类预测数乘以精度:0.65x 249 = 162，而不考虑预测为1类的类，而在真实情况下是第2类。这些值比原始计数(123条记录)大得多。这个评价是正确的吗？还有其他方法来

浏览 0提问于2022-05-23得票数 0

3回答

对于分类问题，对数据集进行分割的正确步骤是什么？

、、、

我是机器学习和深度学习的新手。我想在训练前澄清我对train_test_split的疑虑。我有一个大小为(302, 100, 5)的数据集， (207,100,5)属于class 0 (95,100,5)属于class 1. 我想使用LSTM执行分类(从，序列数据) 由于这些类没有相同的分布集，我如何分割用于培训的数据集？选项1：考虑整个数据[(302,100, 5) - both classes (0 & 1)]，对其进行洗牌，train_test_split，进行培训。选项2 :将两个类数据集平分[(95,100,5) - class 0 & (95,100,5) -

浏览 0提问于2019-07-22得票数 0

回答已采纳

1回答

在机器学习中使用三种不同的标签

、、、

我真的是机器学习的新手。我正在审查在电子邮件中分隔垃圾邮件或火腿值的代码。当我为另一个数据集设置代码时，我遇到了问题。因此，我的数据集不仅仅有HAM值或SPAM值。我有两个不同的分类值(年龄和性别)。当我试图在下面的代码块中使用2个分类值时，我得到了一个错误，解包的值太多了。我怎么才能把我的全部价值放在一起呢？ from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(messages_bow, import_data['age

浏览 16提问于2019-11-07得票数 0

回答已采纳

1回答

如何在python中给出分层k倍抽样的测试大小？

、

使用sklearn，我希望在样本数据集中有3个拆分(即n_splits =3)，并且训练/测试比率为70:30。我可以将测试集分成3倍，但不能定义测试大小(类似于train_test_split方法).Is有没有在StratifiedKFold中定义测试样本大小的方法？ from sklearn.model_selection import StratifiedKFold as SKF skf = SKF(n_splits=3) skf.get_n_splits(X, y) for train_index, test_index in skf.split(X, y): # Loops over

浏览 15提问于2017-08-04得票数 9

回答已采纳

1回答

当使用过抽样和简历对模型进行培训时，我是否需要使用AUPRC报告不平衡数据集的分类结果？

、、、、

我正在研究一个二进制分类问题，其中数据集有大约5%的正类样本。我拆分了数据集，70%用于培训，30%用于测试。我只使用了一次测试数据来报告模型的性能。由于这种不平衡，我在培训数据集中使用了SMOTE对少数族裔类进行重采样。此外，我还根据如何提升样本、简历和网格搜索的建议，使用CV和网格搜索来优化模型性能，以避免数据泄漏。假设我正确地处理了培训过程，我想知道如何在测试数据中报告分类结果。我的理解是，对于不平衡的数据集，您应该使用AUPRC (参见不错的解释这里)。那么，如果我解决了培训中的不平衡问题，我是否需要用AUPRC报告结果，还是使用传统的中华民国？谢谢你提前帮忙。

浏览 0提问于2022-08-17得票数 0

3回答

为什么抽样调查提高了我的模型的性能？

、、

我有一个不平衡的数据集，有88个阳性样本和128575个阴性样本。因为这是一个生物数据集，所以我不愿意对这些数据进行过多/欠采样，我不想介绍合成数据。我用这个原始数据集构建了一个随机森林分类器。我的正面课的F1分数是0。零精度。零召回。我反复核对了预测和测试数据。该模型预测了一些积极因素，但实际上没有一个是积极的。最糟糕的表现。所以，我试图过高样本的正面类。我把阳性样本加到1000个样本上。令我惊讶的是，这个数据集的F1分数为0.97，对于正类。然后我尝试了较少的样本。在200个阳性样本中，我的F1评分为0.83，仅为原始阳性样本的2.25倍。我想知道为什么会发生这种情况。对于88个样本，

浏览 0提问于2019-09-25得票数 7

回答已采纳

3回答

在数据集上应用随机过采样的时间

、、、、

我试着用机器学习算法学习分类。我翻阅了笔记本的乳腺癌- EDA，平衡和ML。在这个笔记本中，Random Oversampling已经实现。然而，当该人进行过度抽样时，他会在整个数据集上进行。我知道过采样只能应用于训练数据集。在我的例子中，在将数据分割成训练和测试集之后，我对训练数据进行了过度采样。精确性，以及我所得到的回忆都不如Kaggle笔记本好。 Kaggle结果 precision recall f1-score support 0 0.73 0.90 0.81 1010 1

浏览 0提问于2022-09-05得票数 4

1回答

如果数据集在现实生活中是不平衡的，我是否应该在不平衡的数据集上对我的机器学习模型进行培训？

、、

我有一个数据集，其中大约20%的数据是正类，80%的数据是负类。当我在平衡数据集上对分类器进行欠采样和训练，并在平衡数据集上进行测试时，结果非常好。但是，如果我在平衡数据集上进行培训，并在复制现实世界(80-20分离)的不平衡数据集上进行测试，那么度量标准就不太好了。如果我想让原始的不平衡数据集在同样不平衡的真实世界测试数据上表现良好，我应该在原始不平衡数据集上训练它吗？

浏览 0提问于2020-01-21得票数 1

回答已采纳

1回答

Keras多类分类(稠密模型)-混淆矩阵不正确

、、、

我有一个标记的数据集。最后一列(78)包含4种类型的攻击。下面的代码混淆矩阵是正确的两种类型的攻击。有谁能帮助修改keras多类攻击检测和修正代码以获得正确的混淆矩阵？对于精度的正确编码，FPR、TPR适用于多类。谢谢。 import pandas as pd from sklearn.preprocessing import LabelEncoder, StandardScaler from sklearn.model_selection import train_test_split from sklearn.model_selection import GridSearchCV

浏览 4提问于2019-09-17得票数 1

2回答

如何将数据分成3部分: Python培训(70%)、验证(15%)和测试(15%)，每个部分都有相似的目标率？

、、、

我正在做一个公司项目，我需要将数据划分为三个部分--培训、验证和测试(保留)。是否有人知道我如何将上述数据分成3部分，每个部分将有相似的响应变量(目标率)-(分类的精度相似，回归的均数类似)。我知道如何使用SKLEARN中的train_test_split函数将数据分成3部分 from sklearn.model_selection import train_test_split x, x_test, y, y_test = train_test_split(xtrain,labels,test_size=0.2,train_size=0.8) x_train, x_cv, y_trai

浏览 0提问于2020-02-04得票数 4

回答已采纳

1回答

手动拆分数据集以进行k折叠交叉验证。

、、、

我手动将数据集分为三组:培训、测试和验证。每套包括几个文件夹，每个病人一个。每个病人从不同的角度有许多图像。因此，我手动地将数据集划分为更多的病人文件夹，以避免同一患者出现在多个新的集合中。 Train: class 1: patient_1: a.png ....... 现在，我想在手动拆分数据集上应用k折叠交叉验证。这样做可以吗？ x_train,y_train= load_mydata() x_test,y_test= load_mydata() x_val,y_val= load_mydata() from sklearn.model_se

浏览 0提问于2021-09-30得票数 1

1回答

分列列车/准确行数测试

、、

有大约6,000,000行的数据集。我使用以下代码将数据集拆分为火车集和测试集： from sklearn.model_selection import train_test_split train, test = train_test_split(df, test_size=0.3, random_state=42) 我想要的是将测试集精确地拆分到一定数量的行上，例如，测试集的50,000行。得到这个的方法是什么？

浏览 3提问于2021-02-09得票数 4

回答已采纳

1回答

如何在滑雪交叉验证中获得多类roc_auc？

、、、、

我有一个分类问题，我希望在sklearn中使用roc_auc值来获得cross_validate值。我的代码如下。 from sklearn import datasets iris = datasets.load_iris() X = iris.data[:, :2] # we only take the first two features. y = iris.target from sklearn.ensemble import RandomForestClassifier clf=RandomForestClassifier(random_state = 0, class_weig

浏览 2提问于2020-03-24得票数 2

回答已采纳

1回答

CNN不平衡小数据集

、、

我想用CNN对5个类别进行分类，但其中4个类别只有16到60张图片，而最后一个类别有1300多张。我知道16或60图像是不够的，所以我想使用转移学习，微调和数据增强。然而，我有几个问题。由于数据增强必须仅用于培训数据，所以对于验证集而言，来自4个类的图像将非常少，这会不会是一个问题？是否需要在培训/验证/测试中将其分开，或者培训/验证是否足够？另一个问题是不平衡的数据:如果每个类别中的图像数量有如此之差，过度采样或过低采样是否是一个好的解决方案？对于转移学习和微调，我应该冻结所有的卷积层，还是只训练一个FC层？

浏览 0提问于2021-04-28得票数 2

1回答

火车组的正负比

、

我试图让的相关性反馈起作用。我有一个疑问，和一些文件标记的积极和消极。例如，我有60个正面和337个否定。我想使用这个数据集的一部分来训练我的模型(在这种情况下--调整查询)，并在另一部分上测试它。但是，有了这种不平衡的数据集，我不知道在训练集中有多少负面因素和多少积极因素。另一个问题是，根据测试数据集中的正负比例，我得到了误导性的精确度、召回和F1评分结果。在测试数据集中有49个阳性和17个负数给了我Precision=0.742、Recall=1.000和F1=0.852，其中有TP=49、FP=17、TN=0、FN=0。对于其他查询，正/负比例的分布并不能给我任何提示，说明我的模型应

浏览 1提问于2012-05-24得票数 1

1回答

不平衡的学习问题-样本外与验证

、

我正在训练三个班级，其中一个占主导地位的班级约占80%，其他两个班级甚至。我能够使用欠采样/过采样技术来训练模型，以获得67%的验证准确率，这对于我的目的来说已经相当不错了。问题是这种性能只存在于平衡的验证数据上，一旦我用不平衡的数据对样本外进行测试，它似乎就偏向于甚至类预测。我也尝试过使用加权损失函数，但在样本之外也没有什么乐趣。有没有好的方法来确保验证性能的转换？我曾尝试使用auroc成功验证模型，但同样，强大的性能仅存在于平衡验证数据中。我已经尝试过重采样的方法: SMOTE过采样和随机欠采样。

浏览 6提问于2019-07-10得票数 0