腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如
何在
sklearn
中
对
不平衡
数据
集
进行
交叉
验证
、
、
、
我有一个高度
不平衡
的
数据
集
,我想执行二进制分类。 在阅读一些帖子时,我发现
sklearn
为
不平衡
数据
集
提供了class_weight="balanced"。所以,我的分类器代码如下。clf=RandomForestClassifier(random_state = 42, class_weight="balanced") 然后,我使用上面的分类器
进行
了10折
交叉
验证
,如下所示。
浏览 30
提问于2019-03-31
得票数 5
回答已采纳
1
回答
欠采样条件下高度
不平衡
数据
的
交叉
验证
、
、
、
、
在我的问题中,我处理的是一个高度
不平衡
的
数据
集
,比如每一个正面类都有10000个负值。一种正常的训练模型的方法是对
数据
进行
欠采样。在这一过程
中
,
对
我们的模型
进行
低采样
数据
的训练,并检查模型对保留的评估(从原始
数据
-不欠采样)是非常重要的。 现在同性恋来了。
交叉
验证
实际上将欠采样的列车组分割成K段,并将其中一个折叠作为测试
集
(现在是欠采样的测试
集
)
浏览 0
提问于2019-02-04
得票数 12
回答已采纳
1
回答
为什么在训练模型之前应用
交叉
验证
?
、
因此,我很难理解为什么,作为一种常见的做法,
对
模型
进行
交叉
验证
的步骤还没有经过训练。我所说的一个例子可以在中找到。下面粘贴了一段代码:from numpy import stdfrom
sklearn
.model_selecti
浏览 0
提问于2021-11-27
得票数 1
回答已采纳
2
回答
不平衡
数据
集
上的GridSearch
、
、
、
在
进行
交叉
验证
时,我知道必须执行Nearmise欠采样方法,在使用
交叉
验证
之前,我是否应该将网格搜索与我的低采样
数据
集
(无论在抽样技术下是哪种
数据
集
)或我的整个培训
数据
集
(整个
数据
集
)
进行
匹配?
浏览 0
提问于2021-02-16
得票数 0
2
回答
交叉
验证
前过采样,这是个问题吗?
、
、
、
我有一个多类分类问题要解决,这是高度
不平衡
的。很明显,我做的是过采样,但是我用过采样的
数据
集
进行
交叉
验证
,结果我应该在列车和
验证
集中重复
数据
。我使用的是lightgbm算法,但令人惊讶的是,
交叉
验证
分数和未见
数据
集
上的分数之间并没有太大的差别。不过,我只想知道,在过度采样
数据
集
之后是否可以
进行
交叉
验证<
浏览 0
提问于2019-01-21
得票数 4
回答已采纳
1
回答
如果我已经在使用打击炮,是否有必要使用分层抽样?
、
我已经用300 K以上的观测
数据
对
我的
不平衡
数据
集
应用了SMOTE。使用分层的K-折叠
交叉
验证
,而不仅仅是普通的K-折叠
交叉
验证
(似乎不太可能,每个K-折叠训练
集
都会
不平衡
),这是否仍然有意义?
浏览 0
提问于2021-10-19
得票数 0
回答已采纳
2
回答
使用keras和
sklearn
:将class_weight应用于cross_val_score
、
、
、
我有一个高度
不平衡
的
数据
集
(±5%的正实例),为此我正在训练二进制分类器。我使用嵌套的5倍
交叉
验证
和网格搜索来
进行
超参数调整。 我想避免过采样,所以我一直在研究class_weight超参数。对于
sklearn
的决策树分类器,这是非常好的工作,很容易给出一个超参数。然而,据我所知,这并不是
sklearn
的神经网络(多层感知器)的一个选择。在
交叉
验证
的keras中有使用class_weights的方法吗?
浏览 0
提问于2019-02-07
得票数 1
3
回答
训练/测试尺寸和偏差
、
、
我的
数据
集
上的信息如下:(第80/20号规则)test size = 56 # of events你个人
对
这些
数据
有何看法?
浏览 0
提问于2020-08-30
得票数 2
回答已采纳
1
回答
不平衡
数据
集
分类的步骤是什么?
、
、
我想使用SVM、随机森林和深度神经网络(DNN)
对
两个不同的
数据
集
进行
分类。我的一个
数据
集
是平衡的,另一个
数据
是高度
不平衡
的。下面是我的
数据
集
的图像,它对于分类是
不平衡
的。 ? 我想要比较用于这两个
数据
的所有机器学习的分类结果。哪个
数据
集
产生更好的分类结果。对于平衡
数据
集
,我没有问题,因为可以正常处理它,
浏览 20
提问于2019-04-12
得票数 0
1
回答
要使用
交叉
验证
选择的模型吗?
、
、
、
、
我
对
不平衡
的
数据
集
进行
了不同的测试,得到了以下结果:模型2=
不平衡
数据
的列车试验拆分+击击方法。没有
交叉
验证
模型4=列车试验+ smote -F1‘’微‘0,98. 我用f1微型作为度量。我可以将这些模型与f1宏
进行</
浏览 0
提问于2020-10-28
得票数 -1
回答已采纳
3
回答
对于
不平衡
的
数据
集
,哪些代价函数和惩罚是合适的?
、
、
、
、
对于
不平衡
的
数据
集
,选择L1或L2正则化更好吗? 是否有更适合于
不平衡
数据
集
的成本函数来改进模型评分(特别是log_loss)?
浏览 0
提问于2014-12-13
得票数 10
1
回答
罕见事件训练后支持向量机性能差
、
、
、
、
我发现加权支持向量机是一种处理类
不平衡
问题的分类方法。我的
数据
集
与罕见事件(标记为1的少数类)和多数类(标签为0)高度
不平衡
。因此,我用分层
交叉
验证
技术实现了监督分类加权svm技术,因为这些技术能够处理类的
不平衡
。我为C参数(boxconstraint)添加了额外的调优。训练采用5倍
交叉
验证
方法
进行
.该方法在训练
集
上效果良好。我在训练后表现很好。这我可以说是因为通过观察训练后的混乱矩阵。cmMatr
浏览 0
提问于2018-07-11
得票数 1
回答已采纳
1
回答
机器学习
中
如何利用K次
验证
进行
欠采样
、
我正在为我的项目rn处理一个高度
不平衡
的
数据
集
,为了简单起见,我将在这里给出一个简单的例子:
数据
集
有20‘0和80’1的数,所以总数是100。假设我已经使用under-sampling
进行
分层拆分(X_train.shape为80,X_test.shape为20),那么我的问题是如
何在
列车
数据
集中同时使用K-折叠
验证
来实现。我最初的想法是使用from imblearn.under_sampling import RandomUnder
浏览 2
提问于2021-02-07
得票数 0
1
回答
如何使用scikit的预处理/规范化以及
交叉
验证
?
、
作为一个没有任何预处理的
交叉
验证
的例子,我可以这样做: from
sklearn
.linear_modelimport SGDClassifier from
sklearn
.grid_search import GridSearchCVclf = GridSearchCV(myClassifier, p
浏览 2
提问于2015-09-16
得票数 14
回答已采纳
1
回答
交叉
验证
时如何获得AUC-ROC而不是精确性?
、
、
我正在对
数据
集
进行
分类,并使用
交叉
验证
进行
建模。
交叉
验证
给出了每个折叠的准确性,因为类是
不平衡
的,准确性是不正确的度量。我想得到AUC-ROC而不是准确性。
浏览 0
提问于2019-04-20
得票数 0
回答已采纳
4
回答
随机森林异常高的精确度,有可能吗?
、
、
、
下面是我代码的核心:from
sklearn
.cross_validation importtest_size = 0.25, random_state = 0) from
sklearn
.ensemblePredicting Test set results y_pred = classifier.predict(X_t
浏览 0
提问于2018-11-06
得票数 1
回答已采纳
2
回答
具有大
不平衡
数据
的
sklearn
、
、
、
我一直在使用
Sklearn
HistGradientBoostingClassifier
对
一些
数据
进行
分类。我的实验是用单标签预测(20个标签)
进行
多类分类. 我的经验显示有两种情况。第一种情况是在不增加
数据
的情况下(大约3,000个样本)测量这些算法的准确性。第二个例子是用
数据
增强测量精度(约12,000个
不平衡
样本)。我使用的是默认参数。然而,随着
数据
的增加,结果显示较弱的准确性,约23%。我想知道这种准确性是否来自
不平衡
浏览 31
提问于2022-11-28
得票数 0
回答已采纳
2
回答
如何为mnist
数据
集中的
交叉
验证
准备
数据
?
、
、
、
如何
对
MNIST
数据
集
使用k折叠
交叉
验证
?我阅读了关于sci学习的文章文档,在那个例子
中
,他们使用整个虹膜
数据
集
进行
交叉
验证
。from
sklearn
.model_selection import cross_val_scorescores = cross_val_scoreiris.da
浏览 0
提问于2018-03-19
得票数 2
2
回答
是什么使
验证
集成为测试
集
的良好代表?
、
、
、
我正在开发一个使用
不平衡
数据
集
的分类模型。我试图使用不同的抽样技术来提高模型的性能。如果不是,为什么会这样何时确定
验证
集
是测试
集
的良好代表?这两个结果之间的差异应该在一定范围内吗?
验证
结果和测试集结果之间存在较大差异的原因是什么?我从以前的一个问题中了解到,
数据
从训练
集
泄漏到
验证
集
,在拆分
数据
之前对
数据
进行
过采样
浏览 0
提问于2020-09-29
得票数 0
回答已采纳
2
回答
不平衡
分类问题的k-折叠CV估计测试AUC
、
、
、
、
我有一个
不平衡
的分类问题。然后,我使用R包ROSE同时
对
Dataset A
中
的多数类
进行
了欠采样,并
对
少数类
进行
了过采样。这产生了一个平衡
集
(Dataset C),其行数与Dataset A一样多。 我已经在
数据
集
C和计算训练AUC上训练了我的模型。
浏览 0
提问于2018-04-04
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何自动化机器学习工作流程
随机森林算法的一些应用情况
3,sklearn的一般流程
比较机器学习算法
Python基础——6 交叉验证法
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券