Loading [MathJax]/jax/input/TeX/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >用过采样和交叉验证正确评价模型

用过采样和交叉验证正确评价模型
EN

Data Science用户
提问于 2019-11-04 04:03:16
回答 2查看 376关注 0票数 1

我正在处理一个具有二进制不平衡目标的dataset的典型案例(事件3%,非事件97%)。我的想法是应用某种抽样(过/下、击等)。来解决这个问题。

正如我所看到的,正确的方法是只对火车组进行抽样,以便有更接近实际的测试性能。此外,我想使用CV进行超参数调整。所以,按顺序排列的任务是

  1. 将数据集划分为列车测试
  2. 做5份简历,作为.
  3. 对简历中的“培训”部分进行抽样
  4. 对简历的“验证”部分进行抽样。
  5. “培训”模式的培养
  6. 在“验证”上验证它
  7. 重复3-6次
  8. 在测试中评估性能

我的疑问是:既然前者是基于抽样数据,而后者不是抽样数据,那么如何才能将CV性能与测试进行比较呢?

一个想法是跳过4,只对“培训”部分进行示例,但是在这种情况下,我如何比较“培训”和“验证”呢?

编辑:添加目标比率+输入错误。

EN

回答 2

Data Science用户

发布于 2022-08-27 07:00:22

第一个问题是为什么你需要使用击打?如果数据集足够大,则不平衡的数据集对于统计分类器或机器学习方法不会带来重大问题。如果您有一个不平衡的数据集,则通常通过将所有内容分配给多数类来获得最佳精度。如果这是不可接受的,这表明,在某种意义上,少数群体阶级比多数人阶级更为“重要”(即,将少数群体阶级模式错误地归类为属于多数群体阶级的成本应该比属于多数群体阶级的人高)。换句话说,准确性不是正确的性能度量,您需要查看预期损失(实际上是根据错误分类成本加权的准确性)。因此,与其使用SMOTE,不如看看是否能够计算出错误分类的实际成本,并将其合并到分类器中(通过改变概率分类器的阈值概率,或者通过在培训标准中不平等地加权正负模式)。大多数情况下,“班级不平衡问题”只是“成本敏感的学习问题”的伪装。

请注意,SMOTE最初是在非常原始的分类器系统中开发的,例如单决策树或开膛手,如果简单地重放少数例子,就会出现过度拟合的情况。合成例子的产生是为了“模糊”少数人的例子,因此它们更难过份。现代分类器系统具有避免过度拟合(如正则化)的有效手段,因此,对于现代方法来说,SMOTE生成合成示例的奇怪方式是否是一个好主意是值得怀疑的。

如果您正在调优超参数以优化操作性能,那么交叉验证中的“测试”折叠应该代表操作条件,因此如果您的原始数据集代表操作条件,则不应该对它们应用SMOTE或重采样。

票数 1
EN

Data Science用户

发布于 2019-11-04 17:38:16

代码语言:javascript
运行
AI代码解释
复制
I believe, the sequence for combination of CV and SMOTE should be as below.

1. Perform the 5 fold-CV ( Loop through for each fold )
2. Training Sample and Testing Sample ( for each fold )
3. Smote Training Samples
4. Train the model on the "training"
5. Prediction ( test samples )
6. Evaluate performances on test
Repeat for next fold
票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/62645

复制
相关文章
译文 | 在使用过采样或欠采样处理类别不均衡数据后,如何正确做交叉验证?
最近读的一篇英文博客,讲的很不错,于是便抽空翻译成了中文。 [关于我在这篇文章中使用的术语可以在 Physionet (http://www.physionet.org/pn6/tpehgdb/)网站中找到。 本篇博客中用到的代码可以在 github(https://github.com/marcoalt/Physionet-EHG-imbalanced-data)中找到] 几个星期前我阅读了一篇交叉验证的技术文档(Cross Validation Done Wrong)(http://www.alfred
用户1332428
2018/03/08
2.6K0
译文 | 在使用过采样或欠采样处理类别不均衡数据后,如何正确做交叉验证?
Python 交叉验证模型评估
大家好,我是架构君,一个会写代码吟诗的架构师。今天说一说Python 交叉验证模型评估,希望能够帮助大家进步!!!
Java架构师必看
2021/12/01
9610
Python 交叉验证模型评估
模型选择之交叉验证
交叉验证是在机器学习建立模型和验证模型参数时常用的办法,一般被用于评估一个机器学习模型的表现。更多的情况下,我们也用交叉验证来进行模型选择(model selection)。
Coggle数据科学
2019/09/12
1.6K0
模型选择之交叉验证
用交叉验证改善模型的预测表现-着重k重交叉验证
机器学习技术在应用之前使用“训练+检验”的模式(通常被称作”交叉验证“)。 预测模型为何无法保持稳定? 让我们通过以下几幅图来理解这个问题: 此处我们试图找到尺寸(size)和价格(price)的关系
机器学习AI算法工程
2018/03/14
1.6K0
用交叉验证改善模型的预测表现-着重k重交叉验证
交叉验证,K折交叉验证的偏差和方差分析
交叉验证是一种通过估计模型的泛化误差,从而进行模型选择的方法。没有任何假定前提,具有应用的普遍性,操作简便, 是一种行之有效的模型选择方法。
狼啸风云
2019/06/13
3.9K0
kfold交叉验证好处_sklearn交叉验证
运用Kfold交叉验证时,在一个限度内k的值越大越好。因为k越大我们验证的次数就越多,最后取出来的平均数越能代表训练模型的准确度。
全栈程序员站长
2022/09/28
9330
交叉验证
版权声明:本文为博主-姜兴琪原创文章,未经博主允许不得转载。
week
2018/12/13
9760
交叉验证的Java weka实现,并保存和重载模型
我觉得首先有必要简单说说交叉验证,即用只有一个训练集的时候,用一部分数据训练,一部分做测试,当然怎么分配及时不同的方法了。
百川AI
2021/10/19
9750
交叉验证
概述Holdout 交叉验证K-Fold 交叉验证Leave-P-Out 交叉验证总结
用户3577892
2020/07/23
1.3K0
[机器学习必知必会]交叉验证
当我们根据数据训练出一个机器学习模型时,我们希望它在新的数据上也保持较高的准备率,这就需要我们对学习到的不同模型有一个模型评估准则。
TOMOCAT
2020/06/09
1.3K0
[机器学习必知必会]交叉验证
kfold交叉验证k越大_内部交叉验证
设X是一个9*3的矩阵,即9个样本,3个特征,y是一个9维列向量,即9个标签。现在我要进行3折交叉验证。
全栈程序员站长
2022/11/08
5710
kfold交叉验证_SPSS交叉验证法
在机器学习建模过程中,通行的做法是将数据分为训练集和测试集。测试集是与训练独立的数据,完全不参与训练,用于最终模型的评估。在训练过程中,经常会出现过拟合的问题,就是模型可以很好的匹配训练数据,却不能很好在预测训练集外的数据。如果此时就使用测试数据来调整模型参数,就相当于在训练时已知部分测试数据的信息,会影响最终评估结果的准确性。通常的做法是在训练数据再中分出一部分做为验证(Validation)数据,用来评估模型的训练效果。
全栈程序员站长
2022/11/05
1.4K0
kfold交叉验证_SPSS交叉验证法
在Python和R中使用交叉验证方法提高模型性能
模型表现差异很大的可能原因是什么?换句话说,为什么在别人评估我们的模型时会失去稳定性?
拓端
2021/01/28
1.6K0
在Python和R中使用交叉验证方法提高模型性能
使用Python实现交叉验证与模型评估
交叉验证是一种评估机器学习模型性能的常用方法,它可以更准确地估计模型在未知数据上的性能。在本文中,我们将介绍交叉验证的原理和常见的几种交叉验证方法,并使用Python来实现这些方法,并展示如何使用交叉验证来评估模型的性能。
Echo_Wish
2024/04/19
4770
R 交叉验证①
什么是交叉验证?在机器学习中,交叉验证是一种重新采样的方法,用于模型评估,以避免在同一数据集上测试模型。交叉验证的概念实际上很简单:我们可以将数据随机分为训练和测试数据集,而不是使用整个数据集来训练和测试相同的数据。交叉验证方法有几种类型LOOCV - leave -one- out交叉验证,holdout方法,k - fold交叉验证。 K折交叉验证(k-fold cross-validation)首先将所有数据分割成K个子样本,不重复的选取其中一个子样本作为测试集,其他K-1个样本用来训练。共重复K次,
用户1359560
2018/08/27
8010
KFold交叉验证
from sklearn.model_selection import KFold
润森
2019/10/24
1.9K0
交叉验证和超参数调整:如何优化你的机器学习模型
在本文的前两部分中,我获取了Fitbit的睡眠数据并对其进行预处理,将这些数据分为训练集、验证集和测试集,除此之外,我还训练了三种不同的机器学习模型并比较了它们的性能。
deephub
2020/08/21
4.9K0
交叉验证和超参数调整:如何优化你的机器学习模型
评价模型数据挖掘之评价模型
是定性与定量相结合的多准则决策、评价方法。将决策的有关元素分解成目标层、准则层和方案层,并通过人们的判断对决策方案的优劣进行排序,在此基础上进行定性和定量分析。它把人的思维过程层次化、数量化,并用数学为分析、决策、评价、预报和控制提供定量的依据。
用户2909867
2018/08/22
2.7K0
评价模型数据挖掘之评价模型
机器学习 | 交叉验证
在学习到不同的复杂度的模型中,选择对验证集有最小预测误差的模型,由于验证集有足够多的数据,用它对模型进行选择也是有效的。
week
2022/11/26
2500
用交叉验证改善模型的预测表现(适用于Python和R)
原文作者: Sunil Ray 翻译:王鹏宇 我一直对数据界的编程马拉松(Hackathons)保持关注。通过对比排名榜初期和最终的结果, 我发现了一个有趣的现象:在初期排名较高的参赛者,在最终的验证环节往往地位不保,有些甚至跌出前 20 名。 猜猜是什么对引起了排名的剧烈变化?换句话说,为什么这些参赛者的模型在最终验证环节无法保证稳定性?让我们来探讨一下可能的原因。 预测模型为何无法保持稳定? 让我们通过以下几幅图来理解这个问题: 此处我们试图找到尺寸(size)和价格(price)的关系。三个模型各自做
机器学习AI算法工程
2018/03/13
1.9K0

相似问题

交叉验证与评价:交叉验证中神经网络损失函数不断减小

10

学习交叉验证和模型再培训

10

交叉验证模型选择

10

交叉验证前过采样,这是个问题吗?

20

使用交叉验证训练模型

10
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档