腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(3053)
视频
沙龙
1
回答
分层
训练
/
测试
拆分
,
保证
包含
强
不平衡
数据
集
上
的
小
类
、
、
我正在处理大规模
的
、
不平衡
的
数据
集
,其中我需要选择一个
分层
的
训练
集
。然而,即使
数据
集
是严重
不平衡
的
,我仍然需要确保至少每个标签
类
至少包括在
训练
集中一次。sklearns train_test_split或StratifiedShuffleSplit不会“
保证
”这种
包含
。stratify=y)
浏览 32
提问于2021-01-09
得票数 0
1
回答
关于
不平衡
类
的
辅助权值
、
考虑一个将被
拆分
为
训练
和
测试
的
数据
集
。该模型将使用火车组学习,并使用未见
测试
集
进行评估。现在,
数据
集
是
不平衡
的
--它
包含
了更多属于特定
类
的
示例。在这种情况下,平衡它
的
方法之一(除了这里提到
的
方法:
不平衡
数据
集
分类
的
浏览 0
提问于2019-11-24
得票数 1
回答已采纳
2
回答
是什么使验证集成为
测试
集
的
良好代表?
、
、
、
我正在开发一个使用
不平衡
数据
集
的
分类模型。我试图使用不同
的
抽样技术来提高模型
的
性能。如果不是,为什么会这样何时确定验证
集
是
测试
集
的
良好代表?这两个结果之间
的
差异应该在一定范围内吗? 验证结果和
测试
集结果之间存在较大差异
的
原因是什么?我从以前
的
一个问题中了解到,
数据
从
训练<
浏览 0
提问于2020-09-29
得票数 0
回答已采纳
1
回答
scikit学习
的
训练
-
测试
分离导致在
训练
数据
中只有一个唯一值
的
特征
、
、
、
我正在尝试
训练
一个多元线性回归模型。我有一个名为'main‘
的
数据
集
。该
数据
集中类别变量很少。我简化了分类变量。假设虚拟后得到
的
列是A、B、C、D等。现在,当我试图在这个主
数据
集
上
运行
训练
测试
拆分
时,这样获得
的
训练
数据
集
在其中一列中只有0值。我怎样才能克服这个问题。我使用
的
代码是:
浏览 7
提问于2019-01-24
得票数 1
1
回答
罕见事件
训练
后支持向量机性能差
、
、
、
、
我发现加权支持向量机是一种处理
类
不平衡
问题
的
分类方法。我
的
数据
集
与罕见事件(标记为1
的
少数
类
)和多数
类
(标签为0)高度
不平衡
。因此,我用
分层
交叉验证技术实现了监督分类加权svm技术,因为这些技术能够处理
类
的
不平衡
。我为C参数(boxconstraint)添加了额外
的
调优。cmMatrix = 1443
浏览 0
提问于2018-07-11
得票数 1
回答已采纳
1
回答
是否需要
分层
抽样(随机森林,Python)?
、
、
、
、
我使用Python在
不平衡
的
数据
集
上
运行随机森林模型(目标变量是二进制
类
)。在分割
训练
和
测试
数据
集
时,我很难确定是否使用
分层
抽样(如所示
的
代码)。到目前为止,我在我
的
项目中观察到,
分层
案例将导致更高
的
模型性能。但我想,如果我使用我
的
模型来预测新
的
情况,这很可能与我当前
的
<em
浏览 0
提问于2017-01-12
得票数 15
2
回答
当存在
数据
不平衡
时,
拆分
数据
以
测试
训练
数据
、
我有一个
不平衡
的
数据
集
,它有两个分类值。一个有大约500个特定类别的值,另一个只有一个
数据
点和另一个class.Now,我想将这些
数据
分成80-20比率
的
测试
序列。但由于这是
不平衡
的
,我希望第二
类
出现在
测试
和
训练
数据
中。我尝试使用sklearn中
的
test-train-split,但它没有给出在它们中都存在
的
第
浏览 1
提问于2018-05-28
得票数 0
2
回答
训练
集
和
测试
集
大小
、
、
如何正确处理培训/
测试
集
的
生成?我正在做几个实验来
测试
我
的
神经网络模型
的
泛化能力,所以在所有实验中,我
的
测试
集
都不同于我
的
训练
集
(例如,在一个实验中,
训练
集
和
测试
集
之间
的
句子结构是相同
的
,而在
训练
集中我使用一组单词,在
测试
集中使用
浏览 0
提问于2021-07-08
得票数 1
3
回答
scikit中
的
StratifiedKFold vs KFold -学习
、
、
我使用这段代码来
测试
KFold和StratifiedKFold。X,y):print("KFold done") 我发现StratifiedKFold可以保持标签
的
比例
浏览 0
提问于2020-12-16
得票数 5
回答已采纳
1
回答
Scikit learn Stratified Shuffle Split在其中一个
类
只有一个实例时不起作用
、
、
、
我试图使用scikit learn
的
分层
随机
拆分
将我
的
数据
集
拆分
成
训练
集
和
测试
集
,但它不起作用,因为其中一个
类
只有一个实例。 如果将一个实例放入
训练
集
或
测试
集
,就可以了。
浏览 2
提问于2021-08-03
得票数 0
1
回答
使用sklearn进行音乐流派分类:如何准确评估不同
的
模型
、
、
、
我正在做一个项目,对来自5个不同流派(摇滚,电子,说唱,乡村,爵士)
的
30秒音频样本进行分类。我
的
数据
集
包含
600首歌曲,每个流派恰好有120首。特征是每首歌曲
的
13个mfcc
的
一维阵列,标签是流派。基本
上
,对于30秒样本
的
每帧,我取每组13个mfcc
的
平均值。这导致每首歌曲有13个mfcc。然后,我获得整个
数据
集
,并使用sklearn
的
缩放函数。我
的</
浏览 3
提问于2017-05-15
得票数 1
1
回答
如果
数据
集
在现实生活中是
不平衡
的
,我是否应该在
不平衡
的
数据
集
上
对我
的
机器学习模型进行培训?
、
、
我有一个
数据
集
,其中大约20%
的
数据
是正
类
,80%
的
数据
是负
类
。当我在平衡
数据
集
上
对分类器进行欠采样和
训练
,并在平衡
数据
集
上进行
测试
时,结果非常好。但是,如果我在平衡
数据
集
上进行培训,并在复制现实世界(80-20分离)
的
不平衡
数据
集
浏览 0
提问于2020-01-21
得票数 1
回答已采纳
1
回答
显着地过度拟合CV
、
、
、
、
数据
集
很小,有1800行和60列。行中没有重复项。我比较了标准分类器中
的
不同分类器:随机林、logistic回归、增强树和SVC。我用90% (
训练
)
的
CV
训练
超参数,10%
的
训练
来测量泛化误差(
测试
)。
数据
集
略有
不平衡
(1 :3
的
类比例),因此我对所有的
拆分
都使用了
分层
折叠。我还使用roc作为我
的
简历
浏览 0
提问于2018-04-05
得票数 1
回答已采纳
1
回答
改进小型
不平衡
数据
集
的
机器学习性能
、
、
我是机器学习
的
研究员。在我
的
项目中,我一直在将ML应用于一个
小
的
不平衡
数据
,其中包括8个特性和297个实例,其中44个为正实例,253个为负实例。首先,我使用
分层
抽样将整个
数据
集
分成一个
训练
集
(80%)和一个
测试
集
(20%)。其次,将
训练
集
过度采样为均衡
训练
集
,采用随机抽样替换或平滑,并应用信
浏览 0
提问于2022-01-02
得票数 1
2
回答
使用从非监督模型创建
的
标签来使用相同
的
数据
来
训练
有监督
的
模型安全吗?
、
、
我有一个
数据
集
,我必须检测异常。现在,我使用
数据
子集(让我们调用子集A),并应用DBSCAN算法在集合A.Once
上
检测异常。使用dbscan标签,我在
数据
集
A中创建了一个标签变量(异常:1,非异常:0)。现在,我在
数据
集
A
上
训练
了一个有监督
的
算法,使用标签作为从属/目标变量来预测异常,最后使用经过
训练
的
监督模型对其余
数据
进行异常预测(
浏览 0
提问于2019-09-17
得票数 1
1
回答
AUC高,召回率100%,但准确率和F1低。
、
、
、
、
我有一个
不平衡
的
数据
集
,它有43323行,其中9行属于“failure”
类
,其他行属于“normal”
类
。我用100%
的
召回率和94.89%
的
AUC
训练
了一个用于
测试
数据
的
分类器(0.75/0.25,
分层
分裂为y)。而分类器
的
精度为0.18%,F1评分为0.37%。,我假设我可以通过更改阈值来获得更好
的
F1分数,但是我
浏览 2
提问于2022-10-19
得票数 0
2
回答
验证/
测试
集
唯一性问题
、
、
、
、
希望这是一个简单
的
问题,但对于如何最好地分离
训练
/验证/
测试
集
,我有点不清楚。 我说了100个A
类
的
例子,我把文本分为A
类
(我所关心
的
)或B
类
(可能是世界
上
的
任何文本)。显然,我有更多
的
B
类
的
例子。当我将
数据
拆分
为train/validate/
测试
<em
浏览 0
提问于2021-12-16
得票数 0
回答已采纳
1
回答
在机器学习中,使用
分层
抽样来选择
测试
集
数据
有什么意义?
、
我目前正在学习机器学习,通过这本书“用Sci-kit学习和Tensorflow进行
的
手工机器学习”,由Aurelien著。在第76和77页,作者谈到使用
分层
抽样,以便您
的
测试
集
将更有代表性
的
整个
数据
。我真的不明白这一点,因为它不会影响你
的
训练
模式
的
准确性?或者,选择更好
的
测试
集
将如何影响您
的
培训模型
的
准确性?
浏览 0
提问于2019-02-06
得票数 2
回答已采纳
2
回答
不平衡
分类问题
的
k-折叠CV估计
测试
AUC
、
、
、
、
我有一个
不平衡
的
分类问题。然后,我使用R包ROSE同时对Dataset A中
的
多数
类
进行了欠采样,并对少数
类
进行了过采样。这产生了一个平衡
集
(Dataset C),其行数与Dataset A一样多。 我已经在
数据
集
C和计算
训
浏览 0
提问于2018-04-04
得票数 1
1
回答
如何选择正确
的
阈值进行二进制分类?
、
、
、
我目前正在研究Kaggle
的
泰坦尼克号
数据
集
。
数据
集
不平衡
,几乎为61.5 %
的
负
类
和38.5个正
类
。 我把我
的
训练
数据
集
分为85%
的
训练
集
和15%
的
验证
集
。选择了一个支持向量分类器作为模型。我在
训练
集
上
做了10倍
浏览 0
提问于2021-06-16
得票数 5
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
算法研习:机器学习中的K-Fold交叉验证
机器学习模型评估方法
5种常用的交叉验证技术,保证评估模型的稳定性
模型选择与评价(一)
深度学习任务面临非平衡数据问题?试试这个简单方法
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券