腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
GBTClassifier
如何
处理
二进制
分类
的
不平衡
数据
?
、
我想用
GBTClassifier
对
不平衡
的
数据
集执行
二进制
分类
。我没有看到spark documentation允许这样做
的
任何选项。有没有人知道
如何
通过指定我们
的
数据
不平衡
的
事实来使用
GBTClassifier
? 谢谢 注:我使用
的
是spark 2.3.2
浏览 33
提问于2019-05-17
得票数 0
1
回答
LightGBM 'class_weight‘参数:是否与
二进制
分类
一起使用?
、
、
、
、
在
处理
班级
不平衡
问题时,惩罚大多数班级是我在建立机器学习模型时遇到
的
一种常见做法。因此,我经常使用类权重后再抽样.LightGBM是一种有效
的
基于决策树
的
框架,被认为能很好地
处理
类
的
不平衡
。因此,我使用LightGBM模型来解决
二进制
分类
问题。
数据
集在34:1
的
比例上存在较高
的
类
不平衡
。 我最初使用
的
是带有“类权重”参数
浏览 7
提问于2020-04-10
得票数 5
2
回答
正确使用auc度量
的
xgboost
、
对于
二进制
分类
问题,我有一个稍微
不平衡
的
数据
集,正负比为0.6。最近,我从这个答案中了解到了auc
的
度量:,并决定使用它。此外,该链接提到,AUC应该使用,只有当你不关心
的
概率,只关心排名。 然而,由于我使用
的
是
二进制
逻辑目标,我认为我应该关心概率,因为我必须为我
的
预测设定一个门槛。xgboost参数调优指南还建议了一种
处理
类
不平衡
的
替代方法,方法是
不平衡
浏览 0
提问于2017-01-10
得票数 5
3
回答
如何
处理
机器学习
分类
问题中
的
“未知”类别?
、
、
、
教程问题以
二进制
或多类
分类
的
形式出现,其中所有的
数据
都有适当
的
标签。在实际应用程序中,有不属于任何类别且不能
分类
的
传入
数据
。我们
如何
处理
这些属于“未知”类别的
数据
?“未知”
的
宇宙可能远不止“已知”。因此,“未知”
的
数据
可能过多,导致阶级
不平衡
。我们
如何
训练模型来
处理
“未知”
数据</em
浏览 0
提问于2018-09-02
得票数 5
回答已采纳
2
回答
我们能为
分类
做两种不同
的
模型吗?
、
、
、
假设我有一个
二进制
分类
问题,而我
的
数据
是
不平衡
的
,我可以使用任何算法建立一个
分类
模型,并使用过采样或欠采样技术来
处理
类
的
不平衡
。 如果我要独立地建立两个独立
的
模型,每个模型只为一类
数据
训练。这会是正确
的
做法吗?
浏览 0
提问于2018-08-09
得票数 0
1
回答
文本
分类
:多文本
分类
与多类文本
分类
、
、
我有一个关于
处理
多标签
分类
问题
的
方法
的
问题。由于单个标签问题可以被描述为
二进制
分类
(如果有两个标签)或多类
分类
问题(如果有多个标签,即labels>2),目前
的
转换方法似乎都将多标签问题转化为多个
二进制
问题。但这将导致
数据
不平衡
的
问题,因为负类可能比正类有更多
的
文档。 因此,我
的
问题,为什么不转化为多类问题,然后应用直接多类
分类</
浏览 5
提问于2016-03-02
得票数 1
3
回答
不平衡
数据
的
二进制
分类
在
数据
挖掘中,我使用机器学习算法来解决
二进制
分类
问题。好样品与坏样品
的
比例高达500:1。 可以使用哪些方法来解决
不平衡
数据
的
二进制
分类
?
浏览 2
提问于2019-10-15
得票数 0
1
回答
克利夫兰
数据
集
分类
的
平衡问题
、
、
、
、
我质疑过著名
的
克利夫兰心脏病
数据
集将其对象命名为
的
方式 此
数据
集非常
不平衡
(“无疾病”类
的
许多对象)。我注意到,使用此
数据
集
的
许多论文用于组合所有其他类,并将其简化为
二进制
分类
(疾病与无疾病)。是否有其他方法来
处理
这个
不平衡
的
类问题,而不是减少类
的
数量以获得一个
分类
器
的
好结果?
浏览 0
提问于2019-07-23
得票数 0
回答已采纳
1
回答
改变神经网络
的
分类
控制对提高
分类
性能有效吗?
、
、
、
我
处理
的
文本
分类
使用伯特预先训练
的
模型与多类
不平衡
的
数据
集。当我们使用0.5个默认
的
分类
阈值时,我们得到了一个约为0.7
的
f1测度。但是我们已经注意到,当我们降低
分类
阈值时,我们获得了更好
的
性能。如果我们使用不同
的
二进制
分类
器,每类一个作为正,我们有不同
的
不平衡
率。我们注意到,最优
分类
浏览 0
提问于2023-03-09
得票数 1
1
回答
哪一种ML算法对文本
数据
最有效,背后
的
原因是什么?另外,哪些度量用于测试模型
的
性能?
、
、
、
‘
的
情感分析”。有五种不同
的
情绪-极端消极,消极,中立,积极和极端积极。因此,这基本上是NLP问题,因为我必须
处理
文本
数据
。哪种算法对这些
数据
最有效,背后
的
原因是什么。另外,我可以使用哪些
分类
度量来检查模型
的
性能以及选择特定度量
的
原因?
浏览 0
提问于2021-09-25
得票数 1
1
回答
当使用过抽样和简历对模型进行培训时,我是否需要使用AUPRC报告
不平衡
数据
集
的
分类
结果?
、
、
、
、
我正在研究一个
二进制
分类
问题,其中
数据
集有大约5%
的
正类样本。我拆分了
数据
集,70%用于培训,30%用于测试。我只使用了一次测试
数据
来报告模型
的
性能。由于这种
不平衡
,我在培训
数据
集中使用了SMOTE对少数族裔类进行重采样。此外,我还根据
如何
提升样本、简历和网格搜索
的
建议,使用CV和网格搜索来优化模型性能,以避免
数据
泄漏。假设我正确地
处理
了培训过程,我想知道
浏览 0
提问于2022-08-17
得票数 0
1
回答
Spark MLlib中
不平衡
数据
集
的
处理
、
、
、
我正在研究一个高度
不平衡
的
数据
集
的
二进制
分类
问题,我想知道是否有人尝试过使用Spark
的
MLlib实现特定
的
技术来
处理
分类
问题中
的
不平衡
数据
集(例如)。我正在使用MLLib
的
随机森林实现,并且已经尝试了对较大
的
类进行随机欠采样
的
最简单方法,但它
的
效果并不像我预期
的
那样好。 如
浏览 89
提问于2015-10-28
得票数 34
回答已采纳
1
回答
如何
在pyspark中调整
GBTClassifier
中
的
阈值
、
、
似乎没有办法在pyspark中设置
GBTClassifier
模型
的
阈值。它确实出现在explainparams()中,但不会出现在构造函数或pyspark
的
set函数中。如果有,请建议
如何
做,如果没有-我
如何
调整我
的
模型,以更好地预测我
的
二进制
分类
问题中
的
类?
浏览 0
提问于2019-01-01
得票数 1
3
回答
在计算
不平衡
数据
集时,应该采用哪一种平均法?
、
、
我正在对
不平衡
的
数据
集执行
二进制
分类
任务。,使用:sklearn.metrics.roc_auc_score(y_true, y_score, average='macro'),和我计算ROC,有两个问题: 我不确定平均macro是否受类
不平衡
的
影响,在这种情况下(对
不平衡
类进行
分类
时)最佳平均是什么?有没有参考
的
方法,说明
如何
科学-学习计算中华民国AUC与不同
的</
浏览 2
提问于2016-09-19
得票数 0
3
回答
过采样: Python中
的
二进制
和
分类
数据
的
SMOTE
、
我想将SMOTE应用于包含
二进制
、
分类
和连续
数据
的
不平衡
数据
集。有没有一种方法可以将SMOTE应用于
二进制
和
分类
数据
?
浏览 2
提问于2017-12-05
得票数 11
回答已采纳
3
回答
Xgboost
处理
不平衡
分类
数据
、
我有一个大约20000个训练样本
的
数据
集,我想对其进行
二进制
分类
。问题是
数据
集严重
不平衡
,只有大约1000个属于正类。我正在尝试使用xgboost (in R)来做我
的
预测。我试着阅读了这篇关于
如何
在xgboost中调优参数
的
文章。 但它只提到了哪些参数有助于
不平衡
的
数据
集,而没有提到
如何
调整它们。如果任何人对调整xgboost
的
学习参数以<em
浏览 2
提问于2016-12-05
得票数 8
回答已采纳
1
回答
如何
在r中创建一些
数据
集?
、
、
我正在研究
不平衡
的
学习问题。“
不平衡
”是指
数据
集在其类别之间表现出不均匀
的
分布,例如,您给出了一个具有1000个示例
的
二进制
分类
问题。大多数
分类
算法没有考虑
数据
集
的
潜在分布,因此没有
处理
这种“
不平衡
的
学习问题”。因为如果他们把所有的例子都归为0级,那么他们就有90%
的
准确率。 类
不平衡
分类
<e
浏览 0
提问于2017-10-22
得票数 0
4
回答
如果大多数类是负
的
,那么使用所有极端
不平衡
的
数据
来训练
二进制
分类
器可以吗?
、
、
我正在训练一个神经网络作为文本
分类
的
二进制
分类
器。
数据
非常
不平衡
,其中真:假
的
比率约为100:10000。 直觉上,使用所有的负样本会阻止
分类
器学习无效模式(例如,可能使用欠采样来学习)。我是否低估了
不平衡
对
分类
器性能
的
影响?
浏览 0
提问于2019-05-31
得票数 1
1
回答
不平衡
二进制
类
的
宏和微观平均
、
、
微观平均和宏观平均是多类
分类
的
度量标准.然而,对于
数据
不平衡
时
的
二值
分类
,微观精度和宏观精度似乎有不同
的
结果。我
的
问题是:当类
不平衡
时,在
二进制
分类
问题中使用微观和宏观精度是否有意义? 📷
浏览 0
提问于2020-11-09
得票数 3
回答已采纳
1
回答
罗伯塔不能学习和预测句子对
分类
中
的
阳性类。
、
、
我正在使用Roberta训练句子对
二进制
分类
模型,但是这个模型不能学习阳性类(带有标签1
的
类)。我
的
数据
集
不平衡
,因此:0- 140623验证
数据
-一三八四 在验证
数据
上,训练结果为0真阳性和0假阳性。在评估过程中,我计算了宏观F1,但是
如何
处理
训练中
的
班级
不平衡
呢?有几篇文章提到伯特关注失衡本身。但在我
浏览 7
提问于2022-06-22
得票数 -1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何处理数据中的“类别不平衡”?
机器学习中如何处理不平衡数据?
Focal Loss详解以及为什么能够提高处理不平衡数据分类的表现
处理不平衡数据的技巧总结
处理不平衡数据的技巧总结!
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券