腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
pyspark
对
每个
目标
变量
的
类
进行
过
采样
、
、
、
、
我想知道是否有任何方法可以使用
pyspark
对数据
进行
过
采样
。 我有10个
类
的
目标
变量
的
数据集。到目前为止,我正在像下面这样
对
每个
类
进行
过
采样
以
进行
匹配 transformed_04=transformed.where(F.col('nps_score')==4) transformed_0
浏览 121
提问于2020-07-03
得票数 0
1
回答
我也可以使用RandomUnderSampler来处理分类数据吗?
、
、
、
与SMOTE不同
的
是,RandomUnderSampler选择数据
的
一个子集。但我不太有信心使用它作为分类数据。 那么,它真的适用于分类数据吗?
浏览 6
提问于2022-05-22
得票数 0
回答已采纳
3
回答
200多个
类
中高度不平衡
的
数据集
、
、
、
这里有256个
目标
类
。问题是数据集是高度不平衡
的
。对于
目标
X1,它有171793条记录,X2有101575条,Xn -1有2条,Xn有2条。考虑
目标
值计数是按递减顺序排列
的
。为了处理不平衡
的
数据集,
对
多
类
(比如3
类
)
进行
过
采样
和欠
采样
。但在我
的
例子中,有256个
类
。如何在这种情况下对数据集
进行
浏览 0
提问于2019-09-28
得票数 2
3
回答
Tensorflow数据集API中
的
过
采样
功能
、
、
、
我想问一下,目前
的
数据集API是否允许执行
过
采样
算法?我处理
的
是高度不平衡
的
类
问题。我在想,在数据集解析(即在线生成)过程中
对
特定
类
进行
过
采样
会很好。我已经看到了rejection_resample函数
的
实现,但是这会删除样本而不是复制它们,并且它会减慢批处理
的
生成速度(当
目标
分布与初始分布有很大不同时)。我想要实现
的
事情是:举
浏览 1
提问于2017-11-11
得票数 11
3
回答
如何使用sample()函数执行上
采样
(py-spark)
、
、
、
我正在研究一个二进制分类机器学习问题,并且我正在尝试平衡训练集,因为我有一个不平衡
的
目标
类
变量
。我正在使用Py-Spark来构建模型。2926上面的代码执行欠
采样
但是,我不确定如何执行上
采样
。我还尝试使用示例函数,如下所示: train_up = train_initial.sam
浏览 0
提问于2018-11-13
得票数 0
1
回答
not NC无助于
对
我
的
混合连续/分类数据集
进行
过
采样
。
、
、
当我使用SMOTE
对
四
类
分类问题中
的
三
类
进行
过
采样
时,针对少数
类
的
Prec、Recall和F1度量仍然很低(~3%)。我
的
数据集中有32个分类
变量
和30个连续
变量
。所有的分类
变量
已被转换为二进制列使用一热编码。此外,在
进行
过
采样
处理之前,我将使用Iterativeimputer计算所有缺失
的
值
浏览 0
提问于2019-08-09
得票数 0
1
回答
PySpark
流水线中
的
交叉验证
过
采样
、
、
、
、
我正在一个
PySpark
二进制分类管道上工作,我想在其中使用过
采样
阶段执行CrossValidation (我
的
数据集不平衡)。问题是
过
采样
阶段也是在测试数据集上执行
的
。我查看了spark文档和源代码,没有办法跳过PipelineModel中
的
一个阶段。我
的
解决方案是覆盖原始
类
的
_transform方法,以便跳过卵子
采样
阶段。__class__ = CustomPipelineModel Custo
浏览 1
提问于2019-11-16
得票数 1
1
回答
忽略过
采样
中
的
列
、
、
我有六个特性列和一个
目标
列,这是不平衡
的
。我是否可以像ADASYN那样
进行
过
采样
,或者只为X1、X2、X3、X4四列创建合成记录,方法是复制与常量(月份、年份)完全相同
的
记录。目前
的
一项:预期
的
记录:它可以通过
对
目标
类
“1”
进行
过
采样
来创建合成记录,但是记录
的
数量可以增加,但是添加
的
记录应该有月份和
浏览 2
提问于2020-06-23
得票数 0
回答已采纳
1
回答
在特征选择之前或之后
采样
、
、
、
我
对
特征选择、
采样
和交叉验证
的
顺序感到困惑,我
的
数据集有468行和23000列,其中269个属于I
类
,199个属于II
类
,当拆分训练和测试时,训练.Due中
的
数据有215个I
类
和159个II
类
,以减少样本数量我不得不对训练数据应用或者我应该在这里应用
采样
,这会导致数据丢失,从而导致更小
的
样本。I)先应用过
采样
,然后应用特征选择技术,然后
进行
交叉验证:在交叉验证过程
浏览 133
提问于2020-08-12
得票数 1
1
回答
如何在SAS中执行
过
采样
?
、
我有一个带有1100 samples
的
数据集,
目标
类
isReturn,有300 isReturn='False' 如何使用PROC SURVEYSELECT
对
300isReturn='False'
进行
过
采样
,以便使用800 isReturn='False'来平衡数据集?
浏览 2
提问于2014-05-21
得票数 0
1
回答
在smote之后调整预测概率
、
、
、
我有一个不平衡
的
数据集,我使用smote
对
少数
类
进行
过
采样
,而对多数
类
进行
欠
采样
。现在,我想使用模型
的
predict_proba检查测试AUC。2.我如何校正它(欠
采样
和
过
采样
的
组合!)
浏览 40
提问于2019-11-22
得票数 0
1
回答
较少是(6%)和较多(94%)
的
数据集。所有的分类算法(ANN,C4,CART)在SPSS中都能预测出测试集中
的
所有值为No。我做什么好?
、
、
、
、
较少是(6%)和较多(94%)
的
数据集。所有的分类算法(ANN,C4,CART)在SPSS中都能预测出测试集中
的
所有值为No。我做什么好? 数据大约有2500行和85列。
浏览 0
提问于2016-08-06
得票数 0
回答已采纳
2
回答
用smote和OSS解决多
类
不平衡分类问题
、
、
我试图解决一个多
类
不平衡
的
分类问题。为此,我使用SMOTE表示
过
采样
,而OSS用于
过
采样
.但我有一个疑问,因为我正在研究多
类
,所以我必须把它转换成二进制分类。所以我们可以用OVA/OAA来转换它。那么,如何使用OVA/OAA同时
对
同一数据集
进行
过
采样
和欠
采样
?
浏览 0
提问于2019-01-28
得票数 2
1
回答
SMOTE如何处理仅包含范畴
变量
的
数据集?
、
、
、
、
我有一个977行
的
小数据集,类比例为77:23。我
的
输入
变量
本质上是绝对
的
。下面是我试过
的
。然而,我
的
问题是,当只有如下所示
的
范畴
变量
时,SMOTE如何工作/重
采样
?Admin staff NZ default FEMALE MS
浏览 0
提问于2022-02-20
得票数 6
回答已采纳
1
回答
如何在平滑算法中使用字典
对
多
类
输入数据
进行
不同
的
重
采样
?
、
、
、
我希望使用库imblearn.over_sampling在python中使用SMOTE算法执行
过
采样
。我
的
输入数据有四个
目标
类
。我不想过度抽样所有的少数民族阶级分布,以匹配多数阶级分布。我想以不同
的
方式
对
我
的
每个
少数族裔班级
进行
过
抽样。有谁知道我们如何定义一本字典,用SMOTE对数据
进行
不同
的
过度
采样
?
浏览 14
提问于2020-09-12
得票数 0
3
回答
利用imblearn
对
多
类
数据
进行
过
采样
、
、
我希望使用来自RandomOverSampler模块
的
imbalanced-learn函数来
对
多个
类
的
数据执行
过
采样
。下面是我
的
三个
类
的
代码:from imblearn.over_sampling import RandomOverSampler data_res, label_re
浏览 3
提问于2017-08-06
得票数 3
1
回答
关于折叠
变量
和
过
采样
少数
类
的
问题
、
、
、
、
我有9个
类
组成
的
不平衡数据,我计划将它们合并成两个
类
。我根据这九个班在测试、验证和训练集之间
进行
分层(比例)抽样。现在,当我
对
训练数据
进行
过
采样
时,是在折叠前
对
这九个
类
进行
过
采样
,还是应该先折叠它们,然后再过
采样
?一般来说,我相信过度抽样然后崩溃会更好,但培训数据中
的
一些课程很小(5例),而另一些则相当大(1000例)。因此,我
浏览 0
提问于2023-02-08
得票数 0
2
回答
tensorflow中不平衡数据集
的
二次
采样
、
、
这是我
的
第一个项目,我正在与预定义
的
估计。 我有一个非常不平衡
的
数据集,其中肯定
的
结果约占总数据
的
0.1%,我怀疑这种不平衡会对我
的
模型
的
性能产生很大
的
影响。作为解决这个问题
的
第一次尝试,因为我有大量
的
数据,为了创建一个平衡
的
数据集,我想扔掉我
的
大部分负面信息。我可以看到两种方法:对数据
进行
预处理,只保留千分之一
的
底片,然后将其保存在一个新文件中
浏览 0
提问于2018-04-09
得票数 5
回答已采纳
2
回答
如何判断下
采样
对
模型性能是否有帮助
、
对
不平衡数据
进行
逻辑分类器
的
拟合。我
的
目标
变量
是5% 1 95% 0。因此,我认为最好使用PR-AUC来评估模型,而不是使用ROC-AUC。我得到了0.1
的
PR-AUC,这总比什么都没有好。另一种可能提高性能
的
方法是降低
对
多数
类
的
采样
(或者
对
少数
类
或某些组合
进行
上
采样
,但让我们坚持向下
采样
)。
浏览 0
提问于2022-01-12
得票数 0
回答已采纳
2
回答
多
类
分类问题中
的
不平衡数据处理
、
我有多
类
分类问题,数据严重倾斜。我
的
目标
变量
(y)有3个
类
,它们在数据中
的
百分比如下:- 0=3% - 1=90% - 2=7% 我正在寻找包在R,可以做多
类
过
采样
,欠
采样
或这两种技术。PS:我尝试在R中使用ROSE包,但它只适用于二进制
类
问题。
浏览 1
提问于2019-02-20
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
机器学习模型在生产中表现不佳?问题可能出在这9个地方
PySaprk之DataFrame
处理不平衡数据的过采样技术对比总结
PySpark,大数据处理的Python加速器!
关键概念:每个数据科学家都应了解的5个概念
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券