腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如
何在
pyspark
上
创建
分层
的
拆分
训练
、
验证
和
测试
集
?
、
、
、
我有一个小
的
数据
集
(140K),我想将其
拆分
成
验证
集
、使用目标变量
的
验证
集
测试
集
和
另一个字段来筛选这些
拆分
。
浏览 46
提问于2019-09-19
得票数 2
1
回答
小批量梯度下降是否消除了
分层
对
训练
数据
集
的
影响?
、
、
在数据预处理中,使用
分层
洗牌确保原始数据
集
的
分布反映在培训、
测试
和
验证
数据集中。 小型批处理梯度下降使用随机洗牌来确保小批中
的
随机性.我
的
疑问是-为什么我们应该在我们
的
数据
集
上
执行
分层
洗牌,如果它要在
训练
期间以随机
的
方式被洗牌?
浏览 0
提问于2020-08-08
得票数 2
回答已采纳
3
回答
如果学习曲线显示
验证
误差低于
训练
误差,预测是否可信?
、
、
、
我正在使用神经网络(NN)作为我
的
地球物理学论文
的
一部分,并且正在使用TensorFlow
和
Keras来
训练
我
的
网络。 我目前
的
任务是使用神经网络来近似热力学模型,即非线性回归问题。它接受13个输入参数,并输出450个参数
的
速度剖面(速度与深度)。我
的
数据由100,000个合成示例(即没有噪声存在)、
训练
(80k)、
验证
(10k)
和
测试
(10k)组成。我已经针对许多不同
的<
浏览 0
提问于2019-01-29
得票数 2
2
回答
是什么使
验证
集成为
测试
集
的
良好代表?
、
、
、
如果不是,为什么会这样何时确定
验证
集
是
测试
集
的
良好代表?这两个结果之间
的
差异应该在一定范围内吗?
验证
结果
和
测试
集结果之间存在较大差异
的
原因是什么?我从以前
的
一个问题中了解到,数据从
训练
集
泄漏到
验证
集
,在
拆分
数据之前对数据进行过采样可能会导致这种情况。但还有其他
浏览 0
提问于2020-09-29
得票数 0
回答已采纳
2
回答
基础:为ML准备简单数据
的
正确顺序是什么?
、
、
我刚刚开始与ML和我
的
第一次Kaggle比赛(泰坦尼克号)。我只是想知道用以下步骤组织数据以避免冗余
的
最佳方法是什么:数据缺口
的
核算(估算)将数据
拆分
为培训
和
验证
集
然后对模型进行拟合
和
预测。我
的
主要问题是,在对数据进行编码之前,是否最好先进行
拆分
,还是只在完成编码后才进行
拆分
?
浏览 0
提问于2018-08-09
得票数 0
2
回答
validation_curve如何计算test_scores
、
、
我正在浏览validation_curve
的
sci学习文档,并看到它返回了两组不同
的
数据: train_scores:
训练
集
上
的
形状数组(n_ticks,n_cv_folds)分数。test_scores:形状数组(n_ticks,n_cv_folds)在
测试
集
上得分。在给定
的
函数中,我们只传递一个X
和
y数组,它如何从传递
的
训练
数据中计算test_scores,它是否执行固
浏览 6
提问于2020-10-18
得票数 0
2
回答
XGBoost:
训练
和
测试
拆分
数据
、
、
我正在使用XGBoost
的
python接口来构建模型。我有一个正在使用xgb.DMatrix(data_path)读取
的
数据
集
。我需要将这些数据分为
训练
和
测试
(如果需要,还需要
验证
)。但是我看到
的
大多数实现都是这样
的
dtest = xgb.DMatrix('') 我找不到一种方法,我们可以在哪里读取数据
集
,然后将它们分成<em
浏览 0
提问于2018-05-28
得票数 2
2
回答
不平衡分类问题
的
k-折叠CV估计
测试
AUC
、
、
、
、
我有一个不平衡
的
分类问题。然后,我使用R包ROSE同时对Dataset A中
的
多数类进行了欠采样,并对少数类进行了过采样。这产生了一个平衡
集
(Dataset C),其行数与Dataset A一样多。 我已经在数据
集
C
和
计算
训练
AUC
上
训练
了我
的
模型。
浏览 0
提问于2018-04-04
得票数 1
1
回答
如
何在
经过
训练
的
SVD模型
上
验证
测试
集
?
、
、
、
下面是关于使用奇异值分解(SVD):对电影建议进行矩阵分解
的
教程。使用 SVD ,使用SVD将数据
集
近似为三个组件: 如
何在
经过
训练
的
模型
上
应用单独
的</em
浏览 0
提问于2019-05-23
得票数 3
1
回答
Scikit learn Stratified Shuffle Split在其中一个类只有一个实例时不起作用
、
、
、
我试图使用scikit learn
的
分层
随机
拆分
将我
的
数据
集
拆分
成
训练
集
和
测试
集
,但它不起作用,因为其中一个类只有一个实例。 如果将一个实例放入
训练
集
或
测试
集
,就可以了。
浏览 2
提问于2021-08-03
得票数 0
1
回答
分层
训练
/
验证
/
测试
拆分
,不使用scikit-learn
、
、
我正在处理mnist数据
集
,其中有1797张图像,表示0到10位数字。我希望将数据
集
拆分
为
训练
、
验证
和
测试
子数据,以便为每个sub_data指定相同
的
数字编号。如果没有python中
的
sklearn库,我怎么做
分层
? 感谢您提前给我答复。
浏览 28
提问于2021-05-04
得票数 0
回答已采纳
1
回答
使用小数据
集
和
SMOTE进行深度学习
、
、
、
、
我有一个有6000条记录
的
数据。我有一个60-20-20
的
训练
,
验证
和
测试
集
。我用XGboost得到了大约76%
的
准确率。我将我
的
数据转换为时间序列,并应用LSTM/1-D Convnet,准确率约为60%。我
的
数据
集
是否太小,无法进行深度学习?其次,可以在每个
训练
上
应用SMOTE,
测试
和
验证
浏览 34
提问于2019-09-04
得票数 0
2
回答
测试
数据中没有目标响应变量
、
我有两个数据
集
,它们是
训练
和
测试
集
。
训练
数据有一个目标变量,但是
测试
集
没有。我应该做些什么来解决
测试
集
的
问题?
浏览 0
提问于2021-08-10
得票数 0
6
回答
复杂数据
集
拆分
- StratifiedGroupShuffleSplit
、
、
、
我有一个大约200万
的
观测数据
集
,我需要按60:20:20
的
比例分成
训练
、
验证
和
测试
集
。|有多个类别--它们是不均衡
的
--所以我需要确保培训、
验证
和
测试
集
都有与原始数据集中相同比例
的
类别来自给定主题
的
所有观察都需要放在同一个桶中,
浏览 0
提问于2019-07-03
得票数 25
回答已采纳
1
回答
MovieLens 100k数据
集
是否缺少
验证
集
?
MovieLens 100k数据
集
提供了五对
训练
和
测试
集
,用于5折交叉
验证
。然而,我了解到在
测试
集
上
测试
之前应该使用
验证
集
,以便获得最佳参数值。 我假设在最初
的
拆分
中,五个“
测试
集
”实际
上
是
验证
集
。如果这是真的,那么就没有可以
测试
模型性能<
浏览 0
提问于2012-09-26
得票数 2
1
回答
is分区
和
交叉between
的
区别是什么?
、
split training/testing setscrossvalind用于执行交叉
验证
,通过返回索引,将整个特性
集
X随机分成
训练
和
测试
数据。利用这些指标,我们可以分别生成X(trainIdx,:)
和
X(testIdx,:)
的
训练
数据
和
测试
数据。cvpartition也使用<e
浏览 1
提问于2018-06-06
得票数 1
回答已采纳
2
回答
使用Numpy
分层
将数据
拆分
为
训练
、
测试
、
验证
、
、
、
、
假设我们要将它们
拆分
为0.8、0.1、0.1,分别用于培训、
测试
和
验证
,您可以这样做:我想知道如
何在
使用这种方法分割数据时考虑
分层
。
分层
是分割数据,同时保留数据中每个类
的
优先级。也就是说,如果要将0.8作为培训
集
,则从每个类中获取0.8 。
测试
和
训练
浏览 2
提问于2019-01-27
得票数 2
回答已采纳
2
回答
转换净节省权重
和
新
测试
集
、
、
、
有件事我理论
上
不明白当
验证
集
上
的
度量最好时,我会节省权重(我在
训练
集
和
验证
集
上
的
性能相同)。 现在,我做一个新
的
拆分
。
训练
集中
的
一些
浏览 2
提问于2019-06-06
得票数 0
1
回答
具有
验证
和
测试
集
的
k-折叠交叉
验证
、
对于一个项目,我想执行
分层
的
5倍交叉
验证
,其中每一次
的
数据被分割成一个
测试
集
(20%),
验证
集
(20%)
和
训练
集
(60%)。我希望
测试
集
和
验证
集
是不重叠
的
(五个折叠中
的
每一个)。在维基百科维基百科
上
或多或少是这样描述
的
: 单个k折叠交叉<e
浏览 0
提问于2020-12-19
得票数 4
1
回答
如何使用Python Numpy中
的
train_test_split将数据
拆分
成
训练
、
测试
和
验证
数据
集
?
拆分
不应该是随机
的
、
、
我想将数据类别划分为
训练
集
、
测试
集
和
验证
集
。例如:如果我们在数据集中有3个类别:正、负
和
中性。正面类别分为
训练
、
测试
和
验证
。其他两个类别也是如此。数据
的
拆分
比例为80%用于
训练
,20%用于
测试
。从80%
的
训练
数据中,
拆分
10%用于
验证
数据。
浏览 19
提问于2019-11-21
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一个Python大数据处理利器:PySpark入门指南
算法研习:机器学习中的K-Fold交叉验证
机器学习的心腹大患:数据泄漏
5种常用的交叉验证技术,保证评估模型的稳定性
简述机器学习中模型的评估方法
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券