腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1655)
视频
沙龙
1
回答
如
何以
不
重新
洗牌
的
顺序
拆
分为
训练
、
测试
和
简历
如何在Python中以非
重新
洗牌
顺序
(按时间
顺序
)将数据集拆
分为
训练
集(70%)、
测试
集(15%)
和
交叉验证集(15%)?X_validate, X_test = np.split(dx.sample(frac=1), [int(.7*len(dx)), 但是,数据集是随机拆分
的
。任何关于这一点
的
启示都是非常感谢
的
。首先要感谢大家!
浏览 10
提问于2018-09-02
得票数 1
2
回答
拆分
训练
集
和
测试
集时是否进行混洗
、
所以我应该把我
的
数据分成
训练
集、验证集
和
测试
集。首先,我打乱了我
的
数据(80%用于
训练
集,20%用于
测试
集)。然后,因为我应该确定一些超参数,所以我使用10折交叉验证来拆分我
的
训练
集。最后,我使用
训练
集(80%
的
数据)
和
指定
的
超参数来
训练
我
的
模型。我有个问题。我先打乱我
的
数据,然后再拆分,这是不是错了?一些研究
浏览 0
提问于2018-04-30
得票数 4
1
回答
Tensorflow在预处理期间对数据进行两次混洗
、
return ds val_ds = configure_for_performance(val_ds) 我
的
问题是,第二次
洗牌
是否有必要,或者产生了我不知道
的
任何其他好处?
浏览 58
提问于2021-02-16
得票数 0
回答已采纳
1
回答
在数据分割之后还是在那之前?
、
、
、
我想
洗牌
我
的
数据集,我在这个中看到了github,
洗牌
是在分割数据之后,我
的
问题是,当我们不
洗牌
的
时候,
和
分裂后
的
洗牌
之间有什么区别?哪个是对
的
??我觉得应该在分手之前。
浏览 1
提问于2019-09-25
得票数 1
2
回答
这是太合适了还是别的什么?
、
、
、
我决定尝试理解
和
使用XGBoost。接下来,对于完全调优
的</e
浏览 0
提问于2020-05-13
得票数 1
回答已采纳
1
回答
用numpy数组对train_test_split数据进行排序
、
、
、
、
我想拆分以下用于
训练
和
测试
的
numpy数组:X、y
和
qid目前,我为分裂所做
的
是: # Split documents, labels, and query_ids into trainingt
浏览 3
提问于2022-04-06
得票数 -2
回答已采纳
3
回答
用于
测试
和
训练
的
Deeplearning4j分裂数据集
、
、
Deeplearning4j具有支持将数据集拆
分为
测试
和
训练
的
功能,以及对数据集进行
洗牌
的
机制,但据我所知,它们要么
不
工作,要么我做错了什么。getRow(i).toString().trim(); } 结果在返回
的
输入数据集
的
最后30行中,s
浏览 6
提问于2015-11-24
得票数 3
回答已采纳
2
回答
XGBOOST - train_test_split
和
手动拆分
的
不同结果
、
我试着
训练
XGBOOST模型。train_test_split(X, y, test_size=0.2, random_state=43, stratify=y)把它传递给eval_sety_test = y[splitTestIndex:] 检查模型
的<
浏览 0
提问于2020-02-27
得票数 5
回答已采纳
3
回答
为什么我
的
模型
训练
减少而验证没有减少,
训练
精度增加,验证精度没有增加?
、
、
、
、
我使用了大约4600张
训练
X光图像,按70:30
的
比例分割。我以为我有一个很好
的
训练
样本集,但模型出其不意。下面是描绘模型性能
的
图表。我
的
CCN看起来如下:inp = tensorflow.keras.layers.Input(shape=INPUT_SHAPE) conv1
浏览 7
提问于2020-08-29
得票数 0
2
回答
图像分类中
的
数据
洗牌
、
、
、
、
我想开发一个CNN模型来识别美国手语中
的
24个手语。我创建了一个自定义
的
,其中包含了每个手势
的
3000个图像,即整个数据集中
的
72000幅图像。为了
训练
模型,我将使用80-20数据集分割(
训练
集中有2400幅图像/手部符号,验证集中有600幅图像/手部符号)。 我
的
问题是:在创建数据集时,应该随机地对图像进行
洗牌
吗?为什么?根据我以前
的
经验,它导致验证损失低于
训练
损失,验证精度高于
训练</
浏览 3
提问于2020-04-14
得票数 1
回答已采纳
2
回答
使用验证、培训
和
测试
集之间
的
顺序
、
、
我试图了解机器学习中
的
模型评估
和
验证过程。具体而言,培训、验证
和
测试
集
的
使用
顺序
和
方式。 第一种
浏览 1
提问于2019-01-10
得票数 1
回答已采纳
1
回答
论推荐系统
的
离线评估
评估推荐系统
的
方法主要有三种:离线、在线
和
用户研究。在大多数学术论文中,采用离线评估来表明以下改进:他们在
训练
数据集上
训练
模型。他们在
测试
数据集上对它们进行评估。 然而,对于大多数非序贯推荐工作,数据集分割似乎是随机
的
,没有考虑记录
的
时序
顺序
。我认为这可能会造成高估
的
问题。例如,考虑在itemCF上评估MovieLens:如果数据集是随机分
浏览 0
提问于2019-10-09
得票数 1
1
回答
用预测模型
和
TunePareto软件包对数据集进行
测试
和
训练
、
我试图为一个具体
的
问题选择最佳
的
预测/分类模型。我被要求遵循
的
方法是: 重复使用其他模型,直到我对所选
的
每个分类模型都有了最佳
的
配置。最后,我必须用它们最好
的
参数来
重新
运行每个模型,其中要
训练<
浏览 2
提问于2013-01-10
得票数 1
1
回答
过拟合与数据分割
20000,2015-01-27,32,Mike现在我知道,我们把数据分成两部分,即
训练
和
测试
。然后将列车划
分为
70:30,用70%建立模型,用30%对模型进行验证。我们调整参数,使模型不过分适合。然后用
测试
数据进行预测。例如:我把2000000分成两个相等
的
部分。一般情况下,我们对数据进行
洗牌
,然后将其分解为
训练
、验证
和
测试<
浏览 4
提问于2016-02-02
得票数 0
回答已采纳
3
回答
如何
测试
有时失败?
、
、
、
、
我试图为一个模块编写一个单元
测试
,它将给出一个随机
的
给定条件
的
数字列表。,,序列是相同长度
的
,序列具有相同
的
值,序列
的
顺序
不是相同
的
。这方面的问题是,有时序列
的
顺序
是相同
的
。处理这件事最好
的
方法是什么? 我正在使用NUn
浏览 4
提问于2009-01-29
得票数 1
回答已采纳
2
回答
validation_curve如何计算test_scores
、
、
我正在浏览validation_curve
的
sci学习文档,并看到它返回了两组不同
的
数据: train_scores:
训练
集上
的
形状数组(n_ticks,n_cv_folds)分数。test_scores:形状数组(n_ticks,n_cv_folds)在
测试
集上得分。在给定
的
函数中,我们只传递一个X
和
y数组,它如何从传递
的
训练
数据中计算test_scores,它是否执行固有的train_test_split?groups=N
浏览 6
提问于2020-10-18
得票数 0
2
回答
为什么对整个数据集
的
DataFrame取样比对我
的
训练
集进行抽样有更好
的
预测模型
的
结果?
、
、
、
、
假设我有一个名为original_df
的
数据格式,它有20,000行。我将前18,000行拆
分为
我
的
训练
集,最后2,000行作为我
的
测试
集。然而,当我在
训练
集上使用sample函数时,在对非杂乱
的
original_df进行分割后
的
测试
集上,分类器永远无法做出肯定
的
预测:我只得到正负
和
假负数;零假阳性
和
真阳性。sklearn.naive_bayes
的</em
浏览 9
提问于2022-11-10
得票数 1
2
回答
面部表情数据集
的
训练
验证
测试
集分割
、
、
、
、
我正在使用卷积神经网络(CNN),我只想问一下,我
的
训练
/验证/
测试
集
的
划分方式是否正确。验证集是否也应由看不见
的
主题组成?或者我可以
洗牌
整套培训,并使用其中
的
一部分(10-20%)作为验证集? 我读过,使用N-折叠交叉验证,整个
训练
集(实例)被
洗牌
,然后分裂成N-折叠,
浏览 0
提问于2016-10-04
得票数 2
回答已采纳
10
回答
为什么要对数据进行机器学习任务
的
调整?
、
、
在机器学习任务中,通常会对数据进行
洗牌
和
规范化。标准化
的
目的是明确
的
(对于具有相同范围
的
特征值)。但是,在经历了很多挣扎之后,我没有找到任何有价值
的
理由来调整数据。我读过这里
的
这篇文章,讨论了什么时候需要对数据进行
洗牌
,但不清楚为什么要对数据进行
洗牌
。此外,我经常在算法(
如
Adam或SGD )中看到,我们需要批处理梯度下降(数据应该分离成小批,并且必须指定批处理大小)。根据这个帖子,对每个时代
的
数据
浏览 0
提问于2017-11-09
得票数 64
回答已采纳
1
回答
将验证/
测试
数据与培训数据混合是一个好主意吗?
、
、
、
、
我正在处理一个大型数据集(例如,一台机器
的
大数据集)--有1,000,000个例子。我
的
想法是: 理想情况下,希望为模型学习所有可能
的
可用数据。尽管20%
浏览 3
提问于2020-07-18
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
像写代码一样写完提示表
算法研习:机器学习中的K-Fold交叉验证
模型选择与评价(一)
如何写一个简历打败机器人
自然语言处理-第六期-Naive Bayes
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券