腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
训练
和
测试数据
集
是否
应该
使用
相同
的
计算机
系数
?
、
、
我正在学习如何准备数据,构建估计器,并
使用
训练
/
测试数据
拆分进行检查。 我
的
问题是如何正确地准备
测试数据
集
。 我将我
的
数据分成测试
和
训练
集
。,我想在
测试数据
上
使用
我
训练
过
的
估计器来验证我
的
准确性。但是,如果我通过我定义
的
管道传递我
的
测试特征数据,它不是只从
测试数据
<
浏览 19
提问于2019-08-21
得票数 0
1
回答
比较数据
集
-我
应该
使用
相同
的
测试数据
集
吗?
、
、
我正在
训练
ML CNN模型。我想比较不同
的
图像数据
集
。数据
集
都有不同
的
特征(翻译与否、旋转与否等等)。我
应该
使用
相同
的
测试数据
集
来比较它们吗?此数据
集
不会通过测试更改,并且将包含在其他地方找不到
的
数据。它不会更适合于特定
的
培训数据
集
。 还是
应该
浏览 0
提问于2020-07-24
得票数 0
1
回答
如何求多项式logistic回归
的
系数
?
、
、
、
我需要
使用
sklearn计算多元logistic回归
的
系数
:x1 x2 x3 x4 x5 x60.500000 0.055000 1.0 18.1818 0.0 4.01142我就是这样做
的
:
浏览 0
提问于2018-01-29
得票数 1
回答已采纳
1
回答
在共享任务中
使用
培训数据
和
测试数据
我正在处理这个共享任务
训练
集
:我们
应该
把它分成
训练
和
测试部分(90%
的</em
浏览 0
提问于2017-12-05
得票数 0
回答已采纳
2
回答
需要帮助理解数据泄漏
、
、
、
我是这方面的新手,所以如果我
的
问题很愚蠢,我很抱歉。 我需要帮助理解X_train
和
X_test之间
的
数据泄漏是什么以及它发生的确切时间。我目前正在处理一个数据
集
,在该数据集中,我
使用
KNN输入程序来填充丢失
的
值。我需要对knn估算
的
数据进行缩放,并在计算过程之后进行
训练
、测试、拆分
和
应用机器学习模型。我读到,数据泄漏可能发生在缩放过程中,所以我们
应该
在分割后进行缩放,对
训练
集
进行
浏览 0
提问于2020-06-03
得票数 1
回答已采纳
1
回答
如何计算列车与试验调整后
的
R^2回归
、
、
、
对于
训练
和
测试装置
的
调整R^2
的
计算,我有点困惑。在计算
训练
和
测试数据
集
的
调整R^2
系数
(n)时,我
应该
使用
的
观测数是多少? 我
的
问题是,在计算
训练
和
测试数据
<em
浏览 3
提问于2021-05-20
得票数 0
1
回答
GATE工具中
的
机器学习
、
、
在
使用
GATE工具对
训练
数据运行机器学习算法(SVM)后,我想在
测试数据
上对其进行测试。我
的
问题是,我
是否
应该
使用
相同
的
训练
数据进行测试,同时,模型如何从
测试数据
中提取实体,而
测试数据
没有
使用
训练
数据中学习到
的
注释进行注释。我遵循了这个链接上
的
教程,但在最后,当它谈到将数据
集
拆分为
训练
浏览 2
提问于2014-08-28
得票数 0
1
回答
为什么从10倍交叉验证中得到
的
模型性能分数存在巨大差异?
、
、
我
使用
的
是梯度增强回归模型 (GBRT)。 为了评估这个模型,我
使用
了10倍交叉验证,在每个中我都设置了
相同
的
参数,因此唯一
的
区别就是
训练
和
测试数据
集
。对于每一个折叠,我计算
的
决定
系数
作为拟合
的
尺度。然而,我发现,从每一个折叠得到
的
决定
系数
存在巨大
的
差异,例如,从fold_1到fold_10
的
浏览 2
提问于2014-09-12
得票数 0
回答已采纳
2
回答
数据科学标度/规范化实例化
、
、
、
在进行数据预处理时,建议对数据进行缩放或规范化.当你手上有数据时,这是很容易做到
的
。你有所有的数据,可以马上做。但是,在模型建立
和
运行之后,
是否
需要对第一个输入
的
数据进行缩放或标准化?而传入
的
数据如何是最小/最大/平均每个特性? 请指教
浏览 2
提问于2017-09-04
得票数 0
回答已采纳
1
回答
测试数据
集
和
验证数据
集
的
增强
、
、
、
我在
训练
一个分割模型(
计算机
视觉)。因此,我
的
数据
集
包含图像
和
掩码(对象
的
二进制分段)。 我正在增加
训练
数据
集
(应用随机作物、轮班或轮班等)以获得更大
的
数据
集
。我不对测试
和
验证数据
集
应用增强。我
应该
在验证数据
集
或
测试数据
集
上
使用
增强吗?
浏览 0
提问于2020-11-12
得票数 0
回答已采纳
1
回答
是否
应该
将
相同
的
最小值
和
最大值应用于DataFrame上
的
训练
和
预测?
、
、
、
、
我正在将sklearn.preprocessing.MinMaxScaler()应用于DataFrame,并
使用
DataFrame进行机器学习。在
训练
之后,我有一个单独
的
代码
和
DataFrame来做预测。在预测代码中,我对要用于预测
的
DataFrame执行MinMaxScaler()。
训练
DataFrame
和
预测DataFrame将具有不同
的
最小值
和
最大值。我
的
问题是,
训练
DataFrame
浏览 18
提问于2020-10-01
得票数 0
回答已采纳
1
回答
TreeBagger() (MATLAB)
和
不同数量
的
训练
和
测试
集
上
的
变量
、
、
我正在
使用
MATLAB函数TreeBagger()进行随机森林分类,以完成一项任务。当
测试数据
的
变量数量与
训练
数据
的
变量数量不同时,它会给出错误。我被告知,变量选择
应该
只在
训练
数据上进行,而不是在
测试数据
上,这样
测试数据
上就没有偏见。因此,在将初始数据
集
(50个变量)拆分为
训练
集
和
测试
集
后,我对
训练
集
执行变量选
浏览 0
提问于2015-12-20
得票数 1
1
回答
我们
是否
应该
标准化验证
集
以及
使用
来自列车数据
的
相同
参数
的
测试数据
集
(Keras中
的
LSTM)?
、
、
、
假设我们有三个数据
集
:
训练
、验证
和
测试。我们知道,我们
应该
利用从列车数据归一化中提取
的
参数来对
测试数据
进行规范化。此外,我们知道验证是
训练
数据
的
一部分(遵循Keras
的
结构)。我们
是否
也
应该
规范
使用
从列车数据中提取
的
相同
参数
的
验证
集
?
浏览 1
提问于2019-10-21
得票数 0
回答已采纳
1
回答
执行特征归一化时
的
数据窥探、信息泄漏
、
假设我们有一个
训练
数据
集
(同时有特性
和
标签)
和
一个
测试数据
集
(只有特性)。 当我们建立一个需要特征规范化
的
机器学习模型时,正确
的
方法是只
使用
训练
数据
集
来进行规范化(防止信息泄漏)。也就是说,一种错误
的
规范化方法是将
训练
(不包括Y列)
和
测试数据
集
叠加在一起,并执行规范化(即
使用
整个
训练<
浏览 0
提问于2018-03-14
得票数 1
回答已采纳
2
回答
在PCA过程中,测试
集
的
数据会“泄漏”到预测器中吗?
、
在阅读了这篇文章之后,我有一个关于PCA
的
问题。但是,很少有需要理解
的
重要问题: 1)不应将
训练
集
和
测试
集
相结合,同时获得整个数据
的
PCA分量。因为,这将违反泛化
的
整个假设,因为
测试数据
会被“泄漏”到培训集中。换句话说,
测试数据
集
将不再是“看不见
的
”。最终,这将削弱模型
的</e
浏览 0
提问于2017-05-28
得票数 1
1
回答
sklearn迭代计算器在计算过程中将行添加到
测试数据
集
、
、
我正在参加Kaggle上
的
data the data sci项目,以了解更多关于Python
的
知识,并
使用
迭代计算器来估计
训练
和
测试数据
集
的
年龄。
训练
数据
集
为891行,
测试数据
集
为418行。在
使用
与
训练
数据
集
拟合
的
计算机
来转换
测试数据
集
以计算值之后,它还添
浏览 25
提问于2020-04-09
得票数 0
2
回答
如何将数据
集
分成两部分,同时确保它们在列中与分类变量保持平衡?
、
、
我正在
使用
训练
和
测试数据
集
来测试一个估算模型
的
准确性。我正在运行
的
模型
使用
了一个分类变量。不幸
的
是,当我随机拆分数据
集
并在
训练
集
上运行一个模型时,我无法估计
测试数据
集中存在
的
某些分类变量
的
系数
。我想对数据进行分割,同时确保所有的分类变量都存在于培训
和
测试数据
集中。在R中有一种
浏览 1
提问于2021-11-06
得票数 0
3
回答
我可以
使用
Train
和
Test数据进行补偿吗?
、
、
有趣
的
是,我在stackoverflow
和
其他网站上看到了很多关于这个问题
的
不同答案: 在处理我
的
训练
数据
集
时,我
使用
决策树模型估算了某个列
的
缺失值。所以这是我
的
问题。
使用
所有可用
的
数据(
训练
和
测试)来建立一个用于估算(而不是预测)
的
模型
是否
公平,或者当我这样做时,我可以只接触
训练
集
吗?此外,
浏览 0
提问于2017-10-15
得票数 7
2
回答
机器学习中
的
测试数据
集
比
训练
数据
集
小
、
、
、
我想
训练
不同
的
机器学习算法(支持向量机,随机森林,CNN等)。对于
相同
的
数据
集
(例如,MNIST),然后比较它们
的
准确性。目标是从哪种
训练
数据大小中找出哪种方法比其他方法更好。为了做到这一点,我不断地减少原始
训练
数据
集
( 60000个样本),并在这些减少
的
训练
数据
集
上
训练
模型。如果我
使用
原始
的
MNIST
测试数据
浏览 0
提问于2019-04-28
得票数 0
2
回答
具有缩放整个数据
集
,然后分裂它。
、
、
我想知道为什么我们要分别在火车
和
测试
集
上
使用
缩放。我理解根据列车上
的
fit_transform()计算
的
对
测试数据
的
转换(μ
和
σ)。但是,为什么我们可以从所有给定
的
数据(在拆分之前)计算μ
和
σ,然后将它们应用于未来
的
数据。 我们这么做是因为我们不知道未来数据
的
大小吗?
浏览 0
提问于2018-08-08
得票数 1
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券