腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
对
每个
目标
使用
不同
的
测试
/
训练
拆分
我计划
使用
一个包含3个感兴趣
的
目标
值
的
数据集。最终,我将在一个二元
目标
上尝试分类方法,并计划
对
两个独立
的
连续
目标
使用
回归方法。
对
每个
目标
变量进行
不同
的
训练
/
测试
拆分
是不是一种糟糕
的
做法?否则,我不确定如何以一种允许我分别预测
每个
目标</e
浏览 5
提问于2020-02-20
得票数 1
1
回答
我应该
使用
什么作为基本(一级)分类器
的
训练
数据?
、
我能不能把我所有的
训练
数据,
训练
他们
的
基本模型,然后把他们
的
结果,并
使用
他们
的
训练
水平2模型?这是一个好
的
做法,还是应该采取
不同
的
做法?
浏览 0
提问于2020-01-12
得票数 1
回答已采纳
1
回答
在学习中,火车
测试
拆分
得分较高,CV得分较低
、
、
、
、
我是数据科学
的
新手,一直在为Kaggle
的
问题而奋斗。用随机森林回归预测评分时,发现列车
测试
分割得分较高,而CV得分较低。0.8746277302652172with 与列车
测试
split_randomforest无列车
测试
split_randomforest split_randomforest CV随机森林10.713885026374156
浏览 2
提问于2020-07-05
得票数 0
2
回答
GroupSplitShuffle与GroupKFolds
的
区别
、
、
、
、
正如标题所说,我想知道sklearn
的
GroupKFold和GroupShuffleSplit之间
的
区别。 两者都对具有组ID
的
数据进行给定
的
训练
测试
拆分
,因此在
拆分
中不会将组分开。我检查了
每个
函数
的
一个
训练
/
测试
集,它们看起来都是一个很好
的
分层,但如果有人能确认所有的splits都能做到这一点,那就太好了。我
对
这两种情况都进行了<em
浏览 47
提问于2020-08-21
得票数 1
回答已采纳
2
回答
使用
验证、培训和
测试
集之间
的
顺序
、
、
在中,这似乎意味着顺序应该是: 然而,在我看来,这似乎很奇怪:如果您还没有选择您
的
超参数(在这种情况下是多项式度),那么如何将您
的
模型与
训练
集相匹配呢?我看到了三种
不同
的
方法,我不确定它们是否正确
浏览 1
提问于2019-01-10
得票数 1
回答已采纳
1
回答
使用
小数据集和SMOTE进行深度学习
、
、
、
、
我有一个有6000条记录
的
数据。我有一个60-20-20
的
训练
,验证和
测试
集。我用XGboost得到了大约76%
的
准确率。我将我
的
数据转换为时间序列,并应用LSTM/1-D Convnet,准确率约为60%。我
的
数据集是否太小,无法进行深度学习?其次,可以在
每个
训练
上应用SMOTE,
测试
和验证集(在
拆分
数据之后)我知道在将数据
拆分
到
训练
/<em
浏览 34
提问于2019-09-04
得票数 0
1
回答
训练
分类示例
、
我是机器学习
的
新手。我目前正在解决一个以字符串为
目标
的分类问题。我已经
拆分
了
测试
集和
训练
集,并通过OneHotEncoder转换字符串属性来处理它们,而且,我还
使用
StandardScaler来缩放
训练
集
的
数字特征。我
的
问题是对于
测试
集,我是否需要转换仍然是字符串格式
的
测试
集
目标
,就像我
使用
OneHotEncoder
对
训
浏览 7
提问于2018-03-02
得票数 0
回答已采纳
1
回答
TimeSeriesSplit -如何聚合(或非筒仓)分裂?
、
、
网上有很多例子显示如何
使用
TimeSeriesSplit创建多个培训/
测试
集。然而,他们并没有展示如何在实践中真正地聚合这些信息。例如,这是从scikit学习文档中提供
的
:X = np.array([[1, 2], [3, 4X_train, X_test = X[train_index], X[test_index]产生<
浏览 0
提问于2019-03-18
得票数 0
回答已采纳
1
回答
使用
sklearn进行音乐流派分类:如何准确评估
不同
的
模型
、
、
、
我正在做一个项目,
对
来自5个
不同
流派(摇滚,电子,说唱,乡村,爵士)
的
30秒音频样本进行分类。我
的
数据集包含600首歌曲,
每个
流派恰好有120首。特征是每首歌曲
的
13个mfcc
的
一维阵列,标签是流派。基本上,对于30秒样本
的
每帧,我取每组13个mfcc
的
平均值。这导致每首歌曲有13个mfcc。然后,我获得整个数据集,并
使用
sklearn
的
缩放函数。我
的
目标
是比较s
浏览 3
提问于2017-05-15
得票数 1
1
回答
如果只对文档进行
训练
和对句子进行推理,doc2vec是否有用
、
、
、
我正在用gensim
的
Doc2vec
训练
一些文档。全英文维基百科:维基百科文本中
的
每一篇文章都被视为一个用于doc2vec培训
的
文档。(总共约550万篇与我
的
项目相关
的
文章或documents)Some文档是从一些网站手动准备和收集
的
。(大约15000个文档)。 其中
每个
文档
的
大小约为100个句子。此外,我想
使用
这个模型来推断句子
的
大小(10~20个单词)。
浏览 26
提问于2018-06-05
得票数 0
回答已采纳
1
回答
列车
测试
分裂前后时间序列特征丰富?
、
、
、
、
我正在处理一个时间序列,它表示在Azure虚拟机上注册
的
CPU
使用
情况。历史数据包括19个月,其粒度为10分钟1( CPU
使用
级别已注册
的
每10分钟)。我
的
主要
目标
是
对
趋势进行长期(提前一周)预测.在乞讨时,我
的
原始数据集中只有一个列- usageLevel可用。当然,在尝试任何预测模型之前(我将
测试
XGBoost、LSTM、变压器等)。通常
的
做法是进行广泛
的
功能丰富。有多种策略和想法推荐--其中一
浏览 0
提问于2022-12-11
得票数 0
1
回答
在选择最佳超参数组合后,SparkML CrossValidator是否重新适合完整
的
训练
数据集?
、
、
、
、
在
训练
数据集上交叉验证超参数网格后,SparkML
的
CrossValidator是否重新适合整个
训练
数据集?如果不是,它会从交叉验证
的
哪一部分中选择用于推断
的
bestModel?拟合
的
CrossValidator使.transform()方法可用。为此,CrossValidator是否
使用
最佳超参数在整个
训练
/交叉验证数据集上重新
训练
,并
使用
重新拟合
的
模型进行推理?或者,bestModel
浏览 22
提问于2021-03-23
得票数 0
2
回答
随机分割
训练
和
测试
数据
、
、
、
我有大约3000个对象,
每个
对象都有一个与之相关
的
计数。我想在
训练
和
测试
数据中随机划分这些对象,70%
的
训练
和30%
的
测试
分割。但是,我想根据与
每个
对象相关联
的
计数来划分它们,而不是基于对象
的
数量。举个例子,假设我
的
数据集包含5个对象。Obj 1 => 200Obj 3 => 40Obj 5 => 1
浏览 25
提问于2016-07-27
得票数 1
3
回答
功能计数不匹配
、
、
我正在
使用
scikit做一个简单
的
分类任务。我有一个
测试
和
训练
数据集,它们
的
形状如下: train = (1000,69917)和test = (1073,49429)。当我这样做
的
时候:predicted = clf.predict(X_test)ValueError: X has 49429
浏览 0
提问于2014-08-19
得票数 3
1
回答
TreeBagger() (MATLAB)和
不同
数量
的
训练
和
测试
集上
的
变量
、
、
我正在
使用
MATLAB函数TreeBagger()进行随机森林分类,以完成一项任务。当
测试
数据
的
变量数量与
训练
数据
的
变量数量
不同
时,它会给出错误。我被告知,变量选择应该只在
训练
数据上进行,而不是在
测试
数据上,这样
测试
数据上就没有偏见。因此,在将初始数据集(50个变量)
拆分
为
训练
集和
测试
集后,我
对
训练
集执行变量选择(独立性的卡方检验)。因此,<em
浏览 0
提问于2015-12-20
得票数 1
1
回答
测试
在caffe框架中是如何工作
的
?
、
、
因此,基本上可以在
训练
/
测试
中
拆分
数据库。让我们假设2/3
的
训练
,其余
的
设置为
测试
。然后在caffe中,我们将
训练
数据分成
不同
大小
的
批,假设我们有100批,每批50张图像,所以我们有5000张
训练
图像。现在假设我们有50个
测试
批次,
每个
批次有50个图像。现在让我们假设caffe做了一个时期,然后用
测试
批次进行
测试</e
浏览 5
提问于2016-09-17
得票数 0
1
回答
根据特定列值
对
pandas数据帧进行采样
、
我有包含search_id
的
熊猫数据帧df,我想随机将df采样到
训练
和
测试
集中,其中
训练
和
测试
集都具有
不同
的
search_ids。Search_id不是唯一
的
,
每个
search_id都有多个条目,但我希望
训练
和
测试
数据应该有
不同
的
search_ids。我能找到
的
是一般
的
采样,但我没有找到如何
使用
search_i
浏览 0
提问于2019-08-24
得票数 0
1
回答
数据帧列表
的
训练
测试
拆分
- Pandas
、
、
、
我有一个DataFrames列表,我想将它们
拆分
为
训练
集和
测试
集。[split_point:]split_point = [len(df)-125 for df in dfs] ## THIS WORKSFINE 我想要对整个数据帧列表进行train和test
拆分
,就像我<
浏览 3
提问于2017-07-20
得票数 0
回答已采纳
1
回答
具有阈值
的
多输出图像分类
的
分割数据集
、
、
我
使用
sklearn.model_selection中
的
StratifiedShuffleSplit来
拆分
数据集。但它只适用于1个标签。那么,如何
对
两个标签进行分层
拆分
,并为
每个
标签中
每个
类别中
的
样本数量添加阈值?对不起,我
的
英语不好。
浏览 0
提问于2021-10-12
得票数 0
1
回答
从两种
不同
的
方法计算召回率和查准率
的
不同
结果
、
、
、
、
根据下面的代码,我正在计算特定分类器
的
召回率和准确率分数 clf = GradientBoostingClassifier(n_estimators=20)results = pd.DataFrame(grid_search_clf.cv_results_) 然后,我将获得以下table 您可以看到,平均召回率和准确率得分与上一步计算
的
得分非常
不同
,而
使用
相同参数
的
相同数据已应用于两者。
浏览 10
提问于2019-03-10
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
测试HTTP代理对目标服务器的访问结果,好用的HTTP代理厂商推荐
使用 jMeter 对需要 User Authentication 的 Restful API 进行并发负载测试
渗透测试公司 对客户网站使用的squid系统进行漏洞检测
理解如何处理计算机视觉和深度学习中的图像数据
特斯拉使用完全自动驾驶测试版减轻对注意力不集中的司机的惩罚
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券