腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
无法
在
具有
其他
数值
和
类别
变量
的
数据
集中
创建
基于
时间
的
要素
、
、
我想让featuretools
基于
我
在
实体
集中
声明
的
时间
索引
和
截止
时间
来
创建
特征。 我有一个包含
时间
变量
、
数值
变量
和
分类
变量
的
数据
集。有一个ITEMID列,每个ITEMID有2到12行
数据
。有像开始日期
和
交易日期这样
的
列,各种数字
和
分类列。
浏览 19
提问于2019-04-03
得票数 1
1
回答
如何将
数值
类转换为WEKA中
的
因子?
、
、
在
具有
类中
的
数值
的
数据
集中
,例如: data$Class = as.factor(data$Class)
浏览 1
提问于2019-05-01
得票数 0
1
回答
房价
的
数据
集解释连续vs分类
、
、
、
我正在使用英国
的
房价
数据
集,并希望
创建
一个ML模型来预测
基于
城市(加上
其他
一些
类别
)
的
房价。 作为这一切
的
新手,我被难住了。我可以
创建
具有
连续
变量
的
模型,甚至可以对
其他
一些有4个不同选项(例如房屋类型)
的
类别
执行一次性编码(虚拟
变量
)。然而,当涉及到城市时,
数据
集中
大约有12
浏览 1
提问于2020-07-03
得票数 0
2
回答
为什么频率编码工作?
、
、
、
频率编码是Kaggle竞赛中广泛使用
的
一种技术,多次证明是一种非常合理
的
处理基数高
的
分类特征
的
方法。我真的不明白为什么会起作用。 它是
在
非常具体
的
情况下工作
的
频率是相关
的
目标,还是它更普遍?这背后
的
理由是什么?
浏览 0
提问于2019-11-25
得票数 15
2
回答
LightGBM不接受我
的
数据
的
数据
类型
、
、
、
我正在尝试使用LGBMClassifier,但由于某些原因,他不接受我
的
数据
类型(所有功能都不接受,我测试了一下)。当我们查看我
的
数据
时,我们可以清楚地看到所有的
数据
类型都是category、float或int (pd.DataFrame.info()) dtypes: category(275), float64(115), int64(9) 当我最终尝试训练我
的
LGBMClassifier时,我得到了以下错误: ValueError: Series.dtypes must be in
浏览 369
提问于2020-10-13
得票数 0
回答已采纳
5
回答
分类
和
预测有什么区别?
、
、
、
机器学习中
的
分类
和
预测有什么区别?
浏览 14
提问于2015-04-15
得票数 17
回答已采纳
1
回答
在
R中,是否有一种
基于
条件将一个范畴
变量
分成三个
的
方法?
、
、
我试图
创建
一个随机森林机器学习算法,对一些零售项目的性能。我用R Studio来做这个。
在
我
的
数据
集中
,我混合了
数值
变量
和
分类
变量
。月份供应商ItemName UnitsSoldTY UnitsSoldLY价格
类别
NumberStores 我相信,“供应商”
变量
将是非常重要
的
模型。为了将53个因素限制为一个分类
变量
,我想将“供应者”列分成三列。但是,我希望第一列包
浏览 1
提问于2019-05-12
得票数 0
2
回答
对倾斜
的
验证
数据
的
限制
、
、
、
我有一个严重倾斜
的
数据
集,由20个类组成,其中最小
的
类包含1000个样本,最大
的
几百万个。因为我
的
数据
集有如此大
的
偏差,对我
的
验证
数据
集
的
选择添
浏览 0
提问于2017-11-03
得票数 3
1
回答
如何使用
其他
变量
值
和
序列有条件地
创建
类别
、
、
、
、
我希望能有任何帮助来
创建
一个函数,它允许我使用一组
其他
变量
值
的
顺序来
创建
一个
变量
的
类别
。具体来说,我想要一个功能:
创建
变量
E1
的
类别
variable,即
变量
A、B
和
ID
的
每个组合出现在
数据
集中
的
first
时间
。
创建
变量<
浏览 1
提问于2019-02-02
得票数 1
回答已采纳
1
回答
SSRS图表
数据
-筛选值
的
选项?
、
、
、
系统使用以下字段
创建
归档
数据
表:-TIMESTAMP,记录
变量
值
的
时间
,诸若此类。我所关注
的
数据
集包含3个
变量
:Level、BatchTimer
和
BatchID。 目标:我想要实现
的
是Level作为Y值,BatchTimer作
浏览 0
提问于2019-05-23
得票数 0
回答已采纳
1
回答
如何使用MicroStrategy可视化洞察中
的
Case/If函数将
具有
数字值
的
属性转换为文本值?
、
、
、
我有两个要在Visual Insight中
创建
仪表板
的
报告/
数据
集。其中一个
数据
集来自Teradata (直接连接到MicroStrategy)。另一个
数据
集来自谷歌BigQuery (通过智能立方体连接器连接到MicroStrategy )。这两个
数据
集
的
关键是
类别
。问题是Teradata中
的
类别
属性是
数值
,即55、45、14、29、30等,而BQ
数据
集中</e
浏览 27
提问于2019-02-19
得票数 0
2
回答
SQL -管理字符与单个
变量
中
的
数值
、
、
、
也许是一个相对简单
的
SQL问题: 我有个变数。它表示
时间
序列
数据
集中
的
月份计数。对于每个条目,当满足某些条件时,计数将递增1。它可以有一个从0到任何实际值
的
整
数值
,尽管它不会比大约160更高。但是,如果没有关于月数
的
数据
,
变量
的
值将为"X“,这就是问题所在。我试图用WHERE条件组合一个查询,该条件指定上述
变量
大于或等于2(或3,或6-它是任意
的
)。正如
浏览 2
提问于2015-11-03
得票数 1
回答已采纳
1
回答
是否有Stata函数将日期(月/日/年/
时间
)
的
字符串
变量
更改为月份/日期/年份和数字?
我有一个
具有
时间
戳
的
字符串
变量
。例如,一个条目看起来是:"4/25/2022 17:26“。我有一千多个观察结果。我需要对日期进行分类(如
时间
段A,
时间
段B.)。我想每月一个
类别
,所以我会有25个
类别
(因为我有超过2年前
的
数据
)。我想我首先应该让字符串
变量
成为一个连续/
数值
变量
,这样我就可以执行一个if...then语句,<
浏览 4
提问于2022-04-26
得票数 0
2
回答
用numeric+text
数据
训练支持向量机分类器
、
、
、
训练
数据
在
Excel文件中,包含数字和文本字段/列。当我将这些
数据
导出到MATLAB时,它要么是表格格式,要么是单元格格式。如何将其转换为矩阵格式? 附注:使用xlsread函数不会导入文本
数据
。
浏览 2
提问于2014-11-11
得票数 0
1
回答
如何在预测模型中编码因子预测器
、
、
、
我
的
数据
集中
的
response
变量
和
所有predictor
变量
都是因子。我想建立一个模型来预测响应
变量
。据我所知,我必须首先对我
的
预测
变量
进行编码。我需要关于如何在R中做同样
的
建议。我尝试构建knn
和
随机森林模型,但这不起作用,因为执行永远不会完成。 "rs“是响应
变量
,所有
其他
变量
都是预测
变量
。&q
浏览 1
提问于2019-10-20
得票数 0
1
回答
异长多
变量
时间
序列
的
相似性度量
、
、
我对使用python聚类T‘值
的
多
变量
N个
时间
序列(不同长度)感兴趣。每个
变量
都有许多趋势
和
值,这些趋势
和
值同时是
数值
和
名义值。
数据
集中
的
示例T_{i}
具有
以下格式:2015-02-05 11:30|<Min | On |0.00012 2015-02-07 11:3
浏览 0
提问于2016-08-16
得票数 6
回答已采纳
3
回答
对使用插入符号
的
randomForest ()使用公式训练
的
对象使用predict()时出错
、
、
、
、
在
64位Linux机器上使用R3.2.0
和
插入符6.0-41
和
randomForest 4.6-10 .当尝试
在
使用使用公式从predict()包中
的
train()函数训练
的
randomForest对象上使用caret方法时,该函数返回一个错误。predict.randomForest方法使用rownames(object$importance)来确定用于训练随机林object
的
变量
的
名称。train()函数时,会更改randomFo
浏览 2
提问于2015-05-07
得票数 11
回答已采纳
1
回答
为什么高基数
的
范畴
变量
不是首选
变量
,而不是
数值
变量
?
、
我在网上研究了一些高基数
的
范畴
变量
。许多帖子
和
论文只是简短地总结出“它扭曲了模型
的
性能”,而没有详细说明为什么
和
有多高
的
基数会影响模型
的
性能?( i)
在
某些编码方法下,如一维编码,会导致维数性
的
诅咒. ( ii)
在</
浏览 0
提问于2021-12-24
得票数 1
1
回答
验证
数据
中缺少
类别
、
、
、
我
在
R中建立了一个
基于
训练
数据
集
的
分类模型,其中包含12个分类预测器,每个
变量
包含几十到数百个
类别
。 问题是,
在
我用于验证
的
dataset中,一些
变量
的
类别
比
在
培训
数据
中少。例如,如果我
在
训练
数据
变量
v1中有三个
类别
-- 'a','b','c&
浏览 4
提问于2016-02-16
得票数 2
回答已采纳
1
回答
K-均值聚类中范畴
变量
的
最大范畴
、
、
、
、
我试图在
数据
集上执行K均值聚类,我
的
一个分类特性有96个可能
的
选项。对于一个
变量
来说,这是否是太多
的
特性?另一种方法是尝试通过证据权重将其转换为一个
数值
变量
,或者干脆放弃它。你们觉得怎么样?
浏览 0
提问于2023-02-14
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Moldex3D iSLM资料定义之图标类型介绍
机器学习中的独热编码
Matlab建立SVM,KNN和朴素贝叶斯模型分类绘制ROC曲线
手把手教你用Python实现自动特征工程
玩转数据可视化,这些经典图表有妙用
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券