腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1604)
视频
沙龙
1
回答
Pyspark
ML
-
随机
森林
分类
器
-
一种
不适
用于
标签
的
热
编码
、
、
、
我尝试使用
pyspark
ml
(spark 2.4.0)运行一个
随机
森林
分类
器
,并使用OHE对目标
标签
进行
编码
。当我将
标签
作为整数(字符串索引
器
)输入时,该模型训练得很好,但当我使用OneHotCodeEstimator输入一个
热
编码
的
标签
时,该模型就失败了。这是火花限制吗?#%%import
pys
浏览 74
提问于2020-06-30
得票数 0
回答已采纳
2
回答
随机
森林
分类
器
中
的
单
热
编码
、
、
是否需要对python中
的
随机
森林
分类
器
进行一次
热
编码
?我想从逻辑上理解,
随机
林中是否可以用
标签
编码
来处理
分类
特性,而不是单
热
编码
。
浏览 4
提问于2021-01-14
得票数 0
1
回答
为sckit-learn中
的
多类问题
编码
标签
、
、
、
当使用scikit
的
分类
器
-学习多类问题时,是否需要用
一种
热
编码
对
标签
进行
编码
?例如,我有3个类,在将这些数据输入不同
的
分类
器
以进行培训时,简单地将它们标记为0、1和2。据我所知,它似乎运转正常。但是,有什么理由不推荐这种基本
编码
吗? 有些算法,如
随机
森林
,本机处理
分类
值。对于logistic回归、多层感知
器
、
浏览 1
提问于2018-07-25
得票数 3
回答已采纳
1
回答
是否应该对混合数据(
分类
数据和数字数据)进行缩放?
、
、
、
、
我
的
数据集包含13个属性,包括10个数字属性和3个
分类
属性和目标。它有180个观测数据所有的
分类
都是不序数
的
,每个
分类
都有以下几类:CatFeature2: 0/1/2这是一个二元
分类</em
浏览 0
提问于2019-09-16
得票数 1
回答已采纳
1
回答
基于
pyspark
.
ml
的
数据
随机
林
、
、
、
我正在尝试使用
pyspark
.
ml
库构建一个
随机
森林
分类
器
,
用于
数据挖掘(,而不是RDD
的
mllib )。我是否必须使用文档中给出
的
管道?/
ml
/classification.py", line 910, in __init self.setParams(**kwargs) File "/usr/lib/spark/py
浏览 0
提问于2017-10-18
得票数 0
2
回答
如何用Scikit学习来预测
分类
变量和连续变量
的
组合?
、
、
我有一个具有大量预测变量
的
数据集,我希望使用它们来预测一些输出变量。然而,我想预测
的
一些事情是绝对
的
,其他
的
是连续
的
;我想要预测
的
事情并不是独立
的
。比如,学习如何混合
分类
器
和回归函数,这样我就可以预测和解开这些变量了吗?(我目前正在研究梯度提升
分类
器
/回归
器
,但可能有更好
的
选择。)
浏览 0
提问于2021-06-14
得票数 1
1
回答
将
编码
器
标记为类别
、
、
、
、
我创建了一个带有
随机
森林
的
ML
模型,它有27个特性
的
6000+数据,其中大约22个是
分类
数据,我在it.Now上使用了
标签
编码
器
,当我不得不预测结果时,当我将细节作为
分类
数据输入时,它被转换成由
标签
编码
器
先前分配给data.Or
的
相同数字,我应该使用什么方法?
浏览 3
提问于2022-10-17
得票数 0
1
回答
如何处理最新
的
星火
随机
森林
的
分类
特征?
、
、
、
、
在
随机
森林
的
Mllib版本中,有可能用参数categoricalFeaturesInfo指定具有名义特征(数值但仍然是绝对变量)
的
列,那么
ML
随机
森林
是什么呢?在用户指南中,它使用VectorIndexer来转换向量中
的
分类
特征,但是它被写成“自动识别
分类
特征,并对它们进行索引” I发现,在
随机
森林
中,数字索引无论如何都被视为连续
的
特性,因此建议进行一次
浏览 1
提问于2017-10-15
得票数 6
回答已采纳
2
回答
单
标签
多类
分类
随机
森林
蟒蛇
、
、
、
、
我是机器学习
的
新手,目前正在处理由
分类
数据组成
的
csv文件格式
的
数据集。作为预处理
的
一种
手段,我对数据集中
的
所有变量进行了
热
编码
。 目前,我正在尝试应用
随机
森林
算法将条目
分类
为4个类别中
的
一个。我
的
问题是,我不知道这一个
热
编码
变量到底发生了什么。我如何将它们提供给算法?它能区分buying_price_high
浏览 19
提问于2019-10-02
得票数 0
回答已采纳
3
回答
多类问题单
热
编码
类
标签
的
正确方法
、
、
、
、
我有一个多类
的
分类
问题,我们把它们称为A、B、C和D。我
的
数据
的
形状如下:[[1,0,0,0], [0,1,0,0], ...]并且有这个形状
浏览 1
提问于2020-04-14
得票数 1
回答已采纳
1
回答
Scikit学习中
的
分类
数据转换
、
、
、
我有一个4000万×22
的
整数数据数组,
用于
分类
任务。大多数功能都是
分类
数据,使用不同
的
整数值来表示不同
的
类别。例如,在列“Color”中,0表示蓝色,1表示红色,依此类推。是否有必要将这些数据纳入SK-learn中
的
任何
分类
模型?我试图将数据拟合成
随机
森林
模型,但精度极差。我也尝试过一次
热
编码
将数据转换成虚拟变量,但是我
的
计算机在使用一次
热
<e
浏览 5
提问于2015-01-09
得票数 2
回答已采纳
5
回答
学习
随机
森林
可以直接处理
分类
特征吗?
、
、
、
假设我有一个
分类
特征,即颜色,它采用以下值我想用它来预测
随机
森林
中
的
一些东西。如果我只对它进行一次
热
编码
(即我将它更改为四个虚拟变量),我如何告诉sklearn这四个虚拟变量实际上是一个变量?具体来说,当sklearn
随机
选择要在不同节点上使用
的
特性时,它要么应该将红色、蓝色、绿色和橙色
的
假人放在一起,要么不应该包含其中
的
任何一个。我听说没有办法做到这一点,但我想,必须有<
浏览 12
提问于2014-07-12
得票数 77
回答已采纳
1
回答
如何处理具有不同基数
的
多个范畴变量?
、
、
我正在处理我在kaggle上找到
的
一个自动数据集。除了马力、车长、汽车重量等数值外,它还有多个
分类
变量,如:我想使用
随机
森林
分类
器
来执行特征选择,并将所有这些变量作为输入。我知道,在这样做之前,必须对
分类
变量进行
编码
。处理这些变化基数
的
数据
浏览 3
提问于2022-02-03
得票数 1
2
回答
如何在VectorAssembler中使用字符串变量
、
我想要运行
随机
森林
算法上
的
火花。在中提到,VectorAssembler只接受数字或布尔数据类型。因此,如果我
的
数据包含Stringtype变量,比如城市名称,那么我是否应该对它们进行一次
热
编码
,以便进一步进行
随机
森林
分类
/回归?下面是我一直在尝试
的
代码,输入文件是: train=sqlContext.read.format('com.databricks.spark.csv').opt
浏览 9
提问于2017-09-20
得票数 3
回答已采纳
1
回答
PySpark
dataframe管道抛出无MetastoreRelation错误计划
、
、
、
、
我
的
代码已经变得相当大,所以我将解释步骤1。我
的
火花数据中有8000列和68k行。在8k列中,有500个是
分类
的
,我将
pyspark
.
ml
一个
热
编码
作为
ml
.pipeline encoders2 = [OneHotEncoder(inputCol=c, outputCol但这是非常缓慢
的
,甚至在3个小时后,它还没有完成。我在12个节点上使用40 12内存!2.因此,我阅读了
pysp
浏览 4
提问于2017-05-23
得票数 0
回答已采纳
1
回答
在
分类
时,在对实际数据进行预测时,是否需要规范新
的
传入特性?
、
、
有两个数据集----培训--一组特性和一组数据集,这些特性
的
标签
还有待预测(是新
的
)。 我需要规范传入
的
功能吗?(常识告诉我,是的)如果是的话,我应该从训练数据
浏览 3
提问于2015-09-19
得票数 1
5
回答
PySpark
& MLLib:
随机
森林
特征
的
重要性
、
、
、
我正在尝试提取我使用
PySpark
训练
的
随机
森林
对象
的
特征重要性。但是,我在文档中没有看到这样做
的
示例,也不是RandomForestModel
的
方法。如何在
PySpark
中从RandomForestModel回归
器
或
分类
器
中提取特征重要性? 以下是文档中提供
的
示例代码,
用于
帮助我们入门;但是,其中并没有提到特性
的
重要性。from
pys
浏览 2
提问于2015-03-11
得票数 16
4
回答
什么时候对LabelEncoder和DictVectorizor使用
一种
热
编码
?
、
、
我用
分类
数据构建模型已经有一段时间了,在这种情况下,我基本上默认在构建模型之前使用scikit-learn
的
LabelEncoder函数来转换这些数据。我理解OHE、LabelEncoder和DictVectorizor在数据处理方面的区别,但我不清楚
的
是,您什么时候可以选择使用
一种
技术而不是另
一种
技术。
浏览 0
提问于2015-12-19
得票数 171
回答已采纳
2
回答
哪
一种
机器学习模型最适合于数值和
分类
数据
的
结合?
、
、
、
、
我想开发一个
ML
模型,允许我
的
公司根据各种参数,比如业绩、缺勤率、地点、年龄、团队经理等,来突出那些有离开企业风险
的
员工。我们有一个相当多样化
的
数据库,里面有已经离开公司的人,每个输入
的
价值都可以用来训练模型。输出是一个简单
的
1或0:基于所有的输入,一个人要么处于‘风险’,要么‘不处于离开
的
风险’,而没有立即要求任何风险程度
的
指示。我有点像个
ML
新手,但在研究了各种类型
的
ML
模型之后,我找不到任何与
浏览 0
提问于2021-10-11
得票数 -1
2
回答
有没有类似于H2O
的
“SKLearn _ RFClassifier”
的
停止轮次
的
论据?
、
、
我使用h20和r将
随机
森林
转换为使用SciKit Learn
的
随机
森林
分类
器
和python
的
随机
森林
。H2O
的
randomForest模型有一个参数'stopping_rounds‘。有没有
一种
使用SKLearn
随机
森林
分类
器
模型在python中做到这一点
的
方法?我已经看过文档了,所
浏览 16
提问于2019-10-09
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
FAIR 最新论文:一种不需要训练就能探索句子分类的随机编码器
Python大数据处理库PySpark实战——使用PySpark处理文本多分类问题
将sklearn训练速度提升100多倍,美国「返利网」开源sk-dist框架
值得探索的 8 个机器学习 JavaScript 框架
8大JavaScript机器学习框架之探索
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券