腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
3
回答
如
何在
python
中
为
分类
变量
在
管道
中
组合
LabelBinarizer
和
OneHotEncoder
?
、
、
、
、
在过去的几天里,我一直
在
寻找关于stackoverflow的正确的教程
和
问答,但没有找到正确的指南,主要是因为展示
LabelBinarizer
或
OneHotEncoder
用例的示例没有说明它是如何合并到
管道
中
的我有一个包含4个
变量
的数据集:3 4 Cat 1num1<
浏览 45
提问于2018-02-28
得票数 1
4
回答
Scikit learn的
LabelBinarizer
与
OneHotEncoder
、
、
、
、
看起来两者都创建了新的列,它们的数量等于特征
中
唯一类别的数量。然后,根据数据点所在的类别,将0
和
1分配给数据点。
浏览 2
提问于2018-05-23
得票数 53
1
回答
科学学习的
OneHotEncoder
使所有的列都是绝对的吗?
、
、
、
、
我一直
在
使用Scikit-Learn的
OneHotEncoder
将
分类
数据转换为二进制列,但是,将
OneHotEncoder
与具有数值
和
分类
变量
的数据集相匹配似乎也会使其为数值数据创建二进制列。我已经尝试
在
文档
中
搜索一个明确的答案,但找不到答案。
OneHotEncoder
是否自动避免编码数字列?如果不是,我怎样才能不分裂
和
重新连接数据文件,用它来制作
管道
呢?
浏览 0
提问于2022-11-24
得票数 0
回答已采纳
1
回答
如
何在
Sklearn
管道
中进行Onehotencoding
、
、
、
我正在尝试oneHotEncode我的Pandas数据帧的
分类
变量
,其中包括
分类
变量
和
连续
变量
。我意识到使用pandas .get_dummies()函数可以很容易地做到这一点,但我需要使用
管道
,以便稍后可以生成PMML文件。) 这是创建
管道
的
浏览 15
提问于2017-02-13
得票数 13
回答已采纳
2
回答
如
何在
学习中使用
OneHotEncoder
的输出?
、
、
、
、
我有一个Pandas有两个
分类
变量
,ID
变量
和
一个目标
变量
(用于
分类
)。我成功地用
OneHotEncoder
转换了
分类
值。这导致了一个稀疏矩阵。ohe =
OneHotEncoder
() # First I remapped the string values in the categorical variables to integers as
OneHotEncoder
needs integers as inpu
浏览 12
提问于2016-07-21
得票数 8
回答已采纳
1
回答
评估SMOTE
和
RandomUnderSampling的不同策略
、
、
、
我正在用df的数据框架在熊猫
中
工作。我正在执行一个
分类
任务,并且有两个不平衡的类df['White']
和
df['Non-white']。由于这个原因,我已经建立了一个
管道
,其中包括SMOTE
和
RandomUnderSampling。
和
RandomUnderSampling。
在
调优参数时,我可以
在
GridSearch中直接这样做吗?现在,我已经编写了以下for loop。另外,我希望for loop (如果这确实是
浏览 14
提问于2021-12-18
得票数 2
回答已采纳
1
回答
如何将支持向量机核逼近与多类数据集上的特征选择相结合
、
(200000行
和
400列)
在
管道
中
。只有一个薄弱的笔记本可以用于这项任务。该数据集具有15个独立的类
和
混合的
分类
和数字特征。应该选择一种类似SVM的算法。from sklearn.preprocessing import
LabelBinarizer
,StandardScaler,
OneHotEncoder
from
浏览 0
提问于2019-07-13
得票数 1
回答已采纳
1
回答
为什么我的RandomForestClassifier
在
管道
中
的训练要慢得多?
、
、
我
在
RandomForestClassifier上取得了很好的效果,现在我想用scikit-learn的permutation_importance方法对
分类
器进行排列特征分析。为此,我将预处理放入ColumnTransformer,并将其与
分类
器一起放入
管道
中
。 我一直在做我的预处理
和
训练我的
分类
器作为单独的步骤,它需要大约6秒来训练一棵树。然而,当在流水线
中
设置时,同样的
分类
器大约需要5分钟来训练一棵树。我正在使用大量的树(请注意
浏览 0
提问于2021-11-18
得票数 0
2
回答
使用scikit-learn对大数据集进行一次性编码
、
它有很多
分类
变量
,每个
变量
都有数千个特征,我计划对这些特征使用一个热编码。我将需要以小批的方式处理数据。我的问题是,如何确保
在
第一次运行期间,一个热编码可以看到每个
分类
变量
的所有功能?
浏览 0
提问于2014-07-26
得票数 2
2
回答
为什么
OneHotEncoder
只适用于多达5个不同的
分类
变量
值?
、
、
、
、
我注意到,当一个
分类
变量
列有6个或更多类别时,
OneHotEncoder
会失败。例如,我有一个TestData.csv文件,它有两列:地理
和
欧洲大陆。地理的独特价值是法国、西班牙、肯尼亚、博茨瓦纳
和
尼日利亚,而欧洲大陆的独特价值观是欧洲
和
非洲。我的目标是使用
OneHotEncoder
对地理列进行编码。现在,运行完全相同的代码将产生以下结果: 它在线路上失败了
如
您所见,X没有更改
浏览 1
提问于2021-08-29
得票数 1
回答已采纳
1
回答
预测单个数据实例时与
OneHotEncoder
不匹配的特征
、
、
当对这16个
变量
进行
分类
时,我将对这16个
变量
中
的每个
变量
使用
OneHotEncoder
对它们进行编码。这将导致培训矩阵
中
的1261列。我也做了这些功能缩放。我还对我的训练数据进行了80:20 train:test分割,并应用了预测器来获得混淆矩阵,
分类
报告。我还将
分类
器、标准标量
变量
、
onehotencoder
变量
以泡菜格式保存在本地磁盘上。现在,我希望
在
一个新
浏览 1
提问于2018-03-15
得票数 0
回答已采纳
1
回答
一个既适合文本特性又符合
分类
特性的
管道
、
、
、
我试图找到一种方法,使用一个
管道
来转换一个文本特征
和
一个
分类
特征,然后将它们应用到
分类
器
中
。 从((“tfidf”,TfidfVectorizer()
浏览 4
提问于2019-09-10
得票数 0
回答已采纳
1
回答
为什么ColumnTransformer不在它的转换器上调用fit?
、
我已经定义了数据,用一个
分类
特征“性别”进行拟合: data = pd.DataFrame({ 'sex': ['female', 'male'female'],})y = data['won_lottery']
浏览 13
提问于2019-06-12
得票数 6
回答已采纳
2
回答
因
变量
1热编码器
、
我是machine learning的新手,我的问题是: 如果因
变量
y包含三个类段(1、2、3),我们是否需要对它进行编码?我想知道是否需要对该因
变量
进行编码,当它不包含时
浏览 0
提问于2019-02-10
得票数 2
1
回答
在
使用流水线对线性svc进行预处理、训练
和
测试时,如何获得最重要的特征系数?
、
、
、
、
我使用的是一个LinearSVC,我使用列转换器对数字
和
分类
数据进行预处理,然后使用
管道
。我使用GridSearchCV来获得模型的最佳参数,然后将其放入
管道
中
,
如
您所见。到目前为止,我已经尝试过“clf.coef_”,因为
分类
器步骤
在
管道
中被命名为clf,但是我收到一条消息,表示clf未定义。preprocessing=ColumnTransformer([('hot',
OneHotEncoder</em
浏览 2
提问于2020-07-31
得票数 0
回答已采纳
1
回答
SKLEARN //将GridsearchCV与列变换
和
流水线相结合
、
、
我正在为一个机器学习项目而奋斗,在这个项目中,我试图将以下内容结合起来:首先我将我的特性分为数值
和
分类
from
浏览 6
提问于2020-06-11
得票数 4
回答已采纳
2
回答
如何处理决策树,随机森林的
分类
特征?
、
、
我试图
在
UCI银行营销数据-> 上建立决策树
和
随机森林
分类
器。数据集中有许多
分类
特性(具有字符串值)。
在
spark文档
中
,可以通过使用StringIndexer或VectorIndexer索引将
分类
变量
转换为数字
变量
。我选择使用StringIndexer (向量索引需要向量特征
和
向量汇编程序,它将特征转换为向量特征,只接受数字类型)。使用这种方法,将根据
分类
特征的频率(类别特征的最频繁标记为0
浏览 6
提问于2017-07-06
得票数 5
回答已采纳
4
回答
sklearn变换流水线与特征结合
、
、
我
在
尝试运行以下代码时遇到了问题。这是房价的机器学习问题。cat_pipeline=Pipeline([ ('label_binarizer',
LabelBinarizer
在
得到这个bug后,我试图找出原因,所以我一个接一个地运行上面的变压器:a1=DFS.fit_transform(housing) a4=SS.
浏览 9
提问于2017-09-07
得票数 1
1
回答
ColumnTransformer产生不同的结果
、
、
、
我正在尝试创建预处理
管道
,对于数值,ColumnTransformer生成正确的输出。但是,
在
处理
分类
值时,我得到了一个奇怪的输出。下面是代码: cat_pipeline('cat_fill_missing', SimpleImputer(strategy=
浏览 0
提问于2022-02-23
得票数 0
回答已采纳
1
回答
sklearn.compose.make_column_transformer():
在
一个dataframe列上一步使用SimpleImputer()
和
OneHotEncoder
()
、
、
、
、
我有一个包含有
分类
变量
的列的dataframe,其中也包含了NaNs。我试图计算nan值并使用以下代码对列进行OneHotEncode:from sklearn.impute= transformer.transform(X_train) A B2 1 04 0 1 变压器是
在
原始数据上并行计算SimpleImputer
和
<e
浏览 11
提问于2020-09-23
得票数 1
回答已采纳
点击加载更多
相关
资讯
机器学习中的独热编码
5个冷门机器学习项目,助你打怪升级!
数据预处理代码分享——机器学习与数据挖掘
机器学习100天:第1天
10分钟了解GBDT+LR模型的来龙去脉
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券