腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
sklearn
编码
/
转换
时
处理
看不见
的
值
、
如果存在超出标准标准化范围
的
新
值
,
编码
器/
转换
器会做什么?例如最小-最大-定标器
浏览 12
提问于2020-05-20
得票数 0
1
回答
python中不可见数据
的
分类数据
编码
器
、
有一个包含许多分类数据
的
大型数据集,想要
使用
sklearn
来做一个热点
编码
。有一个问题是
sklearn
只
处理
当前数据中
的
类别。如果我将来
的
新数据有一些现在看不到
的
价值,该如何
处理
呢?似乎下面的feature_engine包可以选择最常出现
的
值
,并折叠其他
值
。对于这一个,如果有未来
看不见
的
值
,它们将被折叠。top
浏览 21
提问于2020-12-05
得票数 0
1
回答
目标
编码
与KFold交叉验证-如何
转换
测试集?
、
、
、
、
假设我有一个分类特性(cat):import pandas as pdcat = random.choices(["A", "B", "C"], k=100)我想
使用
目标
编码
和正则化
使用</
浏览 0
提问于2020-09-05
得票数 5
1
回答
机器学习模型Python
的
train-est split中
的
列不相同
、
、
、
其中一列是建筑物所在
的
城市。当我
使用
以下命令分割数据集
时
: X_train, X_test, y_train, y_test = train_test_split( test_size=0.33Found unknown categories ['El Portal', 'Florida city, 'Medley'] in column 1 during transform 据我所知,这是一个热
编码
器
的
问题,因为它
浏览 30
提问于2020-04-11
得票数 1
回答已采纳
1
回答
基于树
的
方法如何
处理
缺少
的
特征列?
、
、
、
全, 我已经培训了一个
使用
xgboost
的
模型。其中一些特征是一种热
编码
的
货币,例如,它要么是英镑,要么是美元。似乎当我输出特征重要性
时
,英镑和美元分别排在第7位。现在我想用这个模型来预测澳大利亚国家是否有违约者,但是这些国家
的
货币是澳元。因此,当我应用我
的
特性工程
时
,它将创建一个列和一次热
编码
。由于我
的
模型没有AUD作为一个功能,它如何
处理
的
功能,已经
看不见
?我
浏览 0
提问于2020-11-02
得票数 0
15
回答
标签
编码
器
编码
缺失
值
、
、
我
使用
标签
编码
器将分类数据
转换
为数值。import pandas as pda = pd.DataFrame'C',np.nan,'D','A'])le.fit_transform(a) 输出:
浏览 8
提问于2016-04-23
得票数 36
回答已采纳
1
回答
sklearn
.linear_model.Lasso能否识别pandas数据帧中
的
分类数据类型?
、
、
我想在
sklearn
中
使用
套索回归来运行我
的
数据。我
的
dataframe中
的
所有属性都是数字类型(数字,我
的
意思是它们都是整数)。但它们中
的
一些显然应该是分类
的
(例如,我
的
dataframe中
的
“race”属性是一个具有三个
值
1,2,3
的
属性,其中每个
值
代表一个种族)。我所做
的
是首先
使用
astype('str'
浏览 12
提问于2020-05-20
得票数 1
回答已采纳
1
回答
学习一个热
编码
。ValueError:对于稀疏输出,所有列都应该是数字或可
转换
为数字
、
、
、
我刚开始
使用
sklearn
编码
,我需要
编码
我
的
dtaset
的
3列,我只尝试
编码
一个列,但它给了我一个错误。_hstack(self,( Xs) 614 force_all_finite=False) -Xs中X> 615 ] 616,除了ValueError: 5帧ValueError:无法在
处理
上述异常
时
将字符串
转换
为浮动ValueError:对于稀疏输出,所有列都应该是数字或可
转换
为数字。
浏览 2
提问于2020-12-11
得票数 4
1
回答
大熊猫分类达到新水平
、
、
、
、
熊猫分类如何
处理
新
的
和
看不见
的
级别?我在考虑一个scikit像设置一样学习。显然,像xgboost或lightbm这样
的
决策树可以直接
处理
分类数据,也就是说,人们不需要手动
处理
这种缓慢
的
转换
。但在查看他们
的
代码学习
时
,他们似乎
使用
的
是LGBMLabelEncoder,这是一个标准
的
scikit LabelEncoder。 我想知道这如何
浏览 8
提问于2017-08-17
得票数 1
3
回答
在一个对象中
处理
标签
编码
、
转换
和估计
、
、
相似: y是形状(n_sample,)和字符串类型
的
numpy.ndarray。经过一些思考,面对上面的错误,我觉得认为Pipeline能够<e
浏览 0
提问于2018-09-13
得票数 2
回答已采纳
3
回答
Python
的
"StandardScaler“和"LabelEncoder”、"fit“和"fit_transform”不适用于既包含浮点数又包含字符串
的
CSV。
、
、
、
、
我当时正在谷歌学院学习MPL回归器,并运行了源代码:import numpy as npfrom
sklearn
.preprocessing import StandardScaler data我从fit(data)改为fit_transform(data),但同样
的
错误仍然坚持。但是出现了不同
的
错误:ValueErro
浏览 2
提问于2021-02-13
得票数 2
回答已采纳
1
回答
如何在Python中找到与fit_transform()后面的
编码
值
对应
的
分类名称?
、
、
、
我在用LabelEncoder()做标签
编码
。我想知道与
编码
值
对应
的
分类名称是什么。例如:from
sklearn
.preprocessing import LabelEncoderdf = pd.DataFrame(data, columns = ['Name', 'Age']) df['Name']= le.
浏览 1
提问于2020-09-03
得票数 1
回答已采纳
1
回答
熊猫get_dummies无法
处理
测试数据中
看不见
的
标签
、
、
我有一个Pandas DataFrame,train,我是一个热
编码
。但是,我无法访问我
的
测试集,因此我需要
处理
在测试中出现car
值
的
可能性,而这在train中是看不到
的
。我希望一个热
编码
test
的
输出是:0 0 0 1所以它只是忽略了测试中以前
看不见
的
值</
浏览 1
提问于2018-05-02
得票数 3
回答已采纳
1
回答
创建一个全新
的
Scikit-从带有字符串变量
的
CSV中学习数据集
、
、
、
在查找了这个之后,我找到了一个解决我
的
问题
的
可能方法:ValueError: could not convertstring to float: 'Adzuki beans, uncooked'def load_my_dataset(): with open('data/Composition3
浏览 2
提问于2021-12-24
得票数 0
1
回答
标签
编码
器作为Tensorflow预
处理
层
的
实现
、
、
、
根据我从
SKLearn
的
中得到
的
理解,LabelEncoder在
SKLearn
中
编码
0与减去1
的
类数之间
的
值
(即n_classes - 1)。我想
使用
类似于Tensorflow预
处理
操作
的
一部分来避免对包
使用
SKLearn
。例如,我理解预
处理
层很容易为OneHot
编码
和分类
编码
提供API,如下所示: tf.ke
浏览 8
提问于2022-05-15
得票数 1
回答已采纳
1
回答
对大量分类特征进行
编码
的
最佳方式是什么?
、
、
、
、
我正在尝试制作一个小型
的
数据科学工具(有点像WEKA
的
迷你版)。现在,我有了这些具有大量特征(70-100+)
的
数据集,它们大多是分类
的
。我正在
使用
Python
sklearn
进行机器学习逻辑,我需要根据我得到
的
sklearn
错误将这些类别
转换
为数字
值
。 考虑到这一点,一次热
编码
不是一个选择,因为它会放大太多
的
维度。我已经研究了其他可能
的
方法,比如频率
编码
浏览 24
提问于2021-04-21
得票数 0
2
回答
如何将分类数据类型用于随机森林分类?
、
、
、
我需要
使用
随机森林算法来寻找训练数据集
的
准确性。但是我
的
数据集
的
类型是分类
的
和数字
的
。当我试图拟合这些数据
时
,我得到了一个错误。“'Input包含NaN、无穷大或dtype(‘float32’)太大
的
值
。这是我
的
密码。📷 📷
浏览 0
提问于2018-01-04
得票数 14
回答已采纳
6
回答
获取ValueError:在
使用
scikit学习
的
LabelEncoder
时
Y包含新标签
、
、
、
、
我正在
使用
scikit
的
LabelEncoder将其
转换
为要输入到RandomForestClassifier中
的
数值。在训练过程中,我做了以下工作:df['ID'] = le_id.fit_transform(df.ID) 但是,现在为了测试/预测,当我传入新数据
时
,我想根据le_id从该数据
转换
'ID‘,即,如果存在相同
的
值
,则根据上面的标签
编码</e
浏览 1
提问于2017-09-19
得票数 9
1
回答
LabelEncoder()不会存储参数吗?
、
当我用它来拟合和
转换
数据,然后请求参数
时
,我得到
的
只是{}。这样就不可能在新数据上重复
使用
编码
器。示例:encode.fit_transform(['one', 'two', 'three'])不确定预期
的
格式,
浏览 4
提问于2017-08-31
得票数 5
回答已采纳
1
回答
如何有效地为测试数据
编码
多个分类列?
、
、
、
我
使用
自定义
的
频率
编码
,并
使用
它
的
训练数据。最后,我把它保存为嵌套字典。对于测试数据,我
使用
map函数对其进行
编码
,并将未见
的
标签替换为0。但我需要更有效
的
方法?我已经试过用熊猫代替
的
方法了,但它不关心
看不见
的
标签,而是把它留在原来
的
地方。此外,我非常关注时间问题,我希望在60 ms内
编码
80列和1行。我只需要最有效
的
方法。我从
浏览 0
提问于2019-07-15
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
光电式绝对值编码器的使用与故障的处理方法
使用MICE进行缺失值的填充处理
正确处理下载文件时HTTP头的编码问题
文本编码转换方法:如何从UTF8到ANSI批量处理的实例解析
机器学习-数据预处理
热门
标签
更多标签
云服务器
ICP备案
对象存储
云直播
腾讯会议
活动推荐
运营活动
广告
关闭
领券