腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
如何
处理
在
dataset
中
对
多
列
应用
一个
热
编码
后
产生
的
大量
恐惧
?
、
、
、
、
我正在使用来自kaggle
的
TMDB 5000电影数据集: https://www.kaggle.com/tmdb/tmdb-movie-metadata
在
预
处理
阶段,我使用MultiLabelBinarizer()对数据集中
的
列
进行
编码
,如下所示: - Genres, production_countries, production_companies, Cast 现在,我有了
大量
的
特性。
如何</e
浏览 18
提问于2019-12-09
得票数 0
2
回答
我和OnehotEncoder有个问题
、
下面是代码:import pandas as pd 下面是csv文件
的
链接
浏览 3
提问于2019-04-01
得票数 1
1
回答
正确使用
一个
热
编码
,出现意外
的
值错误
、
、
我正在尝试通过
对
sklearn库
中
的
一些分类数据进行
热
编码
来预
处理
一些数据。为了说明一下数据集:我有十
列
,我只想
对
国家
的
分类值进行
热
编码
(有三
列
:法国、德国和西班牙),其余
的
列
则保存数值。我想知道
的
一件事是,对于参数类别,是应该传递希望
编码
的
整个
列
,还是只给出
一个</
浏览 9
提问于2020-03-19
得票数 0
1
回答
使用一次
热
编码
后
在
列
中
显示特征名称
、
、
、
、
我
在
csv中有
一个
列
,它是我想要转换成数组
的
水果
的
名称。Names:BananaWatermelom....
列
中有大约400个水果名称。import
浏览 0
提问于2020-07-04
得票数 1
回答已采纳
2
回答
“一
热
”
编码
因变量
在
随机森林中
的
应用
、
、
、
、
我使用sklearn-learn
在
python
中
构建了
一个
随机森林,并
对
所有分类变量
应用
了“一
热
”
编码
。问:如果我将"one hot“
应用
到我
的
DV,我是将它
的
所有虚拟
列
都作为DV
应用
,还是应该以不同
的
方式
处理
DV?
浏览 4
提问于2018-12-03
得票数 3
1
回答
在
范畴数据上使用Azure AutoML和XBoostClassifier时奇怪
的
算法选择
、
我有
一个
仅由范畴特征和范畴标签组成
的
数据模型。因此,当我
在
XGBoost
中
手动构建该模型时,我基本上会将这些特性转换为二进制
列
(使用LabelEncoder和OneHotEncoder),并将标签转换为使用LabelEncoder
的
类。然后我将运行
一个
多
标签分类 (multi:softmax)。我用我
的
数据集尝试过,最终得到了大约0.4
的
准确性(不幸
的
是,由于机密性,无法共享数据集) 现在,如果我<
浏览 4
提问于2020-07-02
得票数 3
回答已采纳
3
回答
字符串分类特征
的
一种
热
编码
、
、
、
我正在尝试
对
一个
普通数据集执行
一个
热
编码
。data = [['a', 'dog', 'red']使用Scikit-Learn
对
这些数据进行预
处理
的
最佳方法是什么?
在
第一反应
中
,你会看到科学学习
的
。但是
一个</e
浏览 8
提问于2016-01-30
得票数 37
1
回答
分类特征
编码
、
、
、
、
我在做
一个
分类模型。我有明确和连续
的
数据。分类
列
包括两个类
的
列
,如性别(男性、女性)和
多
类
列
(如位置)。 我需要将这些
编码
成数值。我会做
一个
热
编码
和删除第一
列
,但这是不现实
的
,
一个
看不见
的
测试数据,可能有看不见
的
值。因此,我计划用句柄_ignore=‘ignore’进行一次
热
编码</e
浏览 0
提问于2022-01-20
得票数 1
1
回答
带范畴变量
的
线性回归
、
、
、
、
我目前正在学习和探索机器学习,并了解基于两个数值变量
的
线性回归
的
基础知识,但现在我希望更进一步,并需要一些指导,了解
如何
去做。具体来说,我现在正在学习关于线性回归
的
范畴变量,我理解它
的
要点:我们只是将范畴变量
编码
成某种数值表示形式(比如一种
热
编码
),并将其放入模型
中
。太棒了。虽然网上有很多关于
如何
做各种
编码
方法
的
指南,但我还没有找到
一个
资源来解释这种方法
的
浏览 0
提问于2021-04-10
得票数 1
1
回答
新闻博客
的
特征提取
、
、
、
、
我是数据科学/机器学习
的
新手。我必须编写
一个
网络爬虫,并从每个博客中提取特征。这些功能以标签
的
形式讲述了行业、特定
的
产品、工具和类似的东西。我已经做了一部分抓取,但现在我被实体识别卡住了。我做了数据
处理
(标记化、数据清理、删除停用词/标点符号、词干/词汇化)。现在,我需要做些什么来进行特征提取?
浏览 26
提问于2020-03-12
得票数 0
回答已采纳
1
回答
如果表包含postgresql
中
的
“
热
”和“冷”数据,UUID主键会使读取查询恶化吗?
我正在设计
一个
存储事件
的
表格。每个事件大约有100到500个字节,计划每年大约有5亿个事件。
应用
程序
的
生命周期应该是3+年。最新
的
事件是“热点”,因为
在
事件发生
后
的
一个
月内,可以通过不同
的
处理
查询来广泛地获取事件,也可以获取其他事件,但是很少,因此它们是“冷
的
”。首先,我决定
对
这样
的
表使用UUID主键,但现在我担心使用UUID会破坏“
热<
浏览 1
提问于2016-12-04
得票数 0
回答已采纳
1
回答
处理
要预测
的
元组
中
的
范畴值
、
、
、
、
我正在用
一个
经过训练
的
滑雪板模型构建
一个
API。我已经以.joblib格式保存了模型,并在进行预测之前将其加载到API后端。但问题是,我
的
数据包含分类
列
,
在
使用get_dummies()库
中
的
pandas方法
对
这些分类
列
进行一次
热
编码
之后,我
对
模型进行了训练。我
的
API接收带有分类
列
值
的
JSON数据,而不进行任
浏览 5
提问于2020-02-13
得票数 0
2
回答
将对象
列
转换为整数或浮点数
、
、
、
我有
一个
数据集,看起来是这样
的
.(这里
的
问题
的
缩写)。DataFrame Name = ObjectIntTest 要运行逻辑回归,我需要将这些不同
的
ISIN谢谢你
的
帮助。
浏览 3
提问于2021-04-26
得票数 1
回答已采纳
1
回答
为什么我要在cv循环中进行目标
编码
?
、
、
、
我希望使用目标
编码
,使用类别
编码
器学习库。我真的不明白为什么有必要在交叉验证循环中将其作为sklearn管道
中
的
一个
步骤吗?然而,看看我下面的结果,这不说明是否过份合适吗? 📷
浏览 0
提问于2020-12-07
得票数 0
1
回答
如何
从csv文件输入进行一次
热
编码
、
、
、
我有
一个
csv文件,我用它读取df = pd.read_csv("inputfile") 我希望能够
对
一个
名为'col'
的
字符串列进行
一个
热
编码
,并生成
一个<
浏览 6
提问于2016-09-02
得票数 3
4
回答
K模式聚类:估计哪些特征
对
聚类最有影响?
、
我有完全分类
的
数据(来自用户
的
调查结果),所以我使用k模式聚类来更好地理解我
的
用户。 我根本不是聚类方法方面的专家。
在
决定用户属于哪个集群时,是否有一种已知
的
方法来估计特性(或功能组合)
的
重要性?
浏览 0
提问于2019-05-27
得票数 2
3
回答
一次
热
编码
与缺失类别
、
、
我有
一个
包含类别
列
的
数据集。为了使用线性回归,I-1
对
此列进行了
编码
.
在
训练它之后,我想在训练集
的
子集上测试它,
浏览 2
提问于2018-02-20
得票数 5
回答已采纳
2
回答
单-标签
热
编码
不需要?
、
、
、
、
我试图从指导教程中了解经典虹膜分类问题
的
代码块。最后
一个
模型
的
代码块如下所示chosen_model.fit(X_train,Y_train)
在
中
,您可以看到X_train和Y_train
中
的
数据类型。Y_train以字符串
的
形式包含虹膜物种。 我
的
问题很简单
浏览 1
提问于2020-07-15
得票数 4
回答已采纳
2
回答
一个
热
编码
与单词嵌入-什么时候选择
一个
或另
一个
?
、
、
、
我
的
一个
同事有
一个
有趣
的
情况,他有相当
多
的
可能性来定义
一个
分类特性(+/- 300不同
的
值)。 通常
的
数据科学方法是执行
一个
单一
的
热
编码
。然而,用
一个
相当大
的
字典(+/- 300值)执行一些单一
的
热
编码
难道不是有点极端吗?
在
何时选择嵌入向
浏览 0
提问于2018-04-03
得票数 16
回答已采纳
1
回答
检查包含未
编码
的
新要素
的
数据
的
标注
、
在
训练和测试了
一个
数据集之后,我想让它预测某个只有特征
的
数据集
的
标签。
在
我使用
的
普通示例
中
但由于我正在
处理
的
数据需要
编码
,所以
在
一次
热
编码
后
,它导致
列
大小为2891。那么,现在
如何
检查尚未
编码
的
新功能
的
标签?
浏览 0
提问于2018-07-15
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python大数据处理库PySpark实战——使用PySpark处理文本多分类问题
Spark之SparkSQL
机器学习入门案例分析-泰坦尼克号生存预测
机器学习中的独热编码
机器学习100天:第1天
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券