在pyspark中聚合One-Hot编码特性

我对python很有经验，但对pyspark完全陌生。我有一个包含大约5000万行的dataframe，其中有几个分类特征。对于每个功能，我都有一个-热编码。下面是一个简单但具有代表性的代码示例。从pyspark.ml.feature导入StringIndexer，从pyspark.ml导入管道的OneHotEncoder (1, 'grocery0.0|(2,[0],[1.0])| +---+--------+-------------+----------

浏览 20提问于2018-07-18得票数 4

回答已采纳

1回答

如何解释one-hot编码用于决策树后的特征重要性

、、

但是，对于scikit-learn或Spark中的应用程序，它只接受数字属性，所以我必须将字符串属性转换为数字属性，然后对其进行one-hot编码器。当特征被放入决策树模型时，它是0-1编码的，而不是原始格式，我的问题是，如何解释原始属性的特征重要性？在尝试解释特性重要性时，我应该避免使用one-hot编码器吗？谢谢。

浏览 2提问于2016-10-14得票数 11

1回答

为什么我们要在语言建模中进行一次性编码？

、、、

有人能解释一下为什么one-hot编码在语言建模中很好吗？(特别是在深度学习方面)提前谢谢你！

浏览 1提问于2018-05-04得票数 1

1回答

如何在sklearn中转换预测的数据点

、、

我在sklearn中构建了一个模型，并将其保存为pickle表单。然而，为了获得最好的结果，我不得不删除特性，创建另一个特性，使用one-hot编码，e.t.c。

浏览 4提问于2018-03-04得票数 0

回答已采纳

2回答

if (any(co)) {：缺少需要TRUE/FALSE的值时出错另外:警告消息: 1:在FUN(newX[，i]，...)：强制引入的NAs

、、、、

我正在尝试构建一个模型，并使用R中的kernlab包将其提供给支持向量机。我假设我在变量类型上做了一些错误的事情，特别是在因子上。我不确定如何使用它们，但我看不出有什么问题。任何关于如何解决误差以及如何与数值变量一起建模因子的帮助都将不胜感激。

浏览 1提问于2017-07-03得票数 0

1回答

具有数值和分类数据的MinMaxScaler + DecisionTree分类器

、、

有些特性是数字的，有些是绝对的(非序数的)，而我的问题是我不知道如何处理这些分类的特性。s

浏览 3提问于2019-10-31得票数 0

回答已采纳

1回答

StringLookup层与嵌入层在tensorflow层中的差异

、、

的文档表示，它将分类特性编码为数字特征，而根据我的理解，嵌入层也是如此。我认为唯一的区别是StringLookUp进行稀疏向量转换，其中OOV值被标记为0，而层则进行密集向量表示。据我所理解，One-hot编码会导致具有许多不同值的分类特性的高维性问题。然而，StringLookUp层带有output_mode =int，也会导致m单词的密集列表(只有一个单词mx1矩阵的一个索引)，从而解决了one_hot编码的缺点。但是，对于有监督的问题，在DNN模型中使用嵌入层而不

浏览 7提问于2022-09-03得票数 1

2回答

如何修复此错误: ValueError:无法将字符串转换为浮点型：'A‘

、、、

我不确定如何摆脱这个错误。下面是我的示例数据集。我是不是还漏掉了什么步骤？Code below: from sklearn.ensemble import RandomForestClassifier np.random.seed(42) y = re_arrange['

浏览 0提问于2020-05-26得票数 1

1回答

Dask one-hot-编码，不知道类别

、、

我有pandas代码，其中我对one-hot编码执行以下操作。然而，one-hot编码是棘手的，因为事先不知道类别。我正在考虑在整个数据集中逐行扫描该列，将列表中找到的每个类别放入字典中。然后使用这些字典为one-hot编码创建列名。有没有办法在dask中做得更好呢？

浏览 8提问于2019-09-20得票数 1

1回答

这个热吗？

、、

阅读：这是否也意味着它只编码了一个单词列表？一种热编码的维基百科定义( ) 在自然语言处理中，一个热向量是一个1×N矩阵(向量)，用于区分词汇表中的每个单词和词汇中的每一个单词。该向量由所有单元格中的0组成，唯一用于识别单词的单元格中的单个1除外。所以LabelEncoder不是一个热编码，LabelEncoder所使用的编码类型

浏览 0提问于2018-05-29得票数 1

回答已采纳

1回答

这里的数据表示对于One-Hot是准确的吗？

、、

我尝试在这里使用One-Hot对蘑菇数据集()进行编码。下面是我使用的编码代码(在Python中)：second_df = OneHotEncoder(handle_unknown='ignore').fit_transform(new_df)我的代码的结果如下图所示，这让我非常困惑：这个结果是我的One-Hot的正确表示吗？

浏览 0提问于2021-04-21得票数 2

1回答

在one-hot编码期间/之后，是否可以使用另一列的值来代替binary标志？

、、

我想知道是否有任何方法可以在one-hot编码后将我的分类列转换为来自另一列的值，而不是其中一个类别中的二进制"1“？我的数据帧如下所示：1 TEXAS 12342 1在标签和one-hot编码之后，我得到了这个： ID Location_TEXAS Location_CALIFORNIA Amount Q

浏览 20提问于2019-07-24得票数 0

回答已采纳

1回答

在PySpark 1.5.0中，如何根据‘x’列的值列出‘y’列的所有项？

、、

以下问题是针对PySpark版本1.5.0的，因为PySpark中不断添加新特性。pd = df.toPandas()但是，Ver1.5.0中的groupBy聚合功能似乎非常有限。

浏览 4提问于2016-03-20得票数 1

回答已采纳

3回答

XGBoost/CatBoost中包含大量类别的分类变量

、、、、

然而，将分类产品特征映射为一次性编码似乎非常低效，因为用户最多与几百个项目交互，有时甚至只有5个项目。或者我应该使用一次性编码，如果是这样的话，你认为XGBoost和CatBoost哪个更好？

浏览 0提问于2017-09-27得票数 3

1回答

随机森林回归器中LabelEncoder与vs. Hot码的比较

、、、、

我想比较一下labelEncoder和onehot编码，并想知道为什么首选前者。3.0 12.0 12.0 300.0 72.0 -2.0 1025.2 -19.5 0.0 N 2.0 Aotizhongxin>>>test_MAE = 10.108332295400825 然后<em

浏览 3提问于2021-01-16得票数 1

1回答

Xgboost OneHotEncoding:合并数值和编码数组

、、、、

我的理解是，不应该对数字特性进行编码，这就是为什么我有两个不同的数组。

浏览 5提问于2017-11-01得票数 1

1回答

如何将numpy数组转换为热编码？

、、、、

lower extremity" : 1, "upper extremity" : 3,} 我将接受输入，并需要将其转换为one-hot编码，以便为我的模型提供服务。我的计划是将输入数组(例如: male，follow_up，trunk，它是0，1，2)转换为一个热编码： [0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0] 数组中应该有11个元素，但是

浏览 22提问于2021-04-01得票数 0

回答已采纳

1回答

One-hot在keras中编码标签

、、

我在CSV文件中有一组来自label列的整数- [1,2,4,3,5,2,..]。类的数量是从1到6的范围。我想用下面的代码对它们进行一次热编码。

浏览 37提问于2021-05-15得票数 1

回答已采纳

2回答

一个热门编码器什么是行业标准，在训练/拆分之前或之后进行编码

、

我仍然对一个热门的编码器感到有点困惑。我只是在想，如果我们在拆分之前进行编码，就不应该有任何“信息泄漏”到测试集中。那么，为什么人们提倡在编码之后进行编码呢？不是只用于将分类变量转换为二进制的热门编码器吗？我只是想知道什么是行业标准。谢谢

浏览 0提问于2019-11-28得票数 1

1回答

在AWS Glue中聚合数据帧的好方法是什么

、、、

我正在尝试在AWS Glue中聚合数据帧。我使用了以下pySpark代码来执行聚合：是否有更好的方式在AWS Glue中执行聚合？

浏览 0提问于2017-11-09得票数 5

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何解释one-hot编码用于决策树后的特征重要性

为什么我们要在语言建模中进行一次性编码？

如何在sklearn中转换预测的数据点

if (any(co)) {：缺少需要TRUE/FALSE的值时出错另外:警告消息: 1:在FUN(newX[，i]，...)：强制引入的NAs

具有数值和分类数据的MinMaxScaler + DecisionTree分类器

StringLookup层与嵌入层在tensorflow层中的差异

如何修复此错误: ValueError:无法将字符串转换为浮点型：'A‘

Dask one-hot-编码，不知道类别

这个热吗？

这里的数据表示对于One-Hot是准确的吗？

在one-hot编码期间/之后，是否可以使用另一列的值来代替binary标志？

在PySpark 1.5.0中，如何根据‘x’列的值列出‘y’列的所有项？

XGBoost/CatBoost中包含大量类别的分类变量

随机森林回归器中LabelEncoder与vs. Hot码的比较

Xgboost OneHotEncoding:合并数值和编码数组

如何将numpy数组转换为热编码？

One-hot在keras中编码标签

一个热门编码器什么是行业标准，在训练/拆分之前或之后进行编码

在AWS Glue中聚合数据帧的好方法是什么

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐