在大量分类变量上使用get_dummies()和OneHotEncoding

文章/答案/技术大牛

发布

1回答

、

在大多数学术示例中，我们使用get_dummies()或OneHotEncoding()来转换分类特征。假设我想使用国家作为一个特征，在数据集中我们有100个不同的国家。当我们在国家/地区应用get_dummies()或OneHotEncoding()时，我们将获得100列，模型将使用100个国家/地区列+其他功能进行训练。当我们使用get_dummies()或

浏览 31提问于2019-03-13得票数 1

1回答

获取由get_dummies创建的伪变量的名称

、、

我有一个数据帧，其中包含大量不同类型的列。我想使用get_dummies()对数据帧中的分类变量进行编码。问题是:有没有一种方法可以获得get_dummies()创建的编码分类列的列标题最困难的方法是提取数据帧中所有分类变量的列表，然后将与每个分类变量相关联的不同文本标签附加到相应的列标题。

浏览 16提问于2020-09-10得票数 0

1回答

如何编码具有大量值的CATEGORICAL_COLUMNS？

、、、

我正在使用Tensorflow、python、Pandas创建一个类似于此的logistic回归模型。我使用的不是MNist数据集，而是我自己的数据集。我使用Pandas创建数据格式，将nulls替换为填充it函数，然后使用from_tensor_slices将其转换为张量数据集。我有很多CATEGORICAL_COLUMNS，我正在使用get_dummies来做OneHotEncoding (和LabelEncoding一起)。但问题是，我的<em

浏览 2提问于2020-03-30得票数 0

回答已采纳

5回答

与oneHotEncoding的问题

、、

因此，我在一个列中有一个带有分类变量的PandasDataFrame，我想对它进行一个热编码，我使用了来自ML课程的以下代码但是，我得到以下错误使用以下方法将一些信息变量资源管理器中的Y类型是object，如果执行 t

浏览 0提问于2017-10-18得票数 8

1回答

在Pandas中执行get_dummies时保留其他变量

、、

我有一个ID变量和另一个分类变量的DataFrame。我想用get_dummies从分类变量中创建虚拟变量。但是，这会使ID变量消失。稍后我需要这个ID变量来合并到其他数据集。有没有办法让其他变量。在get_dummies的文档中，我什么也找不到。谢谢!

浏览 1提问于2016-07-23得票数 5

回答已采纳

1回答

输入形状差(5634，2)

、、

我尝试了所有的方法，但我不知道如何解决以下错误：这是我的第一个机器学习的例子，所以请容忍我。这是python代码：import pandas as pdimport seaborn as snswarnings.filterwarnings("ignore")from IPython import get_ipython ipy

浏览 0提问于2019-11-28得票数 0

1回答

sklearn.linear_model.Lasso能否识别pandas数据帧中的分类数据类型？

、、

我想在sklearn中使用套索回归来运行我的数据。我的dataframe中的所有属性都是数字类型(数字，我的意思是它们都是整数)。但它们中的一些显然应该是分类的(例如，我的dataframe中的“race”属性是一个具有三个值1,2,3的属性，其中每个值代表一个种族)。我所做的是首先使用astype('str')将这些列设置为字符串类型，然后使用代码astype('categorical')将这些列的数据类型转换为分类类型。最后，我对这些转换后的特性使用</

浏览 12提问于2020-05-20得票数 1

回答已采纳

1回答

如何使用.cat.codes和get_dummies

、

我知道get_dummies会根据变量的数量返回多个列，而.cat.code则返回一个列，每个值都有唯一的整数(如果我错了，请纠正我)。我知道fro .cat.codes用于分类数据，get_dummies用于对象。我可以在对象上使用astype("Category")，在对象上使用.cat.codes吗？当涉及到这些功能时，还有什么可以使分析(和可视化)更容易呢？

浏览 0提问于2020-08-01得票数 0

4回答

可能的方法来做一个热编码在科学工具-学习？

、、

我有一个熊猫数据框架和一些分类栏。其中一些包含非整数值。目前，我想对这些数据应用几种机器学习模型。为了取得更好的效果，对某些模型进行规范化是必要的。例如，将分类变量转换为虚拟/指示变量。事实上，熊猫有一个名为get_dummies的功能。但是，此函数将根据数据返回结果。因此，如果我在训练数据上调用get_dummies，然后在测试数据上再次调用它，那么在两种情况下实现的

浏览 9提问于2015-12-09得票数 6

回答已采纳

1回答

标签编码器和OneHotEncoder在相同的for循环中

、、、

我有大量的分类值，最初，for循环为标签编码器工作，但我尝试在单独的行上使用get_dummies，而是包含一个onehotencoder。encoded and {} columns were 1-hot encoded'.format(le_count, enc_count)) 但是当我运行它时，我不会看到错误，但是编码是非常奇怪的，大量的元组被插入到我的新数据集中当我运行代码时，不要使用use子句中的所有内容，它就可以很好地运行，我只需

浏览 1提问于2022-04-28得票数 0

回答已采纳

1回答

需要帮助创建使用另一列中的值而不是'1‘的伪伪变量

、、、

我有一个数据帧，看起来像这样：本质上，cols和C需要成为伪变量，头文件为B_x、B_y、C_a、C_b。该函数与get_dummies()在pandas中的工作方式几乎完全相同，只有一个主要区别:对于创建的所有伪变量，我需要A列中的值，其中值应为1。<code>A1</code> 我正在处理具有大量类别的相当大的数据。我尝试过在数据集上使用<

浏览 11提问于2019-03-27得票数 0

回答已采纳

1回答

为什么SciKit-学习的OneHotEncoder在大型数据集上花费这么长时间？

、、

我正在使用一个较早版本的SciKit，1.0.2版本，尝试并OneHotEncode一些数据。我的数据集相当大，184个列将在OneHotEncoding之后转到311列，有大约50万行。目前，SciKit-学习的OneHotEncoder是10分钟和计数。为什么这段代码这么慢？我能做些什么来加速这一切吗？

浏览 0提问于2022-11-29得票数 1

回答已采纳

10回答

当并非所有类别都存在时，虚拟变量

、、、

我有一组数据格式，其中一个列包含一个分类变量。我想把它转换成几个虚拟变量，在这种情况下，我通常使用get_dummies。所发生的事情是，get_dummies查看每个数据中可用的数据，以找出有多少类别，从而创建适当数量的虚拟变量。然而，在我现在正在研究的问题中，我实际上提前知道了可能的类别是什么。我的问题是:是否有一种方法将类别的名称传递给get_dummies (或等效的函数)，这样，对于没有出现在给定数据nam

浏览 30提问于2016-05-25得票数 60

回答已采纳

2回答

降维在OneHotEncoded阵列中的应用

、、

我有一个包含混合变量的非常大的数据集。我已经使用OneHotEncoding将分类变量转换为数值变量，它产生了超过几千个不同的特性，即组合。是否有可能在OneHotEncoded数据上应用降维算法，这看起来像[[1. 0. 1. 0.]...[0. 0. 0. 0.]]，还是应该通过与原始数据集合并来实现？

浏览 0提问于2018-02-19得票数 8

回答已采纳

1回答

TypeError：'OneHotEncoder‘对象不可迭代

、

我试图在以下数据集的分类变量上使用OneHotEncoding。首先，我正在尝试转换“地理”专栏。

浏览 2提问于2021-11-17得票数 1

回答已采纳

1回答

想知道pd.factorize，pd.get_dummies，sklearn.preprocessing.LableEncoder和OneHotEncoder之间的区别

、、、、

在某些情况下，有些可能会产生同样的结果，而有些则不会。任何帮助都会感谢你的！get_dummies和OneHotEncoder将产生相同的结果，但OneHotEncoder只能处理数字，但get_dummies将接受各种输入。get_dummies将为每个列输入自动生成新列名，但OneH

浏览 4提问于2016-10-31得票数 24

回答已采纳

1回答

mlContext.Transforms.Categorical.OneHotEncoding方法和mlContext.Transforms.Text.FeaturizeText方法有什么不同？

、

我遇到了一个分类问题，其中使用FeaturizeText方法将一些文本值转换为数值vector.For，在回归问题中使用OneHotEncoding方法也是如此。那么有什么不同呢？提前谢谢。我在微软的文档中找不到任何有用的东西。

浏览 23提问于2019-04-25得票数 2

2回答

熊猫get_dummies* in for循环*

、

我希望在循环中使用for将分类变量转换为虚拟变量。但是，下面的代码并不转换数据格式。pd.get_dummies(df, columns = categorical_fields) 我知道for循环中的迭代器只是一个临时变量是否必须为每个数据文件手动运行get_dummies？Pandas get_dummies不提供inplace选项。

浏览 3提问于2018-05-15得票数 0

回答已采纳

1回答

测试集上存在不可见数据的OneHotEncoding问题

、、、

我有包含数值变量和分类变量的数据。我把数据分成了训练和测试。我想在填充之后做一次热编码。测试集上有不可见的数据。我知道handle_unknown='ignore'解决了这个问题。OnehotEncoding不能同时采用这两种方法。有没有办法既能处理看不见的数据，又能避免多重共线性？注意:我使用的是ColumnTransformer。

浏览 27提问于2021-05-04得票数 0

2回答

混合数据集中的特征选择

、

我是否应该使用LabelEncoder并将数据从字符串转换为数字，然后继续进行关联？我走的路是对的吗？有没有更好的方法来解决这场危机？

浏览 21提问于2021-05-20得票数 0

回答已采纳

点击加载更多