与数值相关的Pyspark分类数据向量化

、、

我是Pyspark编程的新手。我需要些帮助。我有一个带有分类特征的数据集和一些与之相关的数值。我想对分类值进行矢量化，包括与之相关的数值。我有大约300万个分类数据列的可能值。 ?

浏览 22提问于2021-01-22得票数 0

1回答

如何在Apache Mahout中对数值数据进行分类？

、、、、

我有一个格式为class, unigram count, bigram count, sentiment的数值数据集。我浏览了一些Apache Mahout文档，它们都是关于文本数据的。我知道我需要执行3个步骤来分类:转换为序列文件，矢量化序列文件，通过它来训练朴素贝叶斯分类器。但我很难理解在Mahout中对文本数据集进行分类与对数值数据集进行分类</em

浏览 4提问于2014-09-15得票数 0

2回答

分类数据的矢量量化

、

矢量量化软件通常只在数值数据上工作。Python的scipy.cluster.vq.vq ()就是一个这样的例子，它执行矢量量化。对于大多数集群软件来说，数字数据的需求也很明显。许多人指出，您总是可以将分类变量转换为一组二进制数值变量。但在处理大数据时，这会变得很尴尬，因为在大数据中，单个分类变量可能有数百或数千个类别。另一种明显的选择是改变距

浏览 2提问于2014-12-30得票数 1

1回答

多元线性回归问题的数据预处理

、、、

对于多元线性回归问题，数据中既有分类变量，也有数值变量。我正在检查EDA的数值变量的相关性，并通过日志将它们标准化。对于分类变量的其余部分，列包含2个值(0或1)。所以我想知道，我们是否应该考虑相关矩阵中的范畴变量，并将它们与对数转换的数值变量放在回归模型的输入中保持不变。请指点。

浏览 0提问于2022-07-24得票数 0

1回答

我们可以在ANN模型中使用分类变量作为输入吗

在使用R运行ANN模型时，“我们是否可以在ANN模型中使用目录变量作为输入”。

浏览 1提问于2018-08-19得票数 0

2回答

用于文档分类、阈值检测的质心算法

、、、、

我有一个与特定领域相关的文档集合，并根据该集合训练了质心分类器。我想要做的是，我将向分类器提供来自不同领域的文档，并确定它们与经过训练的域有多大的相关性。我可以用余弦相似度来得到一个数值，但我的问题是，确定阈值的最佳方法是什么？为此，我可以从不同的领域下载几个文档，并检查它们的相似度，以确定

浏览 0提问于2012-08-04得票数 0

2回答

我有一套培训数据，包括20个选择题(A/B/C/D)，由100名受访者回答。答案纯粹是绝对的，不能与数值相比例。其中50人被选中进行免费产品试验。甄选过程尚不清楚。从这些信息中可以挖掘出什么有趣的知识？以下是我到目前为止想出的一个清单- 关于百分比的研究(例如，在Qs.5上回答B并获得免费产品trial)Conditional概率的人的百分比(例如，假设一个人回答了B)朴素贝叶斯分类器(朴素贝叶斯分类器)

浏览 1提问于2010-05-24得票数 0

回答已采纳

1回答

CrossValidator.fit() - IllegalArgumentException:列预测的类型必须等于.[array<double>，array<double>]，但类型为double

、、、

下面是我为Python3.9和Spark3.1.1使用的包：from pyspark.ml.feature import VectorAssembleimport LogisticRegression我正在尝试将一个矢量化的.的数值这是一个带有6标签

浏览 1提问于2021-04-25得票数 0

2回答

数据读取作为数据框架，生成一定的分类变量因子，并对某些数值变量进行变换。

我有一个csv文件与分类和数字数据。我希望读取csv文件中的数据框架，但我希望将某些分类变量转换为因子，并希望使用log10转换来转换某些数值变量的数据。我知道相关的函数是read.csv() (以数据帧的形式自动读取数据)、factor()和log10()，但我一直无法找到这样做的方法。这是怎么做的？

浏览 3提问于2020-08-10得票数 0

回答已采纳

1回答

回归任务中如何处理不平衡的范畴变量？

、、、、

我的数据集包含数字和分类预测器。我已经排除了数值变量的离群值。现在，我想知道如何处理分类变量的“异常值”(即不平衡类)，但是我在这个主题上找不到任何东西。我是否必须处理不平衡的类(离群值)，还是只与分类任务相关？附带注意，如果重要的话:我使用一个热编码对分类变量进行编码。

浏览 0提问于2022-07-15得票数 0

1回答

将所有标称变量转换为拟火花中的范畴变量

、、、、

我刚刚找到了一种将我的String数据run中的所有PySpark类型变量转换为分类变量的方法，这样我就可以在dataframe上运行决策树了。由于资源的限制，我不能使用熊猫，只能使用PySpark库。我已经确定了VectorIndexer是一种可能的解决方案，但是，我不明白如何转换所有String类型列，而认为这些列都是可能的。谁能帮我弄清楚怎么做的语法吗？我想要的是这样

浏览 1提问于2017-10-10得票数 0

回答已采纳

1回答

范畴变量的多重共线性

、、

对于数值/连续数据，为了检测预测变量之间的共线性，我们使用了皮尔逊相关系数，并确保了预测变量之间没有相关性，而是与响应变量相关。但是，如果我们有一个数据集，那么如何检测multicollinearity，其中的预测器都是分类。我正在共享一个数据集，其中我试图找出预测变量是否相关。Yes Yes Yes > No Yes Yes

浏览 1提问于2015-10-28得票数 11

1回答

回归问题中的范畴变量处理采用哪种方法？

、、、

通常，如果我有回归问题，并且我的初始数据集包含分类变量，如：MathScience 我会把这个非数值变量转换成数值变量，例如:数学: 0然而，我最近发现一个教程说这个解决方案是没有性能的，因为在其他方面没有最喜欢的类，这意味着这些类之间没有增加，如果它存在，我们就不能量化它。有人能为我解释一下吗?因为我通常是用解决方案一的？

浏览 0提问于2020-08-26得票数 2

回答已采纳

1回答

如何计算python中二进制变量之间的相关性？

、、、

两个二进制变量(x和y)为熊猫Dataframe中的多个日期形成两列。我想要计算x和y之间的相关分数，它量化了x=1与y=1 ( x=0与y=0)之间的相关性。 [计]1，2，2，2，0,000,000,000,000,000,000,000,000,000 说明:这是两种分类。有几天<e

浏览 2提问于2018-09-14得票数 4

回答已采纳

1回答

范畴变量分析

、

我的数据集由一个数值变量(称为"N4")和几个影响数值变量的分类变量组成。例如，有一个名为"die“的分类变量，如果它等于"alpha”，那么N4的值大约为100，如果它等于"beta“，那么N4的值大约为300。我的目标是找出哪些类别变量对我的数值变量影响最大。将分类变量转化为数值</

浏览 0提问于2022-01-04得票数 0

回答已采纳

1回答

MLR和向量值分类器/多任务学习

、、

R package MLR支持多标签分类，该多标签分类将特征向量映射到一组离散标签Y_1，Y_2，...，Y_k。例如，Y_1，...，可能是分类人口统计特征，如年龄，收入，性别，并且这些特征中的多个可能适用于训练数据中的给定示例。我认为，这有时被称为多任务学习。一些回归任务，如典型相关分析，具有类似的风格，其中我们的标签是连续的和向量值的。在MLR中表示此类任务的最佳方式是什么？我已经将鞋角典型<

浏览 2提问于2017-06-06得票数 0

1回答

如何测试标签是否具有对特性的实际依赖关系？

、

我正在尝试训练一个LSTM(多到一)模型的多元时间序列输入和分类输出。在进行堆栈交换之前，我在网上做了一些研究，发现有人说我们应该使用PCA来测试标签是否依赖于特性，这让我非常困惑。我认为PCA是用来对特征进行降维，并且与<

浏览 0提问于2022-02-14得票数 1

1回答

如何在包含连续、类别和日期类型的混合数据中查找相关性

、、

我有一个包含不同类型的数据： a <- data.frame(x=c("a","b","b","c","c","c","d","d","e","f"),y=c(1,2,2,2,3,1,4,7,10,2),m=c("a","d","ab","ac","ac",

浏览 7提问于2017-03-08得票数 0

回答已采纳

1回答

预测分类和数值输出的模型

、、、

我正在为一个时间序列模型构建一个RNN，它有一个分类输出。例如，如果珍贵的3种模式是"A"，"B"，"A"，"B“模型预测的下一个是"A”。还有一个与每个类别相关的数值级别。对于现实生活中的例子，你有国家的天气数据。您正在预测未来几天的天气类型(晴天、刮风、下雨等)。同时，这将是一个很好的模型也将预测温

浏览 2提问于2017-05-17得票数 1

1回答

日期、时间、类别和数字变量之间的相关性

、

我有一个非常大的数据集，包含所有类型的变量:日期、时间、分类和数值变量。它是引用雇用记录的数据集。我想知道它们之间是否存在相关变量。我知道，要建立一个正常的相关矩阵，我应该只对数值变量进行规范化，但事实并非如此。有别的选择吗？

浏览 7提问于2022-10-03得票数 -1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在Apache Mahout中对数值数据进行分类？

分类数据的矢量量化

多元线性回归问题的数据预处理

我们可以在ANN模型中使用分类变量作为输入吗

用于文档分类、阈值检测的质心算法

DataMining /对多项选择问题的回答分析

CrossValidator.fit() - IllegalArgumentException:列预测的类型必须等于.[array<double>，array<double>]，但类型为double

数据读取作为数据框架，生成一定的分类变量因子，并对某些数值变量进行变换。

回归任务中如何处理不平衡的范畴变量？

将所有标称变量转换为拟火花中的范畴变量

范畴变量的多重共线性

回归问题中的范畴变量处理采用哪种方法？

如何计算python中二进制变量之间的相关性？

范畴变量分析

MLR和向量值分类器/多任务学习

如何测试标签是否具有对特性的实际依赖关系？

如何在包含连续、类别和日期类型的混合数据中查找相关性

预测分类和数值输出的模型

日期、时间、类别和数字变量之间的相关性

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐