如何从pySpark中的变量中选择数据框中的列

文章/答案/技术大牛

发布

2回答

、

我在python中有一个pySpark数据帧- from pyspark.sql.functions import col dataset = sqlContext.range(0, 100).select((col("id") % 3).alias("key")) 列名是key，我想使用变量选择此列。myvar = "key" 现在，我希望在select语句中使用myvar变量来选择此列我试过了 datas

浏览 12提问于2019-09-13得票数 5

回答已采纳

6回答

选择PySpark数据框中的列

、、、

我正在寻找一种在PySpark中选择数据帧列的方法。对于第一行，我知道我可以使用df.first()，但不确定列，因为它们没有列名。我有5列，我想遍历每一列。

浏览 289提问于2017-10-18得票数 36

回答已采纳

1回答

在pyspark的现有dataframe中添加新列的方法是什么？

、、、

我已经在现有的数据框中添加了一个新列，但它没有反映在数据帧中。如果我们可以将数据帧分配给另一个数据帧，我们就可以看到结果test.show() 有没有办法向现有的dataframe添加一个新的列(不

浏览 4提问于2021-01-26得票数 0

1回答

windowPartitionBy和pyspark中的重新分区

、、、

我在SparkR中有一个小代码，我想把它转换成pyspark。我对这个windowPartitionBy并不熟悉，并且重新分区。你能帮我了解一下这段代码是做什么的吗？

浏览 34提问于2020-12-18得票数 0

回答已采纳

1回答

按日期将吡火花数据集拆分为两个

、、

我有pyspark数据集，我想按照datetime列将其划分为列车和测试数据集，其中，训练数据集的日期时间应该小于日期时间列的中位数，而测试数据集应该有其余的数据集。我尝试按datetime列对dataset进行排序，并选择上半部分。但是这只解决了火车部件的问题，我不知道如何从PySpark<

浏览 0提问于2019-08-21得票数 0

回答已采纳

1回答

如何根据存储在R中的向量中的索引来选择列？

、、、、

我正在尝试从数据帧中选择相关性大于所需截止值的列。我使用findCorrelation函数将所有相关性较高的指标存储在一个变量中。当我打印这个变量时，我看到索引没有排序。我想知道如何使用此变量从原始数据框中选择列？

浏览 27提问于2020-10-19得票数 0

1回答

与Pandas结果相比，dataframe中唯一值的Pyspark数量不同

、、、、

我有400万行的大型数据帧。其中一列是名为"name“的变量。当我通过：df['name].nunique()检查Pandas中唯一值的数量时，我得到了一个与Pyspark df.select("name").distinct().show()不同的答案(在Pandas中大约为1800，在Pyspark中为350 )。这是一个数据分区

浏览 0提问于2020-05-24得票数 0

1回答

pyspark将数组转换为循环中的字符串

、、、

我有一个心理公园数据框架，它有字符串，整型和数组类型的列。我尝试对所有列运行for循环，以检查它们是否为任何数组类型的列，并将其转换为字符串。然后，pyspark数据框中的输出应该包含int、string列。下面的代码将只返回从数组转换为字符串的列。如何包含else语句以从dataframe

浏览 20提问于2021-04-11得票数 0

回答已采纳

5回答

如何将dataframe的所有列转换为字符串

、、

我有一个混合类型的数据帧。我正在使用spark.sql('select a,b,c from table')命令从hive表中读取此数据帧。一些列是int、bigint、double，而其他列是string。总共有32列。在pyspark中有什么方法可以将数据框中的所有列转换为字符串类型吗？

浏览 149提问于2017-02-07得票数 12

回答已采纳

1回答

复制pyspark数据框中的列

、

我在pyspark中有一个类似下面示例的数据框。我想复制数据框中的列，并将其重命名为另一个列名。Name Age RateBen 32 98期望的输出为： Name Age

浏览 5提问于2018-05-18得票数 13

回答已采纳

1回答

使用map函数将Spark Dataframe转换为RDD

、、

我正在尝试将spark数据框中的列拆分为多个值。因此，我分隔了要拆分的列，并检查了其类型：O: pyspark.sql.dataframe.DataFrame 当我使用以下命令分割字符串时TopicModelVectorSplit = TopicModelVector.select('TopicModelVector').map(lambda line: line.te

浏览 0提问于2016-06-22得票数 0

3回答

如何在Pyspark中替换dataframe的所有空值

、、

我在pyspark中有一个超过300列的数据框架。在这些列中，有一些列的值为null。_2null null125 124and so on 当我想对column_1求和时，我得到的结果是一个空值现在，我想用空格替换数据框所有列中的null。

浏览 1提问于2017-02-18得票数 56

回答已采纳

3回答

删除pyspark中所有列名中的空格

我是pySpark的新手。我收到了一个csv文件，大约有1000列。我正在使用databricks。大多数这些列之间有空格，例如“总收入”，“总年龄”等。我需要更新所有的列名与空格下划线‘_’。我已经试过了但它在databricks上的Pyspark

浏览 1提问于2019-08-02得票数 1

2回答

从pyspark中的一个非常大的数据帧中选择随机列

、

我有一个pyspark格式的dataframe，大约有150列。这些列是从连接不同的表中获得的。现在，我的要求是以特定的顺序将数据帧写入文件，例如，首先写入1到50列，然后是第90到110列，最后是第70和72列。也就是说，我只想选择特定的列，并重新排列它们。我知道其中一种方法是使用df.se

浏览 1提问于2017-07-14得票数 0

回答已采纳

1回答

spark中的lit()有什么用处？下面两段代码返回相同的输出，使用lit()的好处是什么？

、、

我这里有两段代码 gooddata=gooddata.withColumn("Priority",when((gooddata.Years_left < 5) & (gooddata.Years_left >= 0

浏览 2提问于2020-06-10得票数 0

1回答

获取数据框列及其值作为pyspark中的变量

、

我正在使用如下所示的pyspark从mysql表中获取数据。).option("user", "{}".format(mysql_user)).option("password", "{}".format(password)).load()+------+------+-------------------+

浏览 7提问于2017-12-15得票数 0

回答已采纳

2回答

Spark中的多输出分类

、、、

我们可以在Pyspark中预测多个目标变量吗，就像我们在sklearn中执行MultiOutputClassifier一样？我有一个包含多个目标变量的数据集0 Pbl1 Low“问题和复杂性”，我必须预测特定问题的“技能”，而我的目标变量是“Skill1，Skill

浏览 0提问于2019-02-15得票数 1

1回答

使用PySpark* sql函数*

、

此函数：lg = F.log(5.2)返回： at java.lang.Thread.run(Thread.java:745) 文档指向在数据帧中使用函数

浏览 8提问于2017-03-07得票数 0

回答已采纳

1回答

过滤来自pyspark数据帧的负值

、、

我有一个>40列的spark dataframe，其中的值是混合值。如何一次只从所有列中选择正值并过滤掉负值？我访问了[ ]，但没有一个解决方案有效。我想将朴素贝叶斯拟合到pyspark中，其中一个假设是所有特征都必须是积极的。如何通过仅从我的特征中选择正值来准备相同的数据？

浏览 2提问于2018-03-19得票数 1

1回答

忽略缺失值计算pyspark数据框列的百分位数

、

我对pyspark是个新手。我有一个包含ID和BALANCE列的pyspark数据框。我尝试将列balance存储到100% (1-100%)的存储桶中，并计算每个存储桶中有多少个in。我不能使用任何与RDD相关的东西，我只能使用Pyspark语法。Window.orderBy(df.BALANCE) test = df.withColumn('percentile_col',F

浏览 14提问于2019-07-11得票数 0

点击加载更多