pySpark中的数据帧级计算

文章/答案/技术大牛

发布

1回答

、

我正在使用PySpark，并希望利用多节点的优势来提高性能时间。| % Increase | New Salary 2 | 500 | 0.15 | 4 | 700 | 0.1 | 我想要计算新的薪水列，并希望使用pyspark中多个节点的能力来减少整体处理时间。我不想做一个迭代的逐行计算新工资。 df.withColumn是否在数据

浏览 16提问于2021-03-24得票数 0

2回答

为什么groupBy()比pyspark中的distinct()快得多？

当我用groupBy()替换spark数据帧上的distinct()时，我在我的pyspark代码中看到了很大的性能改进。但是我不能理解背后的原因。整个意图是从数据帧中删除行级重复项。我尝试在谷歌上搜索groupBy()和distinct()在pyspark中的实现，但没有找到。有没有人能给我解释一下或者给我指出正确的方向？

浏览 0提问于2018-09-11得票数 6

1回答

我无法计算列名称中包含点的pyspark数据帧的approxQuantile。例如，数据帧模式是 root |-- col.dot: double (nullable = true) 那我就不能 df.approxQuantile(('`col.dot`'), [0.5], 0.25) 导致错误: pyspark.sql.utils.IllegalArgumentException：‘字段&qu

浏览 7提问于2019-06-12得票数 1

3回答

将pyspark* groupedData对象转换为spark Dataframe*

我必须在pyspark数据帧上进行2级分组。我的试探性的：grouped_df.groupby(["C"]).count()'GroupedData' object has no attribute 'groupby' 我想我应该首先将分组的对象转换为<e

浏览 2提问于2017-10-18得票数 7

回答已采纳

1回答

如何在AWS胶水作业中将多个源映射到单个目标

、、

我有一个MySQL数据库和一个包含200个表的Mongo数据库，我正在尝试将它连接到Glue并合并一些表，最终得到合并数据的20个表，以及一些过滤器和脚本，在数据到达需要的地方之前过滤掉其中的一些数据。我应该使用不同的工具，还是应该在其他地方执行该步骤(例如，使用DMS并为爬虫生成另一个目的地？)

浏览 6提问于2018-08-17得票数 1

回答已采纳

2回答

将数据类型从yyyy-MM-dd格式的字符串更改为DateType

、、、

我正在尝试将数据帧中的列从yyyy-MM-dd格式的字符串类型转换为DateType。我目前正在运行这段代码，但它不会改变类型，但它也不会失败--所以我想我遗漏了一些相当基本的东西我从得到了这个格式，但我不确定我错过了什么谢谢你的帮助！

浏览 0提问于2020-01-18得票数 0

1回答

如何计算pyspark数据帧的协方差矩阵？

、、、

我有一个很大的pyspark数据框架，其中列是一些产品，行是其随时间变化的价格。我需要计算所有产品的协方差矩阵，但数据太大，无法转换为pandas数据帧，因此我需要使用pyspark进行计算。我到处都找过了，但我想不出解决这个问题的办法。有没有人知道该怎么做？我已经有了相关矩阵，所以任何使用标准差对角矩阵的方法都是非常受欢迎的。 Here是我<

浏览 68提问于2021-06-15得票数 0

1回答

用总行和列计数PySpark数据帧中的空值

、、、

我正在尝试使用PySpark编写一个查询来计算大型数据帧中的所有null值。在读取数据集后，我执行以下操作： import pyspark.sql.functions as F df_agg = df.agg(*[F.count(F.when(F.isnull(c), c))total_rows和total_columns数据帧的末尾添加两列，以便在写入.csv文件后可以运行一些计算</e

浏览 17提问于2020-03-28得票数 0

回答已采纳

2回答

迭代和计算列的更有效的方法

、

我有一个非常宽的数据帧> 10,000列，我需要计算每个列中空值的百分比。现在我正在做的是：for c in df_a.columns[:]: # print(c)当然，这是一个缓慢的过程，有时会崩溃。有没有我错过的</

浏览 0提问于2017-09-24得票数 1

0回答

如何使用pyspark计算apache spark数据帧的大小？

、、

有没有办法使用pyspark计算Apache spark数据帧的字节大小？

浏览 2提问于2016-07-04得票数 11

1回答

如何统计pyspark* dataframe中某一列中每个分类变量的出现频率？*

、、

假设我有一个pyspark数据帧：+-----+---++-----+---+|beta | 2||alpha| 2|我想计算一下在x列中出现了多少次alpha、beta和gamma。我如何在pyspark中做到这一点？

浏览 0提问于2018-03-20得票数 4

1回答

PySpark滑动窗口计算

、、

我有一个PySpark数据帧，我想在其上运行滑动窗口计算。下面是我想要运行的操作的示例代码(显示为pandas dataframe)：有人能告诉我如何在PySpark中复制这个操作吗？

浏览 0提问于2018-03-18得票数 0

3回答

取消持久化(py)spark中的所有数据帧

、、、、

这通常是在一个大的步骤之后，或者缓存一个我想要多次使用的状态之后。似乎当我第二次对我的数据帧调用cache时，一个新的副本被缓存到内存中。在我的应用程序中，这会导致在扩展时出现内存问题。尽管在我当前的测试中，给定的数据帧最大大约为100MB，但中间结果的累积大小超出了executor上分配的内存。请参见下面的小

浏览 9提问于2016-04-28得票数 39

回答已采纳

1回答

完整数据帧的火花散列

、

是否可以找到完整PySpark数据的哈希值(最好是散列256)。我不想找到单个行或列的散列。我知道pySpark中存在函数，用于从pyspark.sql.functions导入sha2进行列级哈希计算。读取数据<em

浏览 8提问于2022-12-04得票数 0

1回答

将Numpy数组追加到Pyspark* Dataframe中*

、、、、

我需要在PySpark数据帧中追加一个NumPy数组。| 39205.17000| False|+----+------+-------------+-------+ 首先，我计算了一个近似117310.979016494值的数组。的数据计算得出的。数据帧中转换，但没有成功。

浏览 7提问于2020-12-08得票数 0

回答已采纳

2回答

将PySpark数据帧转换为PySpark.pandas数据帧

、、

在链接中，用户可以在Spark3.2中的PySpark之上与熊猫合作。是否需要很长时间才能将PySpark数据帧转换为PySpark熊猫数据框架？我知道将PySpark数据帧转换为熊猫数据框架需要很长时间。

浏览 9提问于2022-03-02得票数 1

回答已采纳

1回答

Pyspark: PicklingError:无法序列化对象：

、、

我有以下两个数据帧: df_whitelist和df_text|keyword| whitelist_terms ||this client has l...| client;LA|在df_whitelist中，每个关键字对应一组术语在df_text中，我有文本和在这个文本中找到的一些关键字。我想要做的是，对

浏览 4提问于2017-11-12得票数 9

回答已采纳

1回答

Pandas版本0.22.0 - drop_duplicates()获得意外的关键字参数'keep‘

、、、

我正在尝试使用子集(drop_duplicates=‘’，keep=False)在我的数据帧中删除重复项。显然，它在我的Jupyter Notebook中工作正常，但当我试图通过终端以.py文件的形式执行时，我得到了以下错误： Traceback (most recent call last): File"/home/source/fork/PySpark_Analytics/Notebo

浏览 110提问于2019-06-20得票数 1

1回答

如何获取row_number is pyspark数据帧

、、、

为了排名，我需要让row_number是一个pyspark数据帧。我看到在pyspark的窗口函数中有row_number函数，但这是使用HiveContext所必需的。我尝试用HiveContext替换sqlContext self.sc = pyspark.SparkContext() #self.sqlContext = pyspark.sql.SQL

浏览 0提问于2016-10-30得票数 2

2回答

PySpark列向绑定

在PySpark中有什么特定的方法可以像我们在r中那样绑定两个数据帧吗？我需要在PySpark中同时绑定数据帧和作为一个数据帧。

浏览 1提问于2017-08-30得票数 3

点击加载更多