对pyspark dataframe执行重复数据删除时遇到内存错误

对于pyspark dataframe执行重复数据删除时遇到内存错误的问题，可以采取以下几种解决方法：

增加内存资源：可以尝试增加集群的内存资源，以提供更多的内存空间来处理数据删除操作。可以通过增加集群的节点数或者增加每个节点的内存大小来实现。
分批处理数据：如果数据量较大，可以考虑将数据分批处理，每次处理一部分数据，避免一次性加载全部数据导致内存错误。可以使用pyspark的分区功能，将数据分成多个分区，然后逐个分区进行数据删除操作。
优化代码逻辑：检查代码逻辑是否存在不必要的计算或者重复计算，尽量减少内存占用。可以使用pyspark提供的一些优化技巧，如使用合适的数据结构、避免不必要的转换操作等。
增加数据处理节点：如果集群中只有一个节点在处理数据删除操作，可以考虑增加更多的节点来并行处理数据，以提高处理速度和减少内存占用。
使用持久化存储：如果内存资源有限，可以考虑将数据持久化到磁盘上，以释放内存空间。可以使用pyspark的持久化功能，将数据缓存到内存或者磁盘上，以便后续的操作使用。
调整数据删除策略：如果数据删除操作导致内存错误，可以考虑调整数据删除策略，例如使用更加高效的算法或者采用近似算法来进行数据删除。

总结起来，解决pyspark dataframe执行重复数据删除时遇到内存错误的问题，可以通过增加内存资源、分批处理数据、优化代码逻辑、增加数据处理节点、使用持久化存储、调整数据删除策略等方法来解决。具体的解决方案需要根据实际情况进行调整和优化。

对pyspark dataframe执行重复数据删除时遇到内存错误

、

我对pyspark还是个新手，在对数据帧进行重复数据删除时遇到了问题。我的数据帧中有3个字段: PersonId、PlaceId和ThingId。['C','D','E','F'],['C','D','F'],['C','D','F']

浏览 10提问于2020-09-02得票数 1

回答已采纳

3回答

取消持久化(py)spark中的所有数据帧

、、、、

似乎当我第二次对我的数据帧调用cache时，一个新的副本被缓存到内存中。在我的应用程序中，这会导致在扩展时出现内存问题。尽管在我当前的测试中，给定的数据帧最大大约为100MB，但中间结果的累积大小超出了executor上分配的内存。请参见下面的小示例，该示例演示了此行为。cache_test.py： spark_context = Spark

浏览 9提问于2016-04-28得票数 39

回答已采纳

1回答

pyspark错误：'DataFrame‘对象没有属性'map’

、、

我正在使用Pyspark2.0通过读取csv来创建一个DataFrame对象，使用：我使用以下命令找到数据的类型type(data)pyspark.sql.dataframe.DataFrame 我正在尝试将数据中的一些列转换为LabeledPoint，以便应用分类。map(lambda row:LabeledPoint(row.label, r

浏览 4提问于2016-09-08得票数 6

2回答

从PySpark DataFrame列中删除元素

我知道PySpark DataFrames是不可变的，所以我想创建一个新列，该列是根据应用到PySpark DataFrame的现有列的转换生成的。我的数据太大了，无法使用collect()。因此，对于第一次迭代：[][2,3]对于第二次迭代：[1][1,3]等，并重复上面的元素3。对于每次迭代，我都希望将结果附加到原始的PySpark DataFr

浏览 9提问于2017-01-12得票数 1

回答已采纳

3回答

PySpark序列化EOFError

、、、

我正在以火花DataFrame的形式读取CSV，并在其上执行机器学习操作。我一直得到一个Python序列化EOFError --知道为什么吗？我认为这可能是内存问题--即文件超出了可用内存--但大幅减少DataFrame的大小并没有防止EOF错误。Tra

浏览 5提问于2016-04-12得票数 34

2回答

解析两个大数据帧时内存错误

、

我有两个大约400 k行的数据，称为a和b。我想要做的是对df中的每一行在数据帧a中查找该行中的帐户号。如果存在，我想从dataframe a中删除该行。问题是，当我试图运行这段代码时，我一直会得到内存错误。最初我使用的是迭代行，但在处理大型数据集时，这似乎很糟糕，所以我切换到了应用程序，但遇到了同样的错误。frameB.drop(idx, inplace=True) frame

浏览 1提问于2019-02-26得票数 1

回答已采纳

2回答

PySpark:未在executor映射分区函数中释放的Numpy内存(内存泄漏)

、、、、

sc = SparkContext() 奇怪的是，以下任何一种方法都可以防止内存泄漏：

浏览 0提问于2018-11-01得票数 13

2回答

为什么在带有1行的DataFrame上收集()使用2000执行器？

、、、、

这是我能想到的最简单的DataFrame。我使用的是PySpark 1.6.1。row of datacols = [ "a", "b" ]因此，数据框架完全适合内存，没有对任何文件的引用，在我看来非常琐碎。然而，当我收集数据时，它使用了2000名执行者： df.collect(

浏览 5提问于2016-06-21得票数 5

回答已采纳

1回答

如何从pyspark中删除数据帧来管理内存？

、、、

我列出我的数据帧以丢弃未使用的数据帧。首先，我使用下面的函数列出了我在其中一篇文章中找到的数据帧然后我试着从列表中删除未使用的。我在下面使用的代码当我再次列出时

浏览 0提问于2018-10-31得票数 4

回答已采纳

1回答

在PySpark* (本地)上编程与在Jupyter Notebook上使用Python编程*

、、

最近我一直在使用pySpark，所以我已经习惯了它的语法、不同的API和HiveContext函数。很多时候，当我开始处理一个项目时，我并不完全知道它的范围是什么，或者输入数据的大小，所以有时我最终需要分布式计算的全部功能，而在另一些情况下，我最终得到了一些在我的本地计算机上运行良好的脚本。我的问题是，与常规的Python/Pandas相比，将pySpark作为我的主要语言进行编码是否存在劣势，即使只是进行一些探索性分析？我这么问主要是因为在不同语言之间切换的认知工作，以及如果我需要分发工作，将代码从Python

浏览 0提问于2016-07-27得票数 1

1回答

字符串中的Pyspark双字符替换避免未映射到pandas或rdd的特定单词

、、、、

我继承了一个修改pyspark dataframe中一些字符串的程序。其中一个步骤涉及从字符串中的一些单词中删除双/三/等字母，以及一个额外的例外列表，即使它们有重复的字母也会保持不变。不幸的是，对需求的更改意味着代码在任何情况下都不能使用pandas udf或映射到rdd。我需要直接在pyspark中执行相同的函数。连续字符删除函数逐字读取字符串，检查单词是否在例外列表中，如果不在例外列表中，则逐个字符移动，将其与前一个字符进行比

浏览 7提问于2021-03-15得票数 0

回答已采纳

2回答

PySaprk-使用Databricks火花在Synapse中执行合并

、、、、

在使用Databricks火花执行ACID操作时，我们遇到了一个棘手的情况。我们希望使用PySpark在上对Azure表执行UPSERT。我们知道星火只提供两种模式来写数据。因此，基于这两种模式，我们考虑了以下选项：我们将把整个数据写入到一个舞台表中。我们将使用这个阶段表来执行合并操作(~ UPSERT )，在此之后，将截断/删除最终表.Stage表。我们也将把目标表数据带入星火。在Sp

浏览 9提问于2020-09-08得票数 3

2回答

火花RDD -分区总是在RAM中吗？

、、、、

我们都知道斯派克在内存中做计算。我只是对下面的内容感到好奇。如果我的数据集(文件)大小超过可用RAM大小，数据将存储在哪里？

浏览 5提问于2016-11-22得票数 21

回答已采纳

1回答

如何迭代大型Pyspark* Dataframe中列的不同值？.distinct().collect()引发大型任务警告*

、

我正在尝试迭代一个大型Pyspark Dataframe列中的所有不同值。当我尝试使用.distinct().collect()执行此操作时，即使只有两个不同的值，它也会发出“任务太大”警告。下面是一些示例代码： spark = SparkSession.builder.appName('Basics').getOrCreatelength)], ['a', 'b', &

浏览 1提问于2020-01-14得票数 1

1回答

火花范围、数据框架和内存管理

、、

我很好奇范围是如何与数据框架和星火一起工作的。在下面的示例中，我有一个文件列表，每个文件都独立加载在一个数据帧中，执行一些操作，然后将dfOutput写到磁盘。overwrite").option("header", "true").save("outputs/sentSplit/sentiment"+file.toString+".csv") 当循环完成时，for loop中的每个数据</em

浏览 3提问于2016-06-24得票数 0

回答已采纳

1回答

dask dataframe删除重复索引值

、、、、

我使用的是python2.7中的dataframe，并且希望从我的df中删除重复的索引值。当我用熊猫的时候而且起作用了我可以重置索引，而不是使用作为索引的列来删除复制的，但是如果可能的话，我想避免它。我可以使用df.compute()，而不是<

浏览 0提问于2017-11-28得票数 1

回答已采纳

1回答

在pyspark中的情况下的总和

、

我正在尝试将hql脚本转换为pyspark。我正在努力在groupby子句之后的聚合中实现case when语句的总和。例如： SUM(f.when((col1 == 'ABC' | col2 == 'XYZ'), 1).otherwise(0))) 在pyspark中是可能的吗？我在执行这样的语句时遇到错误</e

浏览 0提问于2016-11-23得票数 1

回答已采纳

1回答

在使用PySpark时，如何在Spark中实现Python数据结构？

、、、

我目前正在自学Spark programming，并试图用PySpark重新编写一个现有的Python应用程序。然而，我仍然对如何在PySpark中使用常规Python对象感到困惑。我了解Spark中的分布式数据结构，如RDD、DataFrame、Datasets、vector等。Spark有自己的转换操作和动作操作，如.map()、.reduceByKey()来操作这些对象。但是，如果我在PySpark中创建传统的Python数据对象，比如数组、列表、元组或字典，会怎

浏览 34提问于2017-03-01得票数 1

回答已采纳

1回答

合并化工厂中的多个数据

、

我需要合并20个数据文件，每个文件有上千到百万条记录。ID', 'full') . .join(df19, 'ID', 'full') 在dataframe中有重复的in。所以它的加入变得更糟了。还有其他方法来

浏览 0提问于2019-08-21得票数 2

2回答

在大型数据集中运行Pandas时出现问题

、、、

我目前正在做一个项目，我很难理解PySpark中的Pandas是如何工作的。我有一个星火集群，有一个主节点，8核和64 16，还有两个工作人员，每个16核和112 16。我的数据集相当大，分为七个主分区，每个分区由78m行组成。数据集由70列组成。我在其中定义了一个Pandas来对dataset执行一些操作，这些操作只能使用Python在Pandas数据基上完成。，绝对没有办法让Pandas在崩溃时工作。我怀疑某个地方有OOM错误。上面的代码运行了几

浏览 1提问于2019-12-26得票数 5

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

对pyspark dataframe执行重复数据删除时遇到内存错误

相关·内容

对pyspark dataframe执行重复数据删除时遇到内存错误

取消持久化(py)spark中的所有数据帧

pyspark错误：'DataFrame‘对象没有属性'map’

从PySpark DataFrame列中删除元素

PySpark序列化EOFError

解析两个大数据帧时内存错误

PySpark:未在executor映射分区函数中释放的Numpy内存(内存泄漏)

为什么在带有1行的DataFrame上收集()使用2000执行器？

如何从pyspark中删除数据帧来管理内存？

在PySpark* (本地)上编程与在Jupyter Notebook上使用Python编程*

字符串中的Pyspark双字符替换避免未映射到pandas或rdd的特定单词

PySaprk-使用Databricks火花在Synapse中执行合并

火花RDD -分区总是在RAM中吗？

如何迭代大型Pyspark* Dataframe中列的不同值？.distinct().collect()引发大型任务警告*

火花范围、数据框架和内存管理

dask dataframe删除重复索引值

在pyspark中的情况下的总和

在使用PySpark时，如何在Spark中实现Python数据结构？

合并化工厂中的多个数据

在大型数据集中运行Pandas时出现问题

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐