Python/PySpark并行处理示例

、、、、

我在理解如何在我的python脚本中利用并行处理的能力时遇到了麻烦。Filter pyspark dataframe for the subset (e.g. category == 'bread')我需要在迭代循环中添加什么才能触发多处理？pyspark会自动做到这一点吗？

浏览 10提问于2018-03-04得票数 0

1回答

我们是否必须显式地使用RDDs和诸如foreach、parallelize之类的操作来在pyspark中执行并行处理？

、、

如果我们对group by，merge，for两个数据帧使用普通的python操作，而不是显式地使用map，reducebykey，groupbykey等，是否存在性能差异？前者(正常操作)是简单的顺序处理，而后者是并行处理吗？这是否意味着要激活并行处理，我们必须显式使用RDDs？正常的数据帧使用不是并行处理(尽管是在pyspark中完成的)？

浏览 1提问于2021-10-26得票数 0

1回答

将使用rpy2的python代码并行化的最有效方法是什么？

、、、、

我使用的是python3，在其中，我使用rpy2包访问R，传入完成繁重计算的R代码，并将结果返回给python。特别是，我正在使用R (documentation )的lfe函数。我想知道哪个选项更好:在python中进行并行化还是在R中进行并行化，这有关系吗？为什么我们要怀疑其中一个比另一个更有效呢？谢谢。

浏览 18提问于2017-02-03得票数 1

回答已采纳

1回答

Python处理来自excel的大量数据

、、、

我需要处理有6336行x53列的Excel文件。我的任务是创建以下程序：我知道我没有提供任何代码，但老实说，我尝试自己解决它，我甚至不知道我应该使用哪个模块。

浏览 3提问于2020-03-24得票数 0

1回答

为什么我得到了TypeError:不能在使用_thread.RLock时选择'_thread.RLock‘对象

、、、、

我用火花来处理我的数据，就像这样： url='jdbc:/Versions/3.9/lib/python3.9/site-packages/pyspark/python/lib/pyspark.zip/pyspark

浏览 2提问于2022-05-11得票数 0

回答已采纳

1回答

我正在多次运行一个涉及spark并行化的程序。这个程序在最初的几次迭代中运行良好，但由于内存问题而崩溃。\python\lib\pyspark.zip\pyspark\worker.py", line 57, in File "C:\opt\spark\spark-2.2.0-bin- hadoop2.7\python\lib\pyspark.zip\pyspark\serializers.py&q

浏览 0提问于2017-10-12得票数 1

1回答

emr上并行运行的提交函数

、、

我正在提交在电子病历上并行运行的步骤。我这样做是通过在s3路径上使用pyspark代码保存python脚本。然后，我使用下面的boto代码提交与emr并行的步骤。相反，我想创建一个函数，如下面的"read_write“示例函数，以执行我在保存的python脚本中所做的相同操作。这样，我就不必在我试图并行运行的每一步中都将一个python脚本文件保存到s3。我提供了类似于当前提交步骤以并行运行的示例代码。我还

浏览 5提问于2022-08-24得票数 0

1回答

Python多处理工具vs Py(Spark)

、、、、

这是一个新手问题，因为我越来越迷惑pyspark。我想扩展现有的python数据预处理和数据分析管道。我意识到如果我用pyspark划分我的数据，我不能再把每个分区当作一个独立的pandas数据框架，需要学习如何使用pyspark.sql的行/列函数来操作，并修改很多现有的代码，再加上我一定会触发mllib那么，如果我可以使用多处理工具进行集群计算并并行现有数据帧上的任务，那么我为什么还需要使用Spark呢？

浏览 2提问于2017-06-15得票数 6

1回答

如何使用PySpark并行化我的文件处理程序

、、、

我现在有一个很大的python项目，其中的驱动程序有一个函数，它使用for循环来遍历我的GCP (google cloud platform)存储桶上的每个文件。对于在这个For循环中遍历的每个文件，我都调用了一个函数parse_file(...)它解析该文件并调用一系列处理该文件的其他函数。是否可以使用PySpark并行化文件级for循环来运行parse_file(...)对所有这些文件并行执行函数，以减少程序执行时间并提高效率？如果是这样的话，由于程序没有使用PySpark，是否需要

浏览 2提问于2020-06-04得票数 1

2回答

pySpark forEachPartition -代码在哪里执行？

、、、

我正在使用版本2.3中的pySpark (在我当前的开发系统中不能更新到2.4 )，并且有以下有关的问题。首先是一个小上下文:据我所知，pySpark-UDFs强制在Python实例中的Java (JVM)之外执行Python，从而使其性能成本降低。由于我需要将一些Python-函数应用于我的数据，并且希望最小化开销，所以我的想法是至少将一组可处理的数据加载到驱动程序中，并将其作为Pandas-DataFrame处理。无论如何，这将导致并行性的损失-优

浏览 0提问于2019-04-12得票数 4

回答已采纳

1回答

在PySpark中寻找循环吗？

、、

我在Python中有一个聚类算法，我正试图将其转换为PySpark (用于并行处理)。我有一个包含区域的数据集，并在这些区域中存储。我想对单个区域中的所有存储执行我的聚类算法。如何修改代码以删除PySpark中的for循环？我在PySpark中读过for循环通常不是一个好的实践，但我需要能够在许多子数据集上执行模型。有什么建议吗？

浏览 3提问于2021-01-26得票数 2

回答已采纳

1回答

将PySpark作为Django的运行时，而不是常规的Python环境？

、、、

有没有可能使用PySpark作为Django的运行时，而不是常规的python环境？findspark.init() import pyspark.sq

浏览 1提问于2019-07-10得票数 0

3回答

使用常规Jupyter Notebook导入PySpark包

、、

除了正确导入包之外，pyspark到底在做什么？是否可以使用常规的jupyter notebook，然后导入所需的内容？

浏览 6提问于2016-02-29得票数 2

1回答

在中的集群中，纯python脚本(不是pyspark)可以并行运行吗？

、

我希望将我的python脚本从本地迁移到云上，特别是在Azure Databricks上创建的集群上。纯python脚本可以并行运行(同时使用集群中的多个节点)，而不必转换为pyspark吗？是否可以检查作业是否并行运行？

浏览 3提问于2018-11-28得票数 1

1回答

将Scala中的列表转换为Python或dataFrame

、、、、

val dataList: List[List[Int]] = tempData.toList<class 'py4j.java_gateway.JavaObject'>我用的是齐柏林飞艇0.5.5

浏览 4提问于2016-04-23得票数 4

回答已采纳

1回答

map reduce -从PDF中提取文本

、、、、

如何使用pyspark应用map-reduce/并行处理它们。我想要做的就是从它们中提取文本，然后将文本存储在RDD中；因为文件的数量很大，所以我想以并行的方式完成这项工作。pyspark有一个名为wholeTextFiles的方法，可以读取文本文件的目录。但是，我有它在PDF格式，我想要预处理的PDF，以提取文本之前，我可以处理的文本。任何帮助都将不胜感激

浏览 1提问于2017-11-09得票数 0

2回答

如何在火花放电中进行并行处理

、、

我想做并行处理在for循环中使用吡火花。from pyspark.sql import SparkSession df.show() print(e)上面提到的脚本工作得很好，但是我想在pyspark中进行并行</

浏览 8提问于2020-01-10得票数 0

1回答

windowPartitionBy和pyspark中的重新分区

、、、

我在SparkR中有一个小代码，我想把它转换成pyspark。我对这个windowPartitionBy并不熟悉，并且重新分区。你能帮我了解一下这段代码是做什么的吗？

浏览 34提问于2020-12-18得票数 0

回答已采纳

1回答

PySpark :将字典python输出转换为RDD /或其他可保存(HDFS)格式

、、、、

我是Spark / Pyspark / HDFS的新手，我正在尝试用以下代码直接从HDFS加载一个.json文件：data = file.map(lambda x: json.loads(x)) ... a lot of Python functions加载文件后，我使用一些Python函数来处理

浏览 2提问于2017-05-16得票数 1

1回答

用PySpark实现程序并行化

、、、

我对PySpark还是个新手，我正在寻找如何用PySpark并行化一个简单的程序。我没有找到一个Spark转换，可以正确地进行这种处理。我想要做的处理方法是过滤一个非常大的有序向量/列表的一些数值。该程序在“经典”Python中实现非常简单，但需要使用Spark并行化非常快速地获得结果。

浏览 1提问于2018-01-20得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

我们是否必须显式地使用RDDs和诸如foreach、parallelize之类的操作来在pyspark中执行并行处理？

将使用rpy2的python代码并行化的最有效方法是什么？

Python处理来自excel的大量数据

为什么我得到了TypeError:不能在使用_thread.RLock时选择'_thread.RLock‘对象

Pyspark内存问题

emr上并行运行的提交函数

Python多处理工具vs Py(Spark)

如何使用PySpark并行化我的文件处理程序

pySpark forEachPartition -代码在哪里执行？

在PySpark中寻找循环吗？

将PySpark作为Django的运行时，而不是常规的Python环境？

使用常规Jupyter Notebook导入PySpark包

在中的集群中，纯python脚本(不是pyspark)可以并行运行吗？

将Scala中的列表转换为Python或dataFrame

map reduce -从PDF中提取文本

如何在火花放电中进行并行处理

windowPartitionBy和pyspark中的重新分区

PySpark :将字典python输出转换为RDD /或其他可保存(HDFS)格式

用PySpark实现程序并行化

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐