如何提高Pyspark中toLocalIterator()的性能

、、、、

我正在尝试将Pyspark数据帧转换为140000行的Python列表。我正在使用toLocalIterator()来做这件事，但这需要花费很多时间。我如何加快这一过程？

浏览 52提问于2020-07-08得票数 0

1回答

如何使用spark toLocalIterator从集群中写入本地文件系统中的单个文件

、、

我有一个pyspark作业，它将结果数据帧写入本地文件系统中。dynamic and so it will be like avro, json, csv, etc df.coalesce.write.format(file_format).save('file:///pyspark_data/output') 但我发现了很多内存问题(OOM)，而且也需要更长的时间。因此，要将结果df写入本地系统中的单个文件，我需要使用

浏览 68提问于2020-08-26得票数 0

3回答

spark、collect()和toLocalIterator()中哪个更快

我有一个spark应用程序，其中我需要将数据从executors获取到driver，并且我使用的是collect()。然而，我也遇到了toLocalIterator()。据我在互联网上读到的toLocalIterator()，它返回一个迭代器，而不是立即发送整个RDD，所以它有更好的内存性能，但速度呢？当涉及到执行/计算时间时，collect()和toLocalIterator()之间的性能如何？

浏览 0提问于2017-06-04得票数 7

1回答

是否有一种方法可以在不等待所有分区完成执行的情况下将结果流到驱动程序？

、、

操作完成后，我想将结果收集到驱动程序中的一个归档文件中。我已经能够在toLocalIterator()中做到这一点，限制了驱动程序所需的资源。在此之后，toLocalIterator()能够快速提取预计算结果.import tim

浏览 3提问于2017-01-23得票数 2

回答已采纳

2回答

pySpark forEachPartition -代码在哪里执行？

、、、

我正在使用版本2.3中的pySpark (在我当前的开发系统中不能更新到2.4 )，并且有以下有关的问题。首先是一个小上下文:据我所知，pySpark-UDFs强制在Python实例中的Java (JVM)之外执行Python，从而使其性能成本降低。无论如何，这将导致并行性的损失-优势火花。然后，我看到foreachPartition对分区中的所

浏览 0提问于2019-04-12得票数 4

回答已采纳

1回答

Column.isin()用于大型集

、、、

where(sdf['PRODUCT_ID'].isin(PRODUCTS)) \ .groupBy(lambda x: x['SESSION_ID']) \--> 9 for sess_id, rows in views: /usr/local/spark/python/pyspark/rdd.py in _load_from_socket

浏览 2提问于2016-08-17得票数 6

1回答

从Spark 1.6迁移到Spark 2.1 toLocalIterator抛出错误

、

我已经将我的工作代码库从spark 1.6迁移到了2.1。运行我的代码时出现错误。当我使用RDD的toLocalIterator方法时，它显示了错误。我试图从错误日志中获取胶水，但似乎不起作用。()) File "/opt/spark2/python/lib/pyspark.zip/pyspark/rdd.py", line 140, in _load_from_soc

浏览 10提问于2017-03-02得票数 0

1回答

如何在本地系统中的单个文件中不使用合并来编写火花数据

、、

我想要从pyspark生成一个avro文件，目前我正在做coalesce，如下所示df.write.format('avro').save('file:///mypath') 但是，这会导致内存问题，因为在编写之前，所有的数据都将被取出到内存中，而且我的数据大小每天都在不断增长。因此，我希望通过每个分区来编写数据，这样就可以将数据以块的形式写入磁盘，而不会引起OOM问题。我发现toLocalIterato

浏览 2提问于2020-08-25得票数 2

回答已采纳

1回答

如何提高pyspark连接的性能

、、、

35.20105| -91.831833| Arkansas| |34.048928|-111.093731| Arizona| 我想通过比较df1和df2中的lat-long来获得df1中的一个新列“state”。有没有人能帮我解决这个连接的优化问题，或者可以避免使用分离函数(Lat_long_approximation)的更好的方法？

浏览 18提问于2020-08-29得票数 2

回答已采纳

1回答

是否将pyspak sql数据写入磁盘并再次读取将加快进一步的处理？

、

Scenario1使用coaelesce将此数据存储在磁盘上，并读取数据again.Improves，这大大提高了进一步转换的性能。问题为什么会出现这种性能改进？

浏览 2提问于2021-07-12得票数 1

回答已采纳

1回答

可能将数据分解为拓扑的各个部分

、、

我有一千万的记录数据。我的要求是，我需要对熊猫的这些数据做一些操作，而且我对所有1000万条记录都没有记忆。p_df = chunked_df.toPandas()如何通过记录计数将我的数据分割成相等的x-部分或部分，比如一次一百万。这两种解决方案都是可以接受的，我只需要用更小的块来处理它。

浏览 1提问于2018-10-26得票数 10

回答已采纳

1回答

从PySpark数据框中的重复行中提取和替换值

、、、

我有重复的行，可能包含相同的数据或在PySpark数据框中有缺失值。我写的代码非常慢，并且不能作为分布式系统工作。有谁知道如何从PySpark数据帧中的重复行中保留单个唯一值，该数据帧可以作为分布式系统运行，并且具有快速的处理时间？我已经写了完整的Pyspark代码，这个代码工作正常。“”“ # Columns of duplicate Rows of DF dup_columns = df.c

浏览 25提问于2019-06-21得票数 0

1回答

如何在Scala中将DataFrame转换为DynamicFrame对象

、、

我正在尝试将一些pySpark代码转换为Scala，以提高性能。在AWS (它使用Apache )中，会自动为您生成一个脚本，它通常使用DynamicFrame对象加载、转换和写入数据。但是，DynamicFrame类并不具有与DataFrame类相同的所有功能，有时您必须将其转换回DataFrame对象，反之亦然，以执行某些操作。下面是我如何在DataFrame中将DynamicFrame对象转换为pySpark对象： // PyS

浏览 1提问于2018-05-17得票数 3

回答已采纳

3回答

优化火花放电中的行访问和转换

、、、、

我有一个大型数据集(5GB)，其格式是S3桶中的jason。我需要转换数据的模式，并使用ETL脚本将转换后的数据写回S3。#df is the pyspark dataframeprint(columns) s3 = boto3.resource(

浏览 3提问于2020-05-30得票数 1

回答已采纳

1回答

pySpark中的数据帧级计算

、

我正在使用PySpark，并希望利用多节点的优势来提高性能时间。Increase | New Salary 2 | 500 | 0.15 | 4 | 700 | 0.1 | 我想要计算新的薪水列，并希望使用pyspark中多个节点的能力来减少整体处理时间。我不想做一个迭代的逐行计算新工资。 df.withColumn是否在数据帧级别进行计算？当使用更多

浏览 16提问于2021-03-24得票数 0

1回答

PySpark性能数据帧/向量与Numpy数组

、、、、

我的项目包括目前在UDF中执行的numpy数组和numpy矩阵之间的许多操作，您认为如果我们使用PySpark的内部结构，我们的性能会有所提高吗？

浏览 53提问于2020-09-09得票数 1

2回答

如何在EMR 5.x中的pyspark* shell / pyspark脚本中运行"s3-dist-cp“命令*

、、

我在我的pyspark脚本中运行s3-dist-cp“命令时有一些问题，因为我需要一些数据从s3移动到hdfs以提高性能。所以我在这里分享这一点。

浏览 9提问于2017-01-23得票数 1

1回答

在Pyspark中替换groupby提高Pyspark代码的性能

、、

我的Pyspark数据框如下所示。我必须从pyspark代码中删除group by函数，以提高代码的性能。我必须对10万个数据执行操作。,(1, ['4', '5', '6']), ], ["

浏览 42提问于2020-12-29得票数 0

3回答

在星火上运行Pandas有什么用？

、

这周我刚开始使用PySpark，我已经安装了access 2的实例已经安装了Pandas。但是在星火上拥有熊猫有什么用呢？在PySpark上运行脚本不就是为了克服像Pandas这样的软件包的局限性吗？如果Pandas在星火上运行，它的性能会提高吗？它与星火的RDD兼容吗？

浏览 0提问于2017-01-13得票数 4

1回答

在pyspark上运行python库的速度会加快吗？

、、

当我运行python库如pandas或scikit learn时，我试着通读并理解spark中的加速是从哪里来的，但我没有看到任何特别有用的东西。如果我可以在不使用pyspark数据帧的情况下获得相同的加速比，我可以只使用pandas部署代码，它的性能大致相同吗？我想我的问题是：如果我有可用的pandas代码，为了提高效率，我应该把它翻译成PySpark吗？

浏览 2提问于2018-06-22得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使用spark toLocalIterator从集群中写入本地文件系统中的单个文件

spark、collect()和toLocalIterator()中哪个更快

是否有一种方法可以在不等待所有分区完成执行的情况下将结果流到驱动程序？

pySpark forEachPartition -代码在哪里执行？

Column.isin()用于大型集

从Spark 1.6迁移到Spark 2.1 toLocalIterator抛出错误

如何在本地系统中的单个文件中不使用合并来编写火花数据

如何提高pyspark连接的性能

是否将pyspak sql数据写入磁盘并再次读取将加快进一步的处理？

可能将数据分解为拓扑的各个部分

从PySpark数据框中的重复行中提取和替换值

如何在Scala中将DataFrame转换为DynamicFrame对象

优化火花放电中的行访问和转换

pySpark中的数据帧级计算

PySpark性能数据帧/向量与Numpy数组

如何在EMR 5.x中的pyspark* shell / pyspark脚本中运行"s3-dist-cp“命令*

在Pyspark中替换groupby提高Pyspark代码的性能

在星火上运行Pandas有什么用？

在pyspark上运行python库的速度会加快吗？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐