我正在使用PySpark,并希望利用多节点的优势来提高性能时间。
例如:
假设我有3列,有100万条记录:
Emp ID | Salary | % Increase | New Salary
1 | 200 | 0.05 |
2 | 500 | 0.15 |
3 | 300 | 0.25 |
4 | 700 | 0.1 |我想要计算新的薪水列,并希望使用pyspark中多个节点的能力来减少整体处理时间。
我不想做一个迭代的逐行计算新工资。
df.withColumn是否在数据帧级别进行计算?当使用更多的节点时,它是否能够提供更好的性能?
发布于 2021-03-26 04:26:07
Spark的数据帧基本上是一个分布式的数据集合。Spark manages此发行版及其上的operations (如.withColumn)。
Here是一个关于如何提高spark性能的快速谷歌搜索。
https://stackoverflow.com/questions/66778090
复制相似问题