首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >pySpark中的数据帧级计算

pySpark中的数据帧级计算
EN

Stack Overflow用户
提问于 2021-03-24 17:25:18
回答 1查看 33关注 0票数 0

我正在使用PySpark,并希望利用多节点的优势来提高性能时间。

例如:

假设我有3列,有100万条记录:

代码语言:javascript
运行
复制
Emp ID | Salary | % Increase | New Salary 
1 | 200 | 0.05 | 
2 | 500 | 0.15 | 
3 | 300 | 0.25 | 
4 | 700 | 0.1 |

我想要计算新的薪水列,并希望使用pyspark中多个节点的能力来减少整体处理时间。

我不想做一个迭代的逐行计算新工资。

df.withColumn是否在数据帧级别进行计算?当使用更多的节点时,它是否能够提供更好的性能?

EN

回答 1

Stack Overflow用户

发布于 2021-03-26 04:26:07

Spark的数据帧基本上是一个分布式的数据集合。Spark manages此发行版及其上的operations (如.withColumn)。

Here是一个关于如何提高spark性能的快速谷歌搜索。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/66778090

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档