,可以通过以下步骤实现:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col
spark = SparkSession.builder.appName("FilterSum").getOrCreate()
data = [("Alice", 25, 100),
("Bob", 30, 200),
("Charlie", 35, 300),
("Dave", 40, 400),
("Eve", 45, 500)]
df = spark.createDataFrame(data, ["Name", "Age", "Salary"])
filtered_df = df.filter(col("Age") > 30)
sum_result = filtered_df.agg({"Salary": "sum"}).collect()[0][0]
print("Sum of Salary: ", sum_result)
完整代码如下:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col
spark = SparkSession.builder.appName("FilterSum").getOrCreate()
data = [("Alice", 25, 100),
("Bob", 30, 200),
("Charlie", 35, 300),
("Dave", 40, 400),
("Eve", 45, 500)]
df = spark.createDataFrame(data, ["Name", "Age", "Salary"])
filtered_df = df.filter(col("Age") > 30)
sum_result = filtered_df.agg({"Salary": "sum"}).collect()[0][0]
print("Sum of Salary: ", sum_result)
在这个例子中,我们创建了一个包含姓名、年龄和薪水的DataFrame。然后,使用过滤条件筛选年龄大于30的记录。最后,对筛选后的数据的薪水列进行求和操作,并打印结果。
推荐的腾讯云相关产品和产品介绍链接地址如下:
请注意,以上仅是一些建议的腾讯云产品,实际选择应根据具体业务需求和技术场景进行决策。
领取专属 10元无门槛券
手把手带您无忧上云