在pyspark中,可以使用DataFrame的select()
和withColumn()
方法来实现小写转换和删除原始列。
select()
方法选择需要的列,并使用alias()
方法给新列起一个小写的别名。from pyspark.sql import SparkSession
from pyspark.sql.functions import col
# 创建SparkSession
spark = SparkSession.builder.getOrCreate()
# 创建DataFrame
data = [("John", 25), ("Alice", 30), ("Bob", 35)]
df = spark.createDataFrame(data, ["Name", "Age"])
# 将Name列转换为小写,并使用alias方法给新列起别名
df_lower = df.select(col("Name").alias("name"))
# 显示结果
df_lower.show()
输出结果:
+-----+
| name|
+-----+
| john|
|alice|
| bob|
+-----+
withColumn()
方法选择需要的列,并使用drop()
方法删除原始列。from pyspark.sql import SparkSession
from pyspark.sql.functions import col
# 创建SparkSession
spark = SparkSession.builder.getOrCreate()
# 创建DataFrame
data = [("John", 25), ("Alice", 30), ("Bob", 35)]
df = spark.createDataFrame(data, ["Name", "Age"])
# 删除Name列
df_without_name = df.withColumn("Name", col("Name")).drop("Name")
# 显示结果
df_without_name.show()
输出结果:
+---+
|Age|
+---+
| 25|
| 30|
| 35|
+---+
以上是在pyspark中实现小写转换和删除原始列的方法。在实际应用中,可以根据具体需求选择使用select()
和withColumn()
方法来处理DataFrame中的列。
领取专属 10元无门槛券
手把手带您无忧上云