# 选择一列的几种方式,比较麻烦,不像pandas直接用df['cols']就可以了
# 需要在filter,select等操作符中才能使用
color_df.select('length').show...pyspark.sql.functions import lit
color_df.withColumn('newCol', lit(0)).show()
# dataframe转json,转完是个rdd...data_new=concat_df.withColumn("age_incremented",concat_df.age+1)
data_new.show()
# 3.某些列是自带一些常用的方法的...df1.withColumn('Initial', df1.LastName.substr(1,1)).show()
# 4.顺便增加一新列
from pyspark.sql.functions import...lit
df1.withColumn('newCol', lit(0)).show()
13、行的最大最小值
# 测试数据
df=[(1,1000),(2,2000),(3,3000),(4,4000