可以通过使用Spark SQL中的日期函数来实现。具体步骤如下:
import org.apache.spark.sql.functions._
import org.apache.spark.sql.types._
val extractMonth = udf((date: java.sql.Date) => {
val cal = java.util.Calendar.getInstance()
cal.setTime(date)
cal.get(java.util.Calendar.MONTH) + 1
})
val dfWithDate = df.withColumn("date_column", col("date_column").cast(DateType))
val dfWithMonth = dfWithDate.withColumn("month", extractMonth(col("date_column")))
dfWithMonth.show()
这样就可以将月份添加到Spark dataframe中的日期列了。
关于Spark dataframe和日期函数的更多信息,可以参考腾讯云的相关产品文档:
领取专属 10元无门槛券
手把手带您无忧上云