Spark DataFrame学习
1....文件的读取
1.1 spark.read.json() / spark.read.parquet() 或者 spark.read.load(path,format=”parquet/json”)
1.2...和数据库的交互 spark.sql(“”)
2.函数使用
2.1 printSchema() - 显示表结构
2.2 df.select(col) - 查找某一列的值
2.3 df.show(...2.5 df.groupby(col).count()
df.groupby(col).agg(col,func.min(),func.max(),func.sum()) - 聚合函数
2.6 spark.createDataFrame...([(),(),(),()…,()],(col1,col2,col3,…,coln))
2.7 自定义udf函数
123 @pandas_udf("col1 type,col2 type,...