曾经在15、16年那会儿使用Spark做机器学习,那时候pyspark并不成熟,做特征工程主要还是写scala。...我们使用movielens的数据进行,oneHotEncoder、multiHotEncoder和Numerical features的特征处理。...+ 1
# 根据 movieId 聚合genreIndexInt
processedSamples = genreIndexSamples.groupBy('movieId').agg...5, 0, 3]| 19|(19,[0,1,3,5],[1....|
| 467| [1]| 19| (19,[1],[1.0])|
|...675| [4, 0, 3]| 19|(19,[0,3,4],[1.0,...|
| 691| [1, 2]| 19|(19,[1,2],[1.0,1.0])