下面的代码片段试图将一个简单的函数应用于一个PySpark RDD对象:conf = pyspark.SparkConf()def parse_line(line):
ret = pyspark.Row(**{h:line[i] for (i, h) in enumerate(header)})(header
我想使用pyspark.mllib.stat.Statistics.corr函数来计算pyspark.sql.dataframe.DataFrame对象的两列之间的相关性。corr函数期望接受rdd of Vectors对象。如何将df['some_name']列转换为rdd of Vectors.dense对象?