我想使用pyspark.mllib.stat.Statistics.corr函数来计算pyspark.sql.dataframe.DataFrame对象的两列之间的相关性。corr函数期望接受rdd of Vectors对象。如何将df['some_name']列转换为rdd of Vectors.dense对象?
我正在从kafka流式传输json数据,我需要转换为pyspark中的Dataframe。为了流媒体,我使用了下面的代码。pddef convert_Json2DF(time,rdd): nf.toDF().show()# Convert RDD[String] to RDD[Row] to DataFrame
#rowRdd