我正在使用PySpark的DataFrame部分来分析来自Apache Kafka的数据。我遇到一些麻烦,需要一些帮助。from pyspark.sql import functions
# selected_df is dataframe come from kafka use spark.readStream.formatkafka_time", "10 minutes").groupBy(functions.window("kafka_time&qu
我想使用pyspark.mllib.stat.Statistics.corr函数来计算pyspark.sql.dataframe.DataFrame对象的两列之间的相关性。corr函数期望接受rdd of Vectors对象。如何将df['some_name']列转换为rdd of Vectors.dense对象?