,我需要获取一个Sparkdataframe,它只包含列表中所有列的一行。我正在尝试用返回org.apache.spark.rdd.RDD[Any] = ParallelCollectionRDD[5834] at parallelize at <console>:81的sc.parallelize:sc.parallelize(myList).map(line => line(0))返回error: Any does not take parameters
而且我也不能使用toDF(
就像下面的那个res3: org.apache.spark.sql.DataFramepredict_churn", outerpredict _)java.lang.UnsupportedOperationException: Schema for type org.apache.spark.sql.Dat
at org.apache.spark.sql.DataFrame$$anonfun$org$apache$spark$sql$DataFrame$$execute$1$1.apply(DataFrame.scala2086)
at org.apache.spark.sql.DataFrame.org$apache$spark$sql$DataFrame</
我在Scala中的Sparkdataframe中有一个列,它是使用以下命令聚合多列后生成的 agg(collect_list(struct(col(abc), col(aaa)).as(def)我希望将此列传递给UDF进行进一步处理,以便处理此聚合列中的一个索引。: SeqRow) ) 我得到了错误: Exception encountered when invoking run on a nested suite - Schema for type org.apache</
我有一个包含许多列的spark.ml DataFrame,每列中的每一行都包含一个SparseVector。除了我似乎不能从该DataFrame中select一列并将其转换为RDD[Vector]。这是我的尝试:val col = df.as[(org.apache.spark.mllib.linalg.Vector)].rdd val