在Spark1.6.0中,我有一个包含职务描述的列的数据框架,如:bartenderemployee...我使用以下方法从该列检索唯一值列表:
val jobs = people.select("Description").distinct().rdd.map(r => r(0).asInstanceOf[<init>(DataFra
我有一个scala List List[Any] = List("a", "b",...),我需要获取一个Sparkdataframe,它只包含列表中所有列的一行。我正在尝试用返回org.apache.spark.rdd.RDD[Any] = ParallelCollectionRDD[5834] at parallelize at <console>:81<em
我需要从提供REST接口的web服务中读取一些JSON数据,以便从我的SPARK SQL代码中查询数据进行分析。我能够读取存储在blob存储中的JSON并使用它。我想知道从REST服务读取数据并像使用任何其他DataFrame一样使用它的最佳方式是什么。顺便说一句,如果有帮助的话,我正在使用SPARK 1.6 of Linux cluster on HD insi
在几百列的情况下,使用UDF的逐列方法失败(1500列不能这样做)。此外,看来大部分时间都是由星火公司使用大约100%-200%的CPU (与其他使用数十个核心的操作不同)。这让我相信,星火dataframe的低缓存命中率,可能是由于内存崩溃。
然后,我试图解决使用逐行方法的问题,因为Spark在分区中保持行的完整性。最直接的解决方法可能是使用case class