我正在运行一个简单的sparkSQL查询,它在两个数据集上进行匹配,每个数据集大约是500 is。所以整个数据都在1TB左右。失败的地方!我知道我不是在缓存一个巨大的数据,它只是一个数字,为什么它在这里失败了。(DataFrame.scala:1903) at org.apache.spark.sql.DataFrame.collect(DataFrame.scala:1384) org.apache.spa
$1$1.apply(DataFrame.scala:1499) at org.apache.spark.sql.DataFrame$$anonfun$org$apache$spark$sql$DataFrame:2086) at org.apache.spark.sql.DataFrame.org$apache$spark$sql$DataFrame$$execute$1(DataFrame.<e
尝试从Windows中的Eclipse程序连接到Windows。 at org.apache.spark.sql.DataFrame.org$apache$spark$sql$DataFrame$$execute$1(DataFrame.scala:1498)
at org.apache.spark.sql.DataFr
我有sparkscala应用程序。我正在尝试使用它内部的Futures来并行化几个独立的操作集。我在期货中调用它们,它们返回给我未来类型的DataFrame,我如何在最后合并它们,并在任何未来类型无法计算的情况下抛出错误。下面是我的代码。当我尝试在onComplete块中应用数据帧的联合时,它显示以下错误
value union is not a member of scala.concurren