我有一个scala列表,如下所示。${tgtTbl}") 代码中的以下命令基于partList中存在的event_date上的过滤条件创建数据帧。existingTable).filter(s"event_date in ('${partList.mkString("','")}')") 由于它正在创建包含大量数据的dataframe,因此我希望循环partlist中的每个日期,并将数据读取到dat
我看了一下“createDataFrame”()中的pyspark源代码,它们似乎将数据转换为numpy记录数组,并将其转换为列表: at org.apache.spark.rdd.RDD.iterator(RDD.scala:287)
at org.apache.spark.rdd.MapPartitionsRDD.computejava.util.co
在我找到正确的方法之前(Last over A Window),我有一个循环,它将前一行的值逐个扩展到它自己(我知道循环是不好的做法)。为了避免这个错误(在我发现最后一个命令之前),我让这个循环运行了几百次,以获得一个中点condition=1000,并转储结果。(DAGScheduler.scala:2200)
at org.apache.spark.util.EventLoop$$anon$1.run(EventLoop.scala:49)