我可以使用python函数执行并行处理:for x in rdd2.collect():它给了我预期的输出然而,当我尝试使用火花-NLP语句破折器或情感分析器时,我会得到一个错误: PicklingError:未能序列化对象: TypeError:无法对_thread.RLock对象进行筛选。在这一行中:for x在rdd2.Collection():
以下是
RDD已经做到了,但它并不是真正的可读性,所以当涉及到代码可读性时,这种方法会更好。 取这个初始的和结果的DF,包括开始的DF和我希望在执行.groupBy()之后获得的结果。toDF() 到目前为止,我尝试的是执行以下.groupBy... val resultDf = df Name .agg(
functions.mapException in thread "mai