我需要在我的spark应用程序中比较两个数据帧。我浏览了下面的帖子。How to obtain the difference between two DataFrames?然而,我不明白为什么最佳答案中的方法 df1.unionAll(df2).except(df1.intersect(df2)) 比问题中的那个更好 df1.except(df2).union(df2.except据我所知,后者使用两个较小的
将非常大的数据帧(50 is )水平拆分为多个输出的最佳/easiest方法是什么?我想做一些类似这样的事情:for id, i in enumerate(range(0,df.size,stepsize)):
start = idf.ix[start:end].to_csv('/data/bs_'+str(id)+