我有一个关于38313行数的Dataframe,对于一些AB测试用例,我需要将这个DataFrame分成一半并分别存储。出于这个目的,我使用的是org.apache.spark.sql.randomSplit,这个函数在一个小数据集上似乎很好,但是当您有一个大的DataFrame时,它就会引起一些问题。我注意到,每次我把DataFrame分成两半,我就会得到一个重叠的结果。rows and some data we had in dedupTarget doesn't even exist in