我想从Spark读取一个CSV文件(小于50MB),并执行一些连接和过滤操作。CSV文件中的行按某些条件排序(在本例中为Score)。我希望将结果保存在单个CSV文件中,其中保留了原始行的顺序。输入CSV文件: Id, Score3, 997, 95 在执行一些联接和筛选操作后: val data = spark.read.option("h
我使用read.csv.sql有条件地读取数据(我的数据集非常大,所以这是我选择的解决方案,在读取数据之前,我选择过滤它并缩小它的大小)。我遇到了内存问题,方法是读取完整的数据,然后过滤它,这就是为什么我使用条件读来读取子集相对于完整的数据集是很重要的。"# Step 1 (Assume these values are com