当从Cassandra源读取数据时,Spark中的重新分区不会改变Spark分区的数量。
Spark的分区是在数据加载到Spark中时确定的,而重新分区只会改变数据的分布,而不会改变分区的数量。重新分区是指根据某种规则将数据重新分布到不同的分区中,以便更好地利用集群资源和提高计算性能。但是,重新分区不会增加或减少分区的数量。
在Spark中,分区是用来并行处理数据的基本单位。每个分区都包含一部分数据,Spark的任务会在每个分区上并行执行。分区的数量决定了并行处理的程度。如果需要改变分区的数量,可以使用repartition或coalesce等操作来重新分区数据。
总结起来,从Cassandra源读取数据时,Spark中的重新分区只会改变数据的分布,而不会改变Spark分区的数量。
领取专属 10元无门槛券
手把手带您无忧上云