spark.streaming.blockInterval中的块和Spark中的RDD分区之间有什么不同?
引用火花流2.2.0文档:
对于大多数接收器来说,接收到的数据在存储在Spark的内存中之前,会被合并成块数据。每个批处理中的块数决定了在类似映射的转换中用于处理接收数据的任务的数量。
根据块间隔确定块的数目。我们还可以定义rdd分区的数目。所以我想,他们不可能是一样的。他们之间有什么不同?
发布于 2018-02-05 01:12:20
spark.streaming.blockInterval:星火流接收器接收到的数据在存储在星火中之前分块成组的数据的间隔。这是当使用接收基地方法时- 基于接收机的方法
而且KafkaUtils.createDirectStream()不使用接收器,因此使用DStream API,Spark将创建与需要使用的DStream分区一样多的RDD分区。- 直接进场(无接收者)
这意味着块间隔配置在DStream API中没有任何用处。
https://stackoverflow.com/questions/48018903
复制相似问题