问spark.streaming.blockInterval如何与RDD分区相关？
EN

Stack Overflow用户

提问于 2017-12-29 07:13:00

回答 1查看 947关注 0票数 2

spark.streaming.blockInterval中的块和Spark中的RDD分区之间有什么不同？

引用火花流2.2.0文档：

对于大多数接收器来说，接收到的数据在存储在Spark的内存中之前，会被合并成块数据。每个批处理中的块数决定了在类似映射的转换中用于处理接收数据的任务的数量。

根据块间隔确定块的数目。我们还可以定义rdd分区的数目。所以我想，他们不可能是一样的。他们之间有什么不同？

发布于 2018-02-05 01:12:20

spark.streaming.blockInterval：星火流接收器接收到的数据在存储在星火中之前分块成组的数据的间隔。这是当使用接收基地方法时- 基于接收机的方法

而且KafkaUtils.createDirectStream()不使用接收器，因此使用DStream API，Spark将创建与需要使用的DStream分区一样多的RDD分区。- 直接进场(无接收者)

这意味着块间隔配置在DStream API中没有任何用处。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/48018903

复制

相似问题

问spark.streaming.blockInterval如何与RDD分区相关？EN