首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >spark.streaming.blockInterval如何与RDD分区相关?

spark.streaming.blockInterval如何与RDD分区相关?
EN

Stack Overflow用户
提问于 2017-12-29 07:13:00
回答 1查看 947关注 0票数 2

spark.streaming.blockInterval中的块和Spark中的RDD分区之间有什么不同?

引用火花流2.2.0文档:

对于大多数接收器来说,接收到的数据在存储在Spark的内存中之前,会被合并成块数据。每个批处理中的块数决定了在类似映射的转换中用于处理接收数据的任务的数量。

根据块间隔确定块的数目。我们还可以定义rdd分区的数目。所以我想,他们不可能是一样的。他们之间有什么不同?

EN

回答 1

Stack Overflow用户

发布于 2018-02-05 01:12:20

spark.streaming.blockInterval:星火流接收器接收到的数据在存储在星火中之前分块成组的数据的间隔。这是当使用接收基地方法时- 基于接收机的方法

而且KafkaUtils.createDirectStream()不使用接收器,因此使用DStream API,Spark将创建与需要使用的DStream分区一样多的RDD分区。- 直接进场(无接收者)

这意味着块间隔配置在DStream API中没有任何用处。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/48018903

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档