温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
本节课我们来讨论一下如何划分18课任务的执行阶段。RDD是18课中最重要的数据模型,且彼此之间具有依赖关系,分别是窄依赖关系和宽依赖关系。如果两个RDD是宽依赖关系,那么他们将会在不同阶段被处理。因此宽依赖是划分18个任务执行阶段的标准。这里通过一个具体事例来说明如何通过RDD的宽依赖关系划分18个任的执行阶段。在这里的18个任务中包含7个RDD,他们分别是adcd和G。针对A执行孤败分组操作得到B。由于Goodbye是典行的宽一带操作,A和B就会被划分到不同的阶段,因此在阶段1中只会处理A中的数据。由于C和D之间执行的是map操作,这是一个窄依赖操作,C和D就会在同一个阶段被处理,D和E执行幽灵的,并且操作得到F,这也是一个窄依赖关系。
01:00
因此CDE1和F都是窄依赖关系,他们将会在同一个阶段被处理。B和F执行join的连接操作。由于Join操作比较特殊,有些情况呢,Joinne是在依带操作,而有些情况呢,Join则是宽一带操作。这里的F和G是一个宽一带关系。因此这里可以划分出阶段2,在阶段2中处理CDE1和F中的数据,同时阶段一和阶段二没有直接关系,因此这两个阶段可以并行执行,从而提高18g任务执行的效率。闭合器属于散依赖关系,因此划分出阶段3,在该阶段中处理这两个RDD的数据。整个18任务将会被划分成三个阶段。划分18g任务执行阶段的意义在于支持检查点的容错。现在你已经知道如何划分。18课任务的执行阶段呢?那你知道如何设置18课任务的检查点支持容错吗?欢迎评论区留言讨论好了,记得点加号关注赵玉强老师。
我来说两句