spark入门之集群角色

用户1483438

发布于 2022-04-26 15:00:30

72600

代码可运行

文章被收录于专栏：大数据共享大数据共享

运行总次数：0

代码可运行

Master和Worker集群资源管理

Master和Worker是Spark的守护进程、集群资源管理者，即Spark在特定模式下正常运行所必须的进程。

Master 类似于Yarn中的ReourceManager
Worker 类似于Yarn中的NodeManager

Master和Worker 只有 Standalone模式中采用，所以Master和Worker是运行在集群模式中的。

Master 和 Worker 启动时机 随着集群的启动而启动，随着集群的停止而消失。

Driver和Executor任务的管理者

Driver和Executor是临时程序，当有具体任务提交到Spark集群才会开启的程序。

Driver 作用:

负责任务调用，类似于 ApplicationMaster。
负责将用户写的程序转换为一个job。如执行一个worldCount程序。

scala>sc.textFile("/opt/module/spark-local/input").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

res0: Array[(String, Int)] = Array((hadoop,6), (oozie,3), (spark,3), (hive,3), (atguigu,3), (hbase,6))

跟踪所有的Executo任务状态；是否闲置，是否接收到任务，是否完成，完成进度如何等。如果执行失败，会在其他服务器上重写执行一次（容错处理）。
负责所有执行节点的调度任务；
在job执行过程中,可以打开一个web界面，这就是UI展示。
Driver 是一个线程。

Executor作用：

负责执行spark具体的job任务。
Executor 是一个进程，他们把一个个任务交给 task(线程) 去执行。
Executor 中会有一些资源如内核数、内存等，task 会共享这些资源。

生命周期：

Driver类似于一个 ApplicationMaster；当有任务执行时会生成一个Driver，任务接收后，会申请注销自己。
Executor 同样如此，随着单个任务完成之后，而消失。

作用： Master和Worker：只有Standalone模式中才有。 Driver和Executor：Standalone模式和YARN模式 都有。

Standalone模式

Standalone模式是Spark自带的资源调动引擎，构建一个由Master + Slave构成的Spark集群，Spark运行在集群中。
这个要和Hadoop中的Standalone区别开来。这里的Standalone是指只用Spark来搭建一个集群，不需要借助Hadoop的Yarn和Mesos等其他框架。

运行流程

Spark有standalone-client和standalone-cluster两种模式，主要区别在于：Driver程序的运行节点。

该模式是由 --deploy-mode 所指定。

--deploy-mode client \

--deploy-mode cluster \

若指定，默认为client模式。

standalone client与cluster模式的区别： Driver所在的位置不一样

Client模式: Driver在client端【spark-submit所在】,Driver就在SparkSubmit进程中,client模式不能关闭client,client关闭Driver会消失,不能进行任务分配从而导致任务失败
cluster模式: Driver可能在任意一个Worker中,可以关闭client,因为Driver与client不在一块,client关闭不影响Driver

standalone-cluster模式：

1.提交程序

scala>sc.textFile("/opt/module/spark-local/input").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

创建SparkSubmit进程在提交程序的服务器上创建一个SparkSubmit进程,在SparkSubmit进程中也会有一个客户端Client，此时在客户端中并不会启动Driver。
请求启动Driver Client向Master 提交请求，找一个Worker启动Driver
启动Driver Master 根据任务的资源配置找到一个Worker启动Driver
申请计算资源 Driver计算任务时需要资源（如：需要多少个executor，每个executor需要多少内存），此时会向 Master申请资源。
筛选资源充足的Worker Master 并没有资源，但是它知道哪些Worker能满足Driver的条件。
启动对应的Executor 在资源充足的Worker中启动Executor，Executor启动好之后表示资源已经准备好了。
反向注册，申请计算任务。于是Executor会向Driver发送反向请求，告诉它，我准备好了，你把任务给我吧。
提交Task到Executor中执行。 Driver会将Task提交到Executor中进行执行。
注销、释放资源等待所有的Task执行完毕后，整个任务就执行完毕了，Driver向Master 提交申请注销自己。