Spark内核架构,其实就是第一种模式,standalone模式,基于Spark自己的Master-Worker集群。 基于YARN的yarn-cluster模式 基于YARN的yarn-client模式 (如果要切换到第二种或者第三种模式,将我们提交的spark应用的spark-submit脚本,加上--master参数,设置为yarn-cluset或者yarn-client,默认就是standalone模式)
1.png
当在YARN上运行Spark作业,每个Spark executor作为一个YARN容器(container)运行。Spark可以使得多个Tasks在同一个容器(container)里面运行。这是个很大的优点。yarn-cluster适用于生产环境;而yarn-client适用于交互调试,也就是希望快速地看到application的输出。 找到spark-env.sh 加一个 export HADOOP_HOME=/usr/local/hadoop 安装目录 --master=yarn-