首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >分享一下Spark History Server搭建以及使用s3路径的eventlog的坑

分享一下Spark History Server搭建以及使用s3路径的eventlog的坑

原创
作者头像
框框不是欢欢
发布于 2022-06-07 06:06:38
发布于 2022-06-07 06:06:38
1.7K00
代码可运行
举报
文章被收录于专栏:大数据探索大数据探索
运行总次数:0
代码可运行

一、背景

完成了spark on k8s的部署和测试,现在需要一个能够查看spark任务执行情况的ui,原先采用yarn资源管理器ui链接到spark-web-ui,由于yarn集群下的机器ip固定,可以通过配置本地代理的方式访问它,现在去掉了yarn,自己需要搭建一个能够查看所有spark任务执行情况的页面。直接使用spark-web-ui不方便管理且部署的driver机器在线上且ip不固定,无法通过配置代理和服务名方式打通。

二、Spark History Server

1、原理

1、spark history server读取spark任务执行过程中产生的eventlog,来还原spark-web-ui

2、spark history server能够展示正在执行和执行完的spark任务的ui,通过eventlog日志文件后缀名.inprogress区分

3、spark history server解决了在不使用代理的情况下,能够查看线上正在执行任务的spark-web-ui,只要给部署spark history server服务配一个办公网的域名即可,原因是它只是通过eventlog近实时还原spark web ui。日志更新时间,参照该配置

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
spark.history.fs.update.interval 10s (默认10)

2、部署

由于打算把spark history server部署在k8s的容器上,需要一个在前台运行的程序来启动spark history server,spark提供的spark/sbin/start-history-server.sh是通过起一个后台进程去跑,所以我们要改造一下

start-history-server.sh
start-history-server.sh

改造完并使用configmap挂载配置的spark history server的yaml如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
apiVersion: v1
kind: Service
metadata:
  name: spark-history-service
  labels:
    run: spark-history-service
spec:
  ports:
  - port: 80
    protocol: TCP
    name: http
  - port: 18080
    protocol: TCP
    name: spark-history
  selector:
    run: spark-history-service
---
apiVersion: v1
kind: ConfigMap
metadata:
  name: spark-history-defaults
  namespace: kyuubi
data:
  sparkDefaults: |
    spark.hadoop.fs.s3a.impl=org.apache.hadoop.fs.s3a.S3AFileSystem
    spark.hadoop.fs.s3.impl=org.apache.hadoop.fs.s3a.S3AFileSystem
    spark.hadoop.fs.s3a.access.key=XXXXXXXXXXXXXXXXX
    spark.hadoop.fs.s3a.secret.key=XXXXXXXXXXXXXXXXX
    spark.hadoop.fs.s3a.connection.ssl.enabled=false
    spark.hadoop.fs.s3a.endpoint=http://s3.ap-northeast-1.amazonaws.com
    spark.hadoop.fs.s3a.path.style.access=true
    spark.eventLog.dir=s3a://mybucket/sparkOnK8s/eventLogDir
    spark.history.fs.logDirectory=s3a://mybucket/sparkOnK8s/eventLogDir

    spark.history.fs.cleaner.enabled=true
    spark.eventLog.compress=true

    spark.kubernetes.authenticate.driver.serviceAccountName=default
    spark.kubernetes.file.upload.path=s3a://mybucket/sparkOnK8s/kubernetes/file/upload

    spark.history.fs.cleaner.enabled=true
    spark.history.fs.cleaner.interval=1d
    spark.history.fs.cleaner.maxAge=7d

---
apiVersion: apps/v1
kind: Deployment
metadata:
  name: spark-history-service
spec:
  selector:
    matchLabels:
      run: spark-history-service
  replicas: 1
  template:
    metadata:
      labels:
        run: spark-history-service
    spec:
      containers:
      - name: spark-history-service
        image: XXXXX/XXXXXX:spark_history3.2.1_v1.0.0
        volumeMounts:
        - name: settings
          mountPath: /usr/local/spark/conf/spark-defaults.conf
          subPath: sparkDefaults
        command: ["/usr/local/spark/bin/spark-class"]
        args: ["org.apache.spark.deploy.history.HistoryServer"]

      volumes:
      - name: settings
        configMap:
          name: spark-history-defaults

XXXXX/XXXXXX:spark_history3.2.1_v1.0.0 是我打包上传到仓库的镜像,Dockerfile如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
FROM openjdk:8u332-slim-buster

RUN apt-get update \
    && apt-get install -y procps vim net-tools iputils-ping

COPY spark-3.2.1-bin-hadoop3.3.1 /usr/local/spark

3、启动

启动spark history server pod,并提交一个spark on k8s任务,任务正在过程中,spark-history-ui并没有展示正在执行的任务,查看s3a://mybucket/sparkOnK8s/eventLogDir目录发现并没有后缀名.inprogress的文件,等执行完spark任务后才产生文件,只能看到执行完任务的历史。

4、分析

查看了一下driver pod的日志,发现了一个华点

driver pod部分日志
driver pod部分日志

S3ABlockOutputStream不支持使用Syncable API去写日志,打开源码,发现S3ABlockOutputStream实现了Syncable

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
class S3ABlockOutputStream extends OutputStream implements
    StreamCapabilities, IOStatisticsSource, Syncable, Abortable

Syncable的方法

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
@InterfaceAudience.Public
@InterfaceStability.Stable
public interface Syncable {

  /** Flush out the data in client's user buffer. After the return of
   * this call, new readers will see the data.
   * @throws IOException if any error occurs
   */
  void hflush() throws IOException;

  /** Similar to posix fsync, flush out the data in client's user buffer 
   * all the way to the disk device (but the disk may have it in its cache).
   * @throws IOException if error occurs
   */
  void hsync() throws IOException;
}

看下S3ABlockOutputStream对这两个方法的实现,发现调用了一个降级的方法handleSyncableInvocation()

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
@Override
  public void hflush() throws IOException {
    statistics.hflushInvoked();
    handleSyncableInvocation();
  }
@Override
  public void hsync() throws IOException {
    statistics.hsyncInvoked();
    handleSyncableInvocation();
  }

查看handleSyncableInvocation方法

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
private void handleSyncableInvocation() {
    final UnsupportedOperationException ex
        = new UnsupportedOperationException(E_NOT_SYNCABLE);
    if (!downgradeSyncableExceptions) {
      throw ex;
    }
    // downgrading.
    WARN_ON_SYNCABLE.warn("Application invoked the Syncable API against"
        + " stream writing to {}. This is unsupported",
        key);
    // and log at debug
    LOG.debug("Downgrading Syncable call", ex);
  }

饿。。。凉凉,s3a不支持Syncable的方法刷新(骂骂咧咧,不支持实现个啥啊,哈哈,开个玩笑),具体原因看下官网有详细描述s3aFileSystem:

https://hadoop.apache.org/docs/stable/hadoop-aws/tools/hadoop-aws/troubleshooting_s3a.html

5、解决方案

最后只能在pod上挂载nfs目录,把日志放到该目录下了

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
apiVersion: v1
kind: Service
metadata:
  name: spark-history-service
  labels:
    run: spark-history-service
spec:
  ports:
  - port: 80
    protocol: TCP
    name: http
  - port: 18080
    protocol: TCP
    name: spark-history
  selector:
    run: spark-history-service
---
apiVersion: v1
kind: ConfigMap
metadata:
  name: spark-history-defaults
  namespace: kyuubi
data:
  sparkDefaults: |
    spark.hadoop.fs.s3a.impl=org.apache.hadoop.fs.s3a.S3AFileSystem
    spark.hadoop.fs.s3.impl=org.apache.hadoop.fs.s3a.S3AFileSystem
    spark.hadoop.fs.s3a.access.key=XXXXXXXXXXX
    spark.hadoop.fs.s3a.secret.key=XXXXXXXXXXX
    spark.hadoop.fs.s3a.connection.ssl.enabled=false
    spark.hadoop.fs.s3a.endpoint=http://s3.ap-northeast-1.amazonaws.com
    spark.hadoop.fs.s3a.path.style.access=true
    spark.eventLog.dir=/nfs/sparkOnK8s/eventLogDir
    spark.history.fs.logDirectory=/nfs/sparkOnK8s/eventLogDir

    spark.history.fs.cleaner.enabled=true
    spark.eventLog.compress=true

    spark.kubernetes.authenticate.driver.serviceAccountName=default
    spark.kubernetes.file.upload.path=s3a://mybucket/sparkOnK8s/kubernetes/file/upload

    spark.history.fs.cleaner.enabled=true
    spark.history.fs.cleaner.interval=1d
    spark.history.fs.cleaner.maxAge=7d

---
apiVersion: apps/v1
kind: Deployment
metadata:
  name: spark-history-service
spec:
  selector:
    matchLabels:
      run: spark-history-service
  replicas: 1
  template:
    metadata:
      labels:
        run: spark-history-service
    spec:
      containers:
      - name: spark-history-service
        image: XXXXXXXX/XXXXXXXXX:spark_history3.2.1_v1.0.0
        volumeMounts:
        - name: settings
          mountPath: /usr/local/spark/conf/spark-defaults.conf
          subPath: sparkDefaults
        - name: nfs-path
          mountPath: /nfs
        command: ["/usr/local/spark/bin/spark-class"]
        args: ["org.apache.spark.deploy.history.HistoryServer"]

      volumes:
      - name: settings
        configMap:
          name: spark-history-defaults
      - name: nfs-path
        nfs:
          path: /home1/nfs
          server: 172.XX.XX.XX

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
k8s 写入hudi表快速测试指南
/data1/nfs/rootfs——NFS服务器端的目录,用于与nfs客户端共享
从大数据到人工智能
2022/10/05
7270
Spark History Server自动删除日志文件
公司的计算平台上,写入spark-history目录日志文件数超过设定阈值(1048576),导致任务失败。
sparkle123
2021/01/04
2.9K0
Spark History Server自动删除日志文件
Spark History Server配置
该文件在SPARK_HOME/conf/下,新安装的spark中只有spark-defaults.conf.template这个文件,改名为spark-defaults.conf即可
CoderJed
2018/09/13
1.2K0
Spark History Server配置
Mac hadoop + hive整合s3-伪分布式环境
JDK: java1.8 路径为:/Library/Java/JavaVirtualMachines/jdk1.8.0_291.jdk/Contents/Home
框框不是欢欢
2022/04/25
1.5K1
Mac hadoop + hive整合s3-伪分布式环境
在 K8S 部署一个 Spark History Server - 篇3
因为这个系列的主要是想讲怎么在 K8S 上运行 HS,所以篇3讲述的就是这个,假设你已经有一个 K8S 集群,一个 build 好的 image,本文只是将 HS 运行在 K8S 上,关于日志和其他配置的最佳实践,本文不提供参考。
runzhliu
2020/08/06
1.1K0
在 K8S 部署一个 Spark History Server - 篇3
0923-7.1.9-使用S3 Gateway访问Ozone
1.要访问不在 /s3v 卷下的已有bucket,我们可以在/s3v卷中创建symlink
Fayson
2024/05/09
3500
0923-7.1.9-使用S3 Gateway访问Ozone
分布式计算引擎 Flink/Spark on k8s 的实现对比以及实践
以 Flink 和 Spark 为代表的分布式流批计算框架的下层资源管理平台逐渐从 Hadoop 生态的 YARN 转向 Kubernetes 生态的 k8s 原生 scheduler 以及周边资源调度器,比如 Volcano 和 Yunikorn 等。这篇文章简单比较一下两种计算框架在 Native Kubernetes 的支持和实现上的异同,以及对于应用到生产环境我们还需要做些什么。
legendtkl
2021/08/20
2.3K0
分布式计算引擎 Flink/Spark on k8s 的实现对比以及实践
No FileSystem for scheme "s3"问题解决
公司使用s3的路径去关联hive的分区,现在接入spark on k8s引入了3.0以上的hadoop版本,高版本的hadoop版本开始支持s3a配置。
框框不是欢欢
2022/05/19
2.7K0
No FileSystem for scheme "s3"问题解决
迁移到Spark Operator和S3的4个集成步骤
在万事达,内部云团队维护我们的 Kubernetes 平台。我们的工作包括维护 Kubernetes 集群,这是我们所依赖的核心部署,并为租户提供了日志、监控等服务,并为租户提供了良好的体验。
CNCF
2021/01/27
2.3K0
Spark监控官方文档学习笔记
任务的监控和使用 有几种方式监控spark应用:Web UI,指标和外部方法 Web接口 每个SparkContext都会启动一个web UI,默认是4040端口,用来展示一些信息: 一系列调度的stage和task RDD大小和内存的使用概况 环境变量信息 excutors的相关信息 可以通过http://<driver-node>:4040访问,如果有多个sparkcontext运行在同一个节点,那么端口会依次为4040、4041、4042。 注意这些信息只有在应用执行期间才能看到。如果想要执行完
用户1154259
2018/01/17
1.9K0
Spark 系列教程(2)运行模式介绍
Apache Spark 是用于大规模数据处理的统一分析引擎,它提供了 Java、Scala、Python 和 R 语言的高级 API,以及一个支持通用的执行图计算的优化引擎。
Se7en258
2021/10/09
1.7K0
Spark 系列教程(2)运行模式介绍
三万字无坑搭建基于Docker+K8S+GitLab/SVN+Jenkins+Harbor持续集成交付环境!!
作者个人研发的在高并发场景下,提供的简单、稳定、可扩展的延迟消息队列框架,具有精准的定时任务和延迟队列处理功能。自开源半年多以来,已成功为十几家中小型企业提供了精准定时调度方案,经受住了生产环境的考验。为使更多童鞋受益,现给出开源框架地址:
冰河
2020/12/24
6.2K2
三万字无坑搭建基于Docker+K8S+GitLab/SVN+Jenkins+Harbor持续集成交付环境!!
Kubernetes | 存储 - Storage
ConfigMap 功能在 Kubernetes1.2 版本中引入,许多应用程序会从配置文件、命令行参数或环境变量中读取配置信息。ConfigMap API 给我们提供了向容器中注入配置信息的机制,ConfigMap 可以被用来保存单个属性,也可以用来保存整个配置文件或者 JSON 二进制大对象。
Zkeq
2023/05/13
1K0
Kubernetes | 存储 - Storage
Kubernetes 之数据存储
在之前的博文中,我们已经知道了很多 K8S 中的组件了,包括资源控制器等。在资源控制器中,我们说到了 StatefulSet 这个控制器组件,其专门为了有状态服务而生的,而对应的存储要存放到哪里呢?
民工哥
2021/04/21
2.4K0
kubernets中部署高可用nacos
上面拉取完代码后,进入nacos-k8s/deploy/nfs,然后修改deployment.yaml中的NFS配置,如下:
极客运维圈
2020/06/16
2.2K2
kubernets中部署高可用nacos
2021年大数据Spark(十):环境搭建集群模式 Spark on YARN
Spark运行在YARN上是有2个模式的, 1个叫 Client模式 一个叫Cluster模式
Lansonli
2021/10/09
4.3K1
flink系列(3)-基于k8s的环境搭建
前面写了一些flink的基础组件,但是还没有说过flink的环境搭建,现在我们来说下基本的环境搭建 1. 使用StatefulSet的原因 对于Flink来说,使用sts的最大的原因是pod的hostname是有序的;这样潜在的好处有 hostname为-0和-1的pod可以直接指定为jobmanager;可以使用一个statefulset启动一个cluster,而deployment必须2个;Jobmanager和TaskManager分别独立的deployment pod由于各种原因fail后,由于StatefulSet重新拉起的pod的hostname不变,集群recover的速度理论上可以比deployment更快(deployment每次主机名随机) 2.使用StatefulSet部署Flink 2.1 docker的entrypoint 由于要由主机名来判断是启动jobmanager还是taskmanager,因此需要在entrypoint中去匹配设置的jobmanager的主机名是否有一致 传入参数为:cluster ha;则自动根据主机名判断启动那个角色;也可以直接指定角色名称 docker-entrypoint.sh的脚本内容如下:
yiduwangkai
2019/09/17
2.6K0
在k8s上部署metersphere
本次演示环境使用metersphere版本:v1.13.0 设置k8s节点包括1台master和1台worker; 应用部署控制管理器使用deployment; 持久化存储使用hostPath写入到NFS挂载目录。 NFS挂载方式如下: 在master配置了nfs服务,并将nfs共享目录/nfs_storage挂在到了两个节点中的/opt/nfs; 如下图所示:
范一刀
2021/11/18
1.6K0
在k8s上部署metersphere
Kubernetes核心实战
此时的应用还不能外部访问: 指非集群结点,不能访问该应用,同一个 pod 共享网络与存储空间、因此 pod 内部访问其他的容器,ip 地址是 127.0.0.1
OY
2023/02/23
6810
Kubernetes核心实战
k8s安装spark
这段时间已经基本实现了产品应用层从原生的springboot微服务架构迁移到k8s上,过程可谓是瞎子过河一步一个坑,但是好在系统总体能跑起来了;今天研究了下产品计算层(spark集群)如何基于k8s部署操作,过程有些取巧了,但总的来说有些进展。 本次部署spark on k8s集群,基于kubeapps,简单便捷且一步到胃:
summerking
2022/10/27
1.3K0
k8s安装spark
相关推荐
k8s 写入hudi表快速测试指南
更多 >
交个朋友
加入数据技术工作实战群
获取实战干货 交流技术经验
加入数据技术趋势交流群
大数据技术前瞻 数据驱动业务实践
加入[游戏服务器] 腾讯云官方交流站
游戏服运维小技巧 常见问题齐排查
换一批
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验