首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

在bash脚本中执行时捕获Yarn作业id

,可以通过以下步骤实现:

  1. 首先,确保系统中已经安装了Yarn,并且配置了正确的环境变量。
  2. 在bash脚本中,可以使用以下命令来提交Yarn作业并捕获作业id:
代码语言:txt
复制
job_id=$(yarn application -submit -appType <应用类型> -appname <应用名称> -queue <队列名称> -master <Yarn主节点> -jar <应用jar包路径> <应用参数>)

其中,需要替换以下参数:

  • <应用类型>:指定应用的类型,例如mapreducespark等。
  • <应用名称>:指定应用的名称,可以自定义。
  • <队列名称>:指定作业提交到的队列名称,可以根据实际情况选择。
  • <Yarn主节点>:指定Yarn集群的主节点地址。
  • <应用jar包路径>:指定应用的jar包路径。
  • <应用参数>:指定应用的参数,根据实际需求进行设置。
  1. 执行以上命令后,作业会被提交到Yarn集群,并且会返回一个作业id。该作业id可以通过$job_id来获取。
  2. 如果需要在脚本中进一步使用该作业id,可以将其保存到一个文件中,或者直接在脚本中使用。

以下是一个示例脚本:

代码语言:txt
复制
#!/bin/bash

# 提交Yarn作业并捕获作业id
job_id=$(yarn application -submit -appType mapreduce -appname myjob -queue default -master yarn-cluster -jar /path/to/myjob.jar)

# 打印作业id
echo "Yarn作业id为:$job_id"

# 在脚本中继续使用作业id
# ...

请注意,以上示例中的命令和参数仅供参考,实际使用时需要根据具体情况进行调整。

推荐的腾讯云相关产品:腾讯云容器服务(Tencent Kubernetes Engine,TKE),它是一种高度可扩展的容器管理服务,可帮助您在腾讯云上轻松运行和管理容器化应用程序。您可以通过以下链接了解更多信息:腾讯云容器服务产品介绍

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

技术干货|如何利用 ChunJun 实现数据离线同步?

/etc/profile.d/sh.local ● Yarn 上⾯启动 Flink Session #启动 Flink Session bash $FLINK_HOME/bin/yarn-session.sh...● 实现原理 其实现原理实际上就是配合增量键查询的 sql 语句中拼接过滤条件,⽐如 where id > ? ,将之前已经读取过的数据过滤出去。 增量同步是针对于两个及以上的同步作业来说的。...对于初次⾏增量同步的作业⽽⾔,实际上是整表同步,不同于其他作业的在于增量同步作业会在作业⾏完成后记录⼀个 endLocation 指标,并将这个指标上传到 prometheus 以供后续使⽤。...⽐如第⼀次作业⾏完后,endLocation 为10,那么下⼀个作业就会构建出例如 SELECT id,name,age from table where id > 10 的 SQL 语句,达到增量读取的...● 实现原理 · 基于 Flink 的 checkpoint, checkpoint 的时候 会存储 source 端最后⼀条数据的某个字段值,sink 端插件⾏事务提交。

69710

《Linux命令行与shell脚本编程大全》第十六章 控制脚本

一些控制脚本的方式:向脚本发送信号、修改脚本优先级,脚本行时切换到运行模式  16.1 处理信号 linux利用信号与运行在系统的进程进行通信。...16.1.3 捕获信号 也可以不忽略信号,信号出现时捕获它们并执行相应命令。 trap命令允许你来指定脚本要监看并从shell拦截的linux信号。...如果脚本收到了trap列出的信号,该信号不再由shell处理,而是交由本地处理。 命令格式: trap commands signals 16.1.4 捕获脚本退出 脚本退出时进行捕获。...16.1.5 修改或移除捕获 脚本的不同位置进行不同的捕获处理,需要重新使用带有新选项的trap命令。 修改了信号捕获后,脚本处理信号的方式就会发生变化。 也可以删除以及设置好的捕获。...anacron不会处理执行时间需求小于一天的脚本 16.6.3 使用新的shell启动脚本 如果每次运行脚本的时候都能够启动一个新的bash shell,将会非常的方便。

3K61
  • 【MapReduce】作业调试

    作业调试 History Server开启 因为yarn集群重启之后,作业的历史运行日志和信息就被清理掉了,对于定位历史任务的错误信息很不友好,所以首先开启History Server用于保存所有作业的历史信息...辅助脚本 作业清理&提交 MapReduce任务集群中提交时,如果报错,则需要清理环境,删除jar包和中间编译的文件,并且HDFS删除结果输出目录。...除此之外,java程序的编译和提交也是重复工作,测试过程也可以加到脚本。...所以可以编写一个日志查看脚本,从所有节点查询application id对应的日志并返回。...观察application id,末尾的序号是顺序递增的;虚拟机测试环境,不同于生产环境的严谨,只需要关注末尾的序号即可,比如0001、0002。

    25630

    全勤矿工systemdMiner最新变种利用暗网代理下载恶意模块

    近日,深信服安全团队捕获到一款新型的Linux挖矿木马,该木马通过bash命令下载执行多个功能模块,通过SSH暴力破解、SSH免密登录利用、Hadoop Yarn未授权访问漏洞和自动化运维工具内网扩散,...并将新的会话进程ID写入/tmp/.X11-unix/00文件: ? 执行base64编码的bash命令,共有5个不同的bash命令,分别用于下载不同模块和执行不同的功能: ?...bash-02 内网传播 主要功能为下载脚本卸载安防产品(其中阿里云的安骑士、腾讯云的云镜等产品): ? 下载可执行文件trc和bot: ?...其中trc文件用于Hadoop Yarn未授权访问漏洞利用,运行时会将自身进程ID写入/tmp/.X11-unix/2文件: ? 获取当前所有的节点,并且对本地网络进行漏洞攻击 ?...bash-05 状态控制 下载cmd脚本: ? cmd脚本的命令功能是当主机网络无法连接到矿池时,会结束掉自身的挖矿进程,增强隐蔽性: ?

    1.6K31

    数据中心互联光网络之数据实时计算

    事件⼼则是将⽹络所经历的所有事件准确的记录并汇集⼀起。事件⼼的每个事件需要准确描述⼀个具体的问题,并描述该问题带来的影响。...可以通过多种方式启动 JobManager 和 TaskManager:直接在机器上作为standalone 集群启动、容器启动、或者通过YARN或Mesos等资源框架管理并启动。...数据实时计算平台传统的离线批处理场景,⽤户⾸先需要将数据存放到数据库或者数据仓库,之后通过发送查询语句来对数据进⾏分析,并根据查询结果进⾏下⼀步的⾏动。...Flink 集群可以同时运行多个作业,每个作业都有自己的 JobMaster。始终至少有一个 JobManager。...图片实时计算逻辑实时计算其实是满⾜⼀定吞吐量的情况下,尽可能的降低⾏任务的延迟。

    40730

    数据中心互联光网络之数据实时计算

    事件⼼则是将⽹络所经历的所有事件准确的记录并汇集⼀起。事件⼼的每个事件需要准确描述⼀个具体的问题,并描述该问题带来的影响。...可以通过多种方式启动 JobManager 和 TaskManager:直接在机器上作为standalone 集群启动、容器启动、或者通过YARN或Mesos等资源框架管理并启动。...数据实时计算平台 传统的离线批处理场景,⽤户⾸先需要将数据存放到数据库或者数据仓库,之后通过发送查询语句来对数据进⾏分析,并根据查询结果进⾏下⼀步的⾏动。...Flink 集群可以同时运行多个作业,每个作业都有自己的 JobMaster。 始终至少有一个 JobManager。...实时计算逻辑 实时计算其实是满⾜⼀定吞吐量的情况下,尽可能的降低⾏任务的延迟。

    33720

    Hive作业产生的临时数据占用HDFS空间大问题处理

    测试环境 1.CM和CDH版本为5.15 2 Hive作业临时目录说明 Hive作业在运行时会在HDFS的指定目录下生成作业临时或中间数据集存储目录,此临时目录路径有hive-site.xml配置的hive.exec.scratchdir...及更高版本默认值为:/tmp/hive/${user.name} 当前Fayson的CDH5.15.0Hive版本为1.1.0,Hive作业的临时或中间数据集HDFS的/tmp/hive/${user.name.../bin/bash kinit -kt /opt/cloudera/clean/hdfs.keytab hdfs/cdh3.fayson.com@FAYSON.COM yarn jar /opt/cloudera...3.Linux配置crontab定时任务,脚本如下: [root@cdh3 ~]# chmod +x /opt/cloudera/clean/hive-clean.sh [root@cdh3 ~]...4 总结 1.Hive作业在运行时会将临时或中间结果存储HDFS,如果Hive客户端作业异常退出会导致HDFS上存储的临时数据不能被清除而导致HDFS空间被占用。

    7.8K40

    Hadoop3.0集群安装知识

    系统范围的shell环境配置配置HADOOP_HOME也是很传统的。 例如,/etc/profile.d的一个简单的脚本: [Bash shell] 纯文本查看 复制代码 ?...RM提交作业 如果设置host:port ,会覆盖yarn.resourcemanager.hostname设置的hostname yarn.resourcemanager.scheduler.address...管理员可以通过脚本执行任何选择检查来确定节点是否处于健康状态。如果脚本检测到节点处于不健康状态,则必须以字符串ERROR打印一行到标准输出。 NodeManager定期生成脚本并检查其输出。...引导磁盘被攻击,或者引导磁盘的故障由运行状况检查程序脚本识别。 Slaves文件 etc/hadoop/workers文件,列出所有的worker的hostname或则IP地址。一行一个。...[yarn]$ $HADOOP_HOME/bin/yarn --daemon start resourcemanager 运行一个脚本每个指定的主机上启动一个NodeManager: [Bash

    1.3K70

    【Dr.Elephant中文文档-4】开发者指南

    1.Dr.Elephant设置 请按照快速安装说明操作 2.先决条件 2.1.Play/Activator 参照快速安装说明操作的Step 3 2.2.Hadoop/Spark on Yarn 为了本地部署...关于伪分布式模式 YARN 上运行 MapReduce 作业相关说明可以在这里(https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common...Elephant的全部功能,需要提供以下 4 个ID 作业定义 ID: 整个作业流程定义的唯一 ID。...Elephant将无法捕获作业的历史数据。同样,如果没有提供 Flow 定义 Id,则无法捕获工作流的历史记录。如果没有上述所有链接,Dr....Elephant只能在执行过程(Mapreduce 作业级别)显示作业的性能数据。 除了上述的 4 个 ID 之外,Dr.

    1.2K20

    Kettle构建Hadoop ETL实践(七):定期自动执行ETL作业

    /bin/sh source /etc/profile 当手动执行脚本没问题,但是crontab不执行时,可以尝试crontab中直接引入环境变量解决问题,例如: 0 * * * * ....从调度的角度看,如果使用crontab的方式调用多个工作流作业,可能需要编写大量的脚本,还要通过脚本来控制好各个工作流作业的执行时序问题,不但不好维护,而且监控也不方便。...图7-3 运行的作业 点击“Active Jobs”标签,会看到表格只有一行,就是我们刚运行的工作流作业。Job Id是系统生成的作业号,它唯一标识一个作业。...这个页面和图7-4所示的是同一个页面,但这时“Parent Coord”字段显示了协调器作业的Job Id。 ? 图7-10 工作流作业详细信息 5....(5)合并HiveQL脚本 可以将某些步骤合并到同一个HiveQL脚本,这会降低Oozie轮询YARN的开销。

    6.1K54

    如何在Oozie创建有依赖的WorkFlow

    脚本需要一个keytab,生成一个hiveadmin.keytab文件 [root@cdh01 ~]# kadmin.local Authenticating as principal hbase/admin...4.创建Coordinator ---- Hue创建Oozie的Coordinator即对应Hue的功能为Scheduler ?...2.通过Yarn查看作业的执行情况,这里的作业已经执行成功了,我们通过时间来分析 ? 3.通过GeneratorWorkflow工作流的作业执行情况可以看到 ?...00GeneratorWorkflow工作流执行成功,生成了/benchmarks/wordcount/input目录的数据后,WordCountWorkFlow工作流才开始执行,可以看到WordCount作业的开始执行时间为...GeneratorWorkflow工作流执行成功后与WordCountWorkFlow的执行时间间隔为1分钟,即为我们WordCountSchedule配置的每个一分钟检查一次。

    6.5K90

    Hadoop3.0分布式集群安装知识

    系统范围的shell环境配置配置HADOOP_HOME也是很传统的。 例如,/etc/profile.d的一个简单的脚本: [Bash shell] 纯文本查看 复制代码 ?...RM提交作业 如果设置host:port  ,会覆盖yarn.resourcemanager.hostname设置的hostname yarn.resourcemanager.scheduler.address...管理员可以通过脚本执行任何选择检查来确定节点是否处于健康状态。如果脚本检测到节点处于不健康状态,则必须以字符串ERROR打印一行到标准输出。 NodeManager定期生成脚本并检查其输出。...引导磁盘被攻击,或者引导磁盘的故障由运行状况检查程序脚本识别。 Slaves文件 etc/hadoop/workers文件,列出所有的worker的hostname或则IP地址。一行一个。...1 [yarn]$ $HADOOP_HOME/bin/yarn --daemon start resourcemanager 运行一个脚本每个指定的主机上启动一个NodeManager: [Bash

    2K50

    如何使用java命令从非集群节点向CDH集群提交MapReduce作业

    conf文件以及生成keytab,并知道代码如何引用,否则请仔细阅读《如何使用hadoop命令向CDH集群提交MapReduce作业》和《如何跨平台本地开发环境提交MapReduce作业到CDH集群...] 4.非Kerberos集群提交作业 ---- 这里由于测试集群数量有限,所以Kerberos集群向非Kerberos集群提交作业 1.命令行向非Kerberos集群提交作业 [ec2-user@...ip-172-31-22-86 mrdemo]$ sh run_nonekb.sh [o83wu33k9m.jpeg] 2.Yarn界面查看作业运行成功 [lqc8w0z2sx.jpeg] 3.查看HDFS...1.执行run.sh脚本向Kerberos集群提交作业 [gavy9gg7kj.jpeg] 2.查看Yarn界面作业运行成功 [gs6wsb5133.jpeg] 3.查看HDFS输出的结果 [i2pos6xgvc.jpeg...] 6.总结 ---- 这里需要注意的是我们使用java命令向集群提交MapReduce作业我们的代码需要加载CDH集群的配置信息(如core-site.xml、hdfs-site.xml、yarn-site.xml

    1K60

    电商数仓6.0组件之虚拟机搭建Hadoop3.X

    MapReduce: Hadoop 的计算框架,负责处理存储 HDFS 的数据。作业被分为两个阶段:Map 和 Reduce。 Mapper: 处理输入数据并生成中间键值对。...NodeManager 每个节点上监控运行的任务状态,确保资源得到合理利用。 数据处理: 当任务执行时,Mapper 开始处理存储 HDFS 的数据块,并生成中间结果。...hadoop102 ssh-copy-id hadoop103 ssh-copy-id hadoop104 # 互信测试成功之后进行以下操作 # 如果需要重新格式化Hadoop需要对于Hadoop的...core-site.xml的hadoop.tmp.dir属性把对应的tmp文件删除掉 # hadoop102下格式化namenode hdfs namenode -format 目录下创建一键启动脚本.../bin/bash # 启动 DFS start-dfs.sh # 启动 YARN ResourceManager ssh hadoop103 "source /etc/profile;/

    8520

    Spark

    Driver:   一个Spark作业行时包括一个Driver进程,也是作业的主进程,具有main函数,并且有SparkContext的实例,是程序的入口点。   ...  3)Container的运行是由ApplicationMaster向资源所在的NodeManager发起的,Container运行时需提供内部执行的任务命令. 2 Spark提交作业参数   1)...举例:⽹络服务器⽇志,事件可能是对⽹站的访问,此时键是⽤户的ID。使⽤UpdateStateByKey()可以跟踪每个⽤户最近访问的10个页⾯。...如果你要切换到第⼆种和第三种模式,将之前提交spark应⽤程序的spark-submit脚本,加上–master参数,设置为yarncluster,或yarn-client即可。...(⽐如说,有些dstream或者job⾏到了哪个步骤),如果后⾯,不幸,因为某些原因导致driver节点挂掉了;那么可以让spark集群帮助我们⾃动重启driver,然后继续运⾏实时计算程序,并且是接着之前的作业继续

    31530

    yarn container的进程以及kill动作的逻辑

    【背景】 一次问题排查过程,误杀了yarn任务container的其中一个进程,导致yarn application kill不再生效,并且rm任务状态显示为失败,但实际进程还在运行。...【yarn任务相关的进程】 yarn,任务提交时(不管是AM还是任务container),会指定任务的启动命令,对于AM而言,由客户端提交任务时指定,对于任务container,由AM来指定。...首先,shell,执行任何一个命令(程序)都是以创建一个新进程的方式来运行的。因此方式1,一共有两个进程,一个是"executor.sh"脚本自身的进程,另外一个是运行main程序的进程。...因此方式2,只有一个进程。...而这么做的意义在于,第一次发送TERM信号,让AM有机会捕获该信号,进行相应的清理动作,比如清除HDFS中上传的资源文件。第二次发送KILL信号,则是确保对应的进程强制结束。

    86330
    领券