腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(3381)
视频
沙龙
1
回答
如
何在
Airflow
中
使用
pythonOpearator
和
BranchPythonOperator
提交
spark
作业
、
Task1:应该只在星期天执行Task2:应该每天执行 任务将包含
提交
spark
作业
的命令 我正在寻找示例DAG文件
浏览 55
提问于2021-08-20
得票数 0
2
回答
SparkSubmitOperator与SSHOperator在
airflow
中
提交
pyspark应用程序的比较
、
、
、
我有不同的
spark
和
airflow
服务器。我没有在
airflow
服务器上安装
spark
二进制文件。我能够很好地
使用
SSHOperator并在集群模式下运行
spark
作业
。我想知道从长远来看,
使用
SSHOperator或SparkSubmitOperator
提交
pyspark
作业
会有什么好处。任何帮助都会提前表示感谢。
浏览 9
提问于2020-06-25
得票数 1
2
回答
如何
使用
AirFlow
提取
使用
Apache批处理POST方法
提交
的火花
作业
客户端日志
、
、
我正在
使用
Apache批处理POST方法
提交
Spark
作业
。
使用
Apache可以这样做吗?
浏览 4
提问于2019-01-20
得票数 4
回答已采纳
1
回答
AWS EMR上的
Airflow
Livy
作业
转包
、
、
、
、
我们正在
使用
Airflow
来计划我们在电子病历上的
作业
,目前我们想
使用
apache Livy通过
Airflow
提交
Spark
作业
,我需要更多的指导如下:哪种
Airflow
-Livy操作符我们应该用于python、3+、pyspark
和
scala
作业
。我看过以下内容:
和
想知道更多关于稳定的AirflowLivy操作符,任何人在生产中
使用
,可能是在亚马逊网络服务堆栈
浏览 4
提问于2020-04-13
得票数 0
1
回答
如
何在
Airflow
中将文件作为参数传递到SparkSubmitOperator
、
Spark
提交
命令
spark
-submit --class=com.test.App /home/ubuntu/app.jar /home/ubuntu/abc.properties 用于安排
spark
作业
的
Airflow
脚本 from
airflow
import DAGfrom
airflow
.cont
浏览 134
提问于2019-01-04
得票数 0
回答已采纳
1
回答
为什么火花执行者还没死
、
、
、
这是我的设置: 运行
airflow
的Kubernetes集群将
spark
作业
提交
给Kubernetes集群,
作业
运行良好,但是容器应该在完成任务后死亡,但它们仍然挂在那里。cluster.Dag上出现的气流设置是在气流对接器图像
中
烘焙的,因为不知何故,我无法将达格与s3同步。由于某些原因,cron无法运行。将
spark
作业
提交
给K8S集群,
作业
运行良好。,但现在它没有在执行
和
完成
作业</em
浏览 1
提问于2019-09-17
得票数 0
1
回答
有没有办法在运行master的不同服务器上
提交
spark
作业
、
、
我们需要安排
spark
作业
,因为我们熟悉apache-
airflow
,所以我们想继续
使用
它来创建不同的工作流。我在网上搜索,但没有找到一步一步的指南,以安排
spark
作业
的
airflow
和
选项,以运行它们在不同的服务器运行主机。 对此问题的回答将受到高度赞赏。提前谢谢。
浏览 4
提问于2018-11-17
得票数 8
回答已采纳
1
回答
Spark
提交
成功,但
Airflow
Bash Operator失败,退出代码127
、
、
、
、
我正在
使用
airflow
bash操作符来运行
spark
-submit
作业
。
spark
作业
需要一些参数。最后一个参数是一个字符串,可以
使用
",“
和
"|”split将其转换为嵌套数组。
提交
命令示例:
spark
-submit --verbose --master yarn --deploy-mode cluster --queue some_queue job.jar <dt> <
浏览 12
提问于2018-08-31
得票数 0
1
回答
Apache
Airflow
-必须在环境
中
设置HADOOP_CONF_DIR或YARN_CONF_DIR,才能
使用
主‘yarn- -When’运行
Spark
提交
失败的客户端
、
、
、
、
我是
Spark
和
Airflow
的新手,正在尝试创建一个在pyspark
中
运行
spark
提交
作业
的DAG。在我的Ubuntu系统
中
,我创建了一个名为'hadoopusr‘的用户,我通过它手动运行我的
spark
提交
。所有环境变量都是在此用户下在<code>D0</code>
中
设置的。当我从终端手动运行
spark
-submit时,
作业<
浏览 162
提问于2019-12-04
得票数 0
1
回答
从气流
作业
执行SparkSubmitOperator错误
、
、
、
背景:我创建了一个新的气流
作业
/任务DAG,其中我正在
使用
SparkSubmitOperator。我正在运行星火和气流在我的桌面(版本等以下)。DAG可以正常工作,直到它到达火花
作业
的
提交
部分为止。我尝试
使用
以下选项更改连接。无论我尝试什么,我都会在气流日志
中
收到以下消息。问题:是什么阻止气流识别
和
浏览 5
提问于2020-03-18
得票数 1
1
回答
气流-如何
使用
非退出命令运行KubernetesPodOperator
、
、
、
、
我正在尝试设置一个DAG,它将在第一个任务
中
创建一个星火集群,在临时任务
中
向集群
提交
Spark
应用程序,并在最后一个任务中最终删除
spark
集群。我现在正在尝试的方法是
使用
KubernetesPodOperators来创建
Spark
和
Worker。问题是,它们运行的是一个从未退出的星火守护进程。事实上,调用豆荚的命令永远不会退出,这意味着这些任务在运行阶段被困在气流
中
。所以,我想知道是否有一种方法运行星火守护进程,然后继续执行DAG<
浏览 2
提问于2020-01-15
得票数 1
回答已采纳
1
回答
使用
AWS Step函数编制
作业
的EMR
、
、
最近,亚马逊推出了,我想重新定位
使用
的现有数据管道编排:有一些步骤可以创建EMR集群、运行一些lambda函数、
提交
火花
作业
(大部分是Scala
作业
使用
火花
提交
),并最终终止集群。有些文档
和
github示例描述了从编排框架(
如
AirFlow
)
提交
作业
的情况,但没有描述如
何在
EMR中
使用
AWS函数。在这方面的任何帮助都将受到赞赏。首先,我感兴趣的是重新定义arn:
浏览 7
提问于2022-06-10
得票数 1
1
回答
是否可以在SparkSubmitOperator
Airflow
DAG
中
对应用程序JAR名称
使用
通配符?
我有一个气流DAG,我用它来
提交
一个
spark
作业
,为此我
使用
了SparkSubmitOperator。在DAG
中
,我必须指定需要运行的应用程序JAR。目前,它被硬编码为
spark
-job-1.0.jar,如下所示: from
airflow
.contrib.operators.
spark
_submit_operatortotal_executor_cores='1'
浏览 12
提问于2020-05-23
得票数 0
回答已采纳
3
回答
使用
Airflow
dag创建EMR群集运行,一旦任务完成,EMR将终止
、
、
、
我有
Airflow
作业
,它们在EMR集群上运行得很好。我需要的是,假设我有4个
airflow
作业
,需要EMR集群20分钟才能完成任务。为什么不呢?我们可以在DAG运行时创建一个EMR集群,一旦
作业
完成,它将终止创建的EMR集群。
浏览 4
提问于2019-03-19
得票数 2
3
回答
如
何在
Airflow
中
运行
Spark
代码?
、
、
、
、
我正在
使用
Airflow
来安排
和
运行
Spark
任务。到目前为止,我发现的是
Airflow
可以管理的python DAG。DAG示例:import logging from
airflow
.operators import PythonOperatorfrom datetime import datetime 'owner
浏览 0
提问于2016-10-03
得票数 41
回答已采纳
1
回答
气流SparkSubmitOperator因java.lang.ClassNotFoundException而失败: org.apache.
spark
.examples.SparkPi级
、
、
我正在尝试
使用
气流来触发本地星火独立点上的
spark
-examples.jar,但我总是遇到异常。当我在终端上手动
提交
相同的
作业
时,它工作如下: --class org.apache.
spark
.examples.SparkPi \ 1000 我将复制到$
SPARK
浏览 1
提问于2018-08-01
得票数 0
回答已采纳
2
回答
气流kubernetes火花
作业
提交
重试任务组,而不仅仅是传感器
、
、
每个TaskGroup有两个任务:t1
使用
spark
部署yaml文件向kubernetes集群
提交
spark
作业
。我有这种情况,然后
提交
火花
作业
出错: UnknownHostException,这是我想重试的时候,但是我想重试整个TaskGroup,而不仅仅是t2。 我现在不可能重试整个TaskGroup。如何通过气流2.3.3正确地重试<em
浏览 20
提问于2022-09-01
得票数 0
2
回答
如
何在
气流中将args传递给DataprocSubmitJobOperator?
、
、
我有一个
Spark
作业
,它将参数作为键值对,并将其映射到代码
中
,如下所示:gcloud dataproc jobs submit
spark
--async --project testing-
airflow
,我们尝试将其与dataproc
作业
浏览 49
提问于2021-10-13
得票数 2
2
回答
火花调度模式
和
应用队列有什么区别?
、
、
、
在测试多个
作业
同时运行或稍后
提交
的较小
作业
时火花
作业
的行为时。我在
spark
中
遇到了两个设置。一种是可用的调度模式,如下图所示:其中一个在调度程序
中
,如下所示 我想了解两个设置
和
抢占之间的区别。我的要求是,在处理更大的工作时,在两者之间
提交
的小工作必须获得资源,而不需要等待更长时间。
浏览 2
提问于2016-08-10
得票数 1
回答已采纳
1
回答
如何
使用
Airflow
重新启动失败的结构化流
spark
作业
?
、
、
、
我需要在AWS EMR
中
运行结构化流
spark
作业
。作为弹性需求,如果
spark
作业
由于某些原因而失败,我们希望
spark
作业
可以在EMR
中
重新创建。类似于ECS
中
的任务编排,如果健康检查失败,可以重启任务。然而,EMR更多是一个计算引擎,而不是编排系统。 我正在寻找一些大数据工作流程编排工具,例如
Airflow
。但是,它不能支持DAG
中
的循环。
浏览 44
提问于2020-07-13
得票数 1
回答已采纳
点击加载更多
相关
资讯
大数据任务调度平台选型建议
Komodo Health 公司如何在 EKS 与 EMR 6 上使用多租户 Notebook 平台建立自助服务分析方案
从入门到精通-Fayson带你玩转CDH
0483-如何指定PySpark的Python运行环境
0485-如何在代码中指定PySpark的Python运行环境
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券