我想使用气流来协调作业,包括运行一些猪脚本,shell脚本和火花作业。
主要是关于星火作业,我想使用Apache,但不确定使用还是运行火花提交是个好主意。
什么是最好的方式跟踪火花工作使用气流,如果我甚至提交?
发布于 2019-01-16 21:29:26
我假设您是一个应用程序JAR
,其中包含要提交给远程Spark
集群的Java
/ Scala
代码。可以说,在根据其他可能性进行评估时,Livy
是远程的最佳选择:
master
IP:修改全局配置/环境变量的需要SSHOperator
:SSH
连接的可能会中断EmrAddStepsOperator
:的 EMR
的关于跟踪
Livy
只有报告 state
和not progress (各阶段完成百分比)Livy
API轮询REST
服务器,并在控制台中继续打印日志,这些日志将出现在WebUI (View Logs
)中的任务日志中。其他考虑因素
Livy
不支持为POST/batches
请求重用SparkSession
PySpark
编写应用程序代码并使用POST/session
请求参考文献
有用的链接
https://stackoverflow.com/questions/54228651
复制