Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Airflow Dag可视化管理编辑工具Airflow Console

Airflow Dag可视化管理编辑工具Airflow Console

作者头像
Ryan-Miao
发布于 2020-07-30 07:10:23
发布于 2020-07-30 07:10:23
4.2K10
代码可运行
举报
文章被收录于专栏:Ryan MiaoRyan Miao
运行总次数:0
代码可运行

Airflow Console: https://github.com/Ryan-Miao/airflow-console

Apache Airflow扩展组件, 可以辅助生成dag, 并存储到git仓库.

Airflow提供了基于python语法的dag任务管理,我们可以定制任务内容 和任务依赖. 但对于很多数据分析人员来说,操作还是过于复杂. 期望可以 通过简单的页面配置去管理dag. 即本项目提供了一个dag可视化配置管理方案.

如何使用

一些概念

DAG: Airflow原生的dag, 多个任务依赖组成的有向无环图, 一个任务依赖链。

Ext Dag: DAG扩展, DAG生成模板,通过页面配置Ext Dag可以一键生成DAG python配置。

Ext Dag Category: Airflow原生不提供分类的概念,但Console我们扩展了分类功能, 我们创建不同Dag模板可以分属于不同的DAG分类。

Ext Dag Task: Ext Dag的任务,真正任务的封装体,分为Operator和Sensor, 可以组装成Ext Dag.

1.创建业务分类.

我们的调度任务可以根据业务进行分类. 首先创建我们的业务类型.

2.创建dag

3.创建任务

点击task按钮进入task列表, 再点击add添加一个任务.

添加bash任务

添加hive sql任务

添加hive出库到mysql任务, 对应的插件为hive_to_rdbms_operator

4.配置任务依赖关系

Airflow提供了任务上下游依赖的管理方案,具体就是使用python的 >> 语法

a >> b 表示a的{{ds}}的任务执行完毕才可以执行b.

点击更新按钮保存依赖关系.

5.生成dag.py脚本

点击提交按钮, 生成python脚本预览.

确认没有问题后, 提交就可以将dag保存的git仓库. Airflow那边定时拉取git更新即可.

本地启动

通过docker-airflow

启动airflow, 暴露pg端口和webserver端口, docker-compose.yml

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
cd doc
docker-compose up

启动后访问localhost:8090即airflow初始化完成.

  1. 修改本项目db

修改application-dev.yml中DataSource的url host为localhost.

  1. 导入db

schema.sql导入pg.

  1. 启动本项目

访问localhost:8081/api 即swagger地址.

  1. 启动web
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020-07-29 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
1 条评论
热度
最新
这个还能用吗? 我怎么看不懂这个安装流程。。。
这个还能用吗? 我怎么看不懂这个安装流程。。。
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
Airflow 实践笔记-从入门到精通一
数据处理逻辑多,脚本相互依赖强,运维管理监测难,怎么办?!为了解决这些问题,最近比较深入研究Airflow的使用方法,重点参考了官方文档和Data Pipelines with Apache Airflow,特此笔记,跟大家分享共勉。
大数据技术架构
2022/06/14
5.7K0
Airflow 实践笔记-从入门到精通一
调度系统Airflow的第一个DAG
Airflow的第一个DAG 考虑了很久,要不要记录airflow相关的东西, 应该怎么记录. 官方文档已经有比较详细的介绍了,还有各种博客,我需要有一份自己的笔记吗? 答案就从本文开始了. 本文将从
Ryan-Miao
2019/09/10
2.7K0
调度系统Airflow的第一个DAG
认识Airflow的DAG
前文Airflow的第一个DAG已经跑起来了我们的第一个任务. 本文就来丰富这个任务.
Ryan-Miao
2019/09/30
2.4K0
认识Airflow的DAG
Apache Airflow-编写第一个DAG
Apache Airflow: Write your first DAG in Apache Airflow
DevOps云学堂
2022/12/29
1.8K0
Apache Airflow-编写第一个DAG
调度系统Airflow1.10.4调研与介绍和docker安装
随着公司调度任务增大,原有的,基于crontab和mysql的任务调度方案已经不太合适了,需要寻找一个可以支持分布式扩容的调度系统解决方案。
Ryan-Miao
2019/08/27
2K0
调度系统Airflow1.10.4调研与介绍和docker安装
Apache Airflow单机/分布式环境搭建
Apache Airflow是一个提供基于DAG(有向无环图)来编排工作流的、可视化的分布式任务调度平台(也可单机),与Oozie、Azkaban等调度平台类似。Airflow在2014年由Airbnb发起,2016年3月进入Apache基金会,在2019年1月成为顶级项目。Airflow采用Python语言编写,并提供可编程方式定义DAG工作流(编写Python代码)。当工作流通过代码来定义时,它们变得更加可维护、可版本化、可测试和协作。
端碗吹水
2022/01/12
4.7K0
Apache Airflow单机/分布式环境搭建
如何轻松做数据治理?开源技术栈告诉你答案
搭建一套数据治理体系耗时耗力,但或许我们没有必要从头开始搞自己的数据血缘项目。本文分享如何用开源、现代的 DataOps、ETL、Dashboard、元数据、数据血缘管理系统构建大数据治理基础设施。
NebulaGraph
2022/12/27
3.1K0
如何轻松做数据治理?开源技术栈告诉你答案
Airflow自定义插件, 使用datax抽数
Airflow之所以受欢迎的一个重要因素就是它的插件机制。Python成熟类库可以很方便的引入各种插件。在我们实际工作中,必然会遇到官方的一些插件不足够满足需求的时候。这时候,我们可以编写自己的插件。不需要你了解内部原理,甚至不需要很熟悉Python, 反正我连蒙带猜写的。
Ryan-Miao
2019/10/01
3.3K0
Airflow 实践笔记-从入门到精通二
数据处理逻辑多,脚本相互依赖强,运维管理监测难,怎么办?!为了解决这些问题,最近比较深入研究Airflow的使用方法,重点参考了官方文档和Data Pipelines with Apache Airflow,特此笔记,跟大家分享共勉。
大数据技术架构
2022/06/14
2.9K0
Airflow 实践笔记-从入门到精通二
Airflow速用
Airflow是Apache用python编写的,用到了 flask框架及相关插件,rabbitmq,celery等(windows不兼容);、
用户1558882
2019/10/31
5.6K0
大数据调度平台Airflow(五):Airflow使用
以上python文件就是Airflow python脚本,使用代码方式指定DAG的结构
Lansonli
2022/03/29
12K2
大数据调度平台Airflow(五):Airflow使用
大数据调度平台Airflow(六):Airflow Operators及案例
Airflow中最重要的还是各种Operator,其允许生成特定类型的任务,这个任务在实例化时称为DAG中的任务节点,所有的Operator均派生自BaseOparator,并且继承了许多属性和方法。关于BaseOperator的参数可以参照:
Lansonli
2022/03/29
8.3K2
大数据调度平台Airflow(六):Airflow Operators及案例
你不可不知的任务调度神器-AirFlow
Airflow 是一个编排、调度和监控workflow的平台,由Airbnb开源,现在在Apache Software Foundation 孵化。AirFlow 将workflow编排为tasks组成的DAGs,调度器在一组workers上按照指定的依赖关系执行tasks。同时,Airflow 提供了丰富的命令行工具和简单易用的用户界面以便用户查看和操作,并且Airflow提供了监控和报警系统。
王知无-import_bigdata
2021/01/06
3.8K0
你不可不知的任务调度神器-AirFlow
0613-Airflow集成自动生成DAG插件
Airflow的DAG是通过python脚本来定义的,原生的Airflow无法通过UI界面来编辑DAG文件,这里介绍一个插件,通过该插件可在UI界面上通过拖放的方式设计工作流,最后自动生成DAG定义文件。
Fayson
2019/05/13
6K2
0613-Airflow集成自动生成DAG插件
用 Kafka、Spark、Airflow 和 Docker 构建数据流管道指南
在本指南中,我们将深入探讨构建强大的数据管道,用 Kafka 进行数据流处理、Spark 进行处理、Airflow 进行编排、Docker 进行容器化、S3 进行存储,Python 作为主要脚本语言。
大数据杂货铺
2023/11/27
1.3K0
用 Kafka、Spark、Airflow 和 Docker 构建数据流管道指南
OpenTelemetry实现更好的Airflow可观测性
Apache Airflow是一个编排平台,用于以编程方式编写、安排和执行工作流。OpenTelemetry开放遥测用于生成、收集和导出遥测数据(指标、日志和跟踪),以帮助您分析软件的性能和行为。这两个开源项目看起来很自然,随着 Airflow 2.7 的推出,用户现在可以开始在 Airflow 中利用 OpenTelemetry Metrics!
DevOps云学堂
2023/10/07
5710
OpenTelemetry实现更好的Airflow可观测性
AIRFLow_overflow百度百科
Airflow 是一个 Airbnb 的 Workflow 开源项目,使用Python编写实现的任务管理、调度、监控工作流平台。Airflow 是基于DAG(有向无环图)的任务管理系统,可以简单理解为是高级版的crontab,但是它解决了crontab无法解决的任务依赖问题。与crontab相比Airflow可以方便查看任务的执行状况(执行是否成功、执行时间、执行依 赖等),可追踪任务历史执行情况,任务执行失败时可以收到邮件通知,查看错误日志。
全栈程序员站长
2022/11/01
2.3K0
AIRFLow_overflow百度百科
大数据调度平台Airflow(二):Airflow架构及原理
Airflow我们可以构建Workflow工作流,工作流使用DAG有向无环图来表示,DAG指定了任务之间的关系,如下图:
Lansonli
2022/03/29
6.6K1
大数据调度平台Airflow(二):Airflow架构及原理
Airflow配置和使用
Airflow能做什么 Airflow是一个工作流分配管理系统,通过有向非循环图的方式管理任务流程,设置任务依赖关系和时间调度。 Airflow独立于我们要运行的任务,只需要把任务的名字和运行方式提供给Airflow作为一个task就可以。 安装和使用 最简单安装 在Linux终端运行如下命令 (需要已安装好python2.x和pip): pip install airflow pip install "airflow[crypto, password]" 安装成功之后,执行下面三步,就可以使用了。默认是使
生信宝典
2018/02/05
14K0
Airflow2.2.3 + Celery + MYSQL 8构建一个健壮的分布式调度集群
前面聊了Airflow基础架构🔗,以及又讲了如何在容器化内部署Airflow🔗,今天我们就再来看看如何通过Airflow和celery构建一个健壮的分布式调度集群。 1集群环境 同样是在Ubuntu 20.04.3 LTS机器上安装Airflow集群,这次我们准备三台同等配置服务器,进行测试,前篇文章🔗[1]中,我们已经在Bigdata1服务器上安装了airflow的所有组件,没看过的可以点击链接先看下之前的文章,现在只需要在其他两个节点安装worker组件即可。 Bigdata1(A) Bigdata2
公众号: 云原生生态圈
2022/02/16
1.9K0
Airflow2.2.3 + Celery + MYSQL 8构建一个健壮的分布式调度集群
相关推荐
Airflow 实践笔记-从入门到精通一
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验