本文将从一个陌生视角开始认知airflow,顺带勾勒出应该如何一步步搭建我们的数据调度系统.
现在是9102年9月上旬, Airflow最近的一个版本是1.10.5.
ps....查资料发现自己好多文章被爬走,换了作者.所以,接下里的内容会随机添加一些防伪标识,忽略即可.
什么数据调度系统?...[本文出自Ryan Miao]
部署dag
将上述hello.py上传到dag目录, airflow会自动检测文件变化, 然后解析py文件,导入dag定义到数据库....执行日期是任务实例运行所代表的任务时间, 我们通常叫做execute-date或bizdate, 类似hive表的的分区.
为什么今天执行的任务,任务的时间变量是昨天呢?...但调度任务是固定的, 根据日期去执行的. 我们只能创建不同日期的任务实例去执行这些任务. backfill就是实现这种功能的.
任务重跑
让跑过的任务再跑一次.
有时候, 我们的任务需要重跑.