事件介绍
“流计算快照失败” 事件表示当作业启用了周期快照(Checkpoint)后,某次快照因为超时等各类原因未能完成。
对于长时间运行的作业,偶尔一次的快照失败事件可能并不意味着作业出现了严重异常,只有当快照频繁失败时才需要针对具体情况进行应对。例如在 Flink UI 的 Checkpoints 面板中,某作业的快照 ID 6717发生失败时,显示如下图:
判定标准
事件的触发条件
作业的某次快照未能完成,快照的最终状态为
FAILED
。事件的恢复条件
作业后续有一次快照成功完成,快照的最终状态为
COMPLETED
。告警配置
处理建议
在事件面板,可以查看快照失败事件发生的原因。这里根据 Flink 执行链路的不同,可能显示出快照失败的直接原因,也有可能是一些较为泛化的报错,需要进一步分析。
如果上述诊断仍然未能发现问题所在,则可以通过 查看作业监控信息 来判断是否出现了资源超用等问题。特别地,可以重点关注 TaskManager 的 CPU 用量、堆内存用量、Full GC 次数和时间等指标,检查是否存在明显异常。