功能介绍
作业的运行期会有各类的事件发生,例如启动事件、作业运行失败事件、快照失败事件,以及其他各类异常事件等。我们在控制台提供了一个综合的事件面板,用户可以查看和订阅这些关键事件。
在事件面板,用户可以选择希望查看的事件类型,并按运行实例 ID 和时间范围来进一步筛选查看的事件列表。如果希望清除查询条件,可以单击重置筛选条件来恢复默认设置,并再次拉取最新的事件。
注意
为了避免返回事件过多,我们限定用于筛选的连续时间段最长为7天,且最多能查看近90天的事件。
事件分类
作业启动、停止事件
当用户在作业操作菜单选择运行,以及单击开发调试页面的发布草稿,或者作业崩溃退出被检测到时,系统会尝试启动该作业,并自动为本次运行创建一个新的实例 ID;随后在事件面板中,可以看到一个新的启动事件。当用户停止、重启作业,或者作业发生了崩溃并退出,则会在本次实例 ID 下,产生一条停止事件。作业启动时间和停止时间指的是内部流程执行完成的时间点,而非用户界面上点击操作的时间点。
作业运行失败、恢复事件
当作业运行时发生了重启(由运行中
RUNNING
状态变成 重启中 RESTARTING
或 失败 FAILED
等异常状态),则会生成一条“发生作业失败”事件。如果后续作业又进入了 RUNNING
状态,则会生成一条“作业失败已恢复”事件。快照失败、恢复事件
如果作业启用了周期性快照,且在某次快照过程中发生了失败,则会生成一次“发生快照失败”事件。如果后续快照成功完成,则会生成一条“快照失败已恢复”事件。
各类作业异常事件(BETA)
流计算 Oceanus 后台会持续监测和分析作业的运行状态,当作业遇到严重异常时(例如 TaskManager Full GC 过久、CPU 占用率长期过高、Pod 异常退出等),会推送相应事件以供用户查看和订阅,以此可判断作业的运行健康度。
注意
为了避免干扰用户,目前作业异常事件(Pod 异常退出事件除外)每小时最多推送1条。
该功能当前处于 Beta 预览阶段,仅支持严重问题的检测,且阈值暂不支持调整,后续会逐步升级完善。