通过查阅监控指标一览,您可以了解到监控指标中每个指标的指标含义。这有助于您更好的使用 Oceanus 的监控功能。
监控指标一览
注意
指标中文名 | 指标含义 | 示例值 |
作业每秒输入的记录数 | 作业所有数据源(Source)每秒输入的数据总条数 | 22478.14 Record/s |
作业每秒输出的记录数 | 作业所有数据目的(Sink)每秒输出的数据总条数 | 12017.09 Record/s |
作业每秒输入的数据量 | 作业所有数据源(Source)每秒输入的数据总量(仅对 Kafka Source 有效) | 786576 Byte/s |
作业每秒输出的数据量 | 作业所有数据目的(Sink)每秒输出的数据总量(仅对 Kafka Sink 有效) | 156872 Byte/s |
算子计算总耗时 | 数据流经各个算子时的耗时总和。可能存在采样误差,数值仅供参考 | 275 ms |
目的端 Watermark 延时 | 当前时间戳与数据目的(Sink)输入侧 Watermark 之间的差值(多个 Sink 则取最大值) | 5432 ms |
TaskManager CPU 使用率 | 作业中所有 TaskManager 的平均 CPU 使用率 | 23.85% |
TaskManager 堆内存使用率 | 作业中所有 TaskManager 的平均堆内存使用率 | 57.12% |
TaskManager 堆内存用量 | 作业中所有 TaskManager 的当前堆内存用量总和 | 830897056.00 Bytes |
TaskManager 已提交的堆内存容量 | 作业中所有 TaskManager 已提交(committed)的堆内存容量总和 | 4937220096.00 Bytes |
TaskManager 堆内存最大容量 | 作业中所有 TaskManager 的堆内存最大(max)容量总和 | 4937220096.00 Bytes |
TaskManager 非堆内存用量 | 作业中所有 TaskManager 非堆内存(JVM 元空间、代码缓存等)用量总和 | 296651064.00 Bytes |
TaskManager 已提交的非堆内存容量 | 作业中所有 TaskManager 已提交(committed)的非堆内存(JVM 元空间、代码缓存等)用量总和 | 103219200.00 Bytes |
TaskManager 非堆内存最大容量 | 作业中所有 TaskManager 非堆内存(JVM 元空间、代码缓存等)最大容量总和 | 780140544.00 Bytes |
所有 TaskManager JVM 的物理内存用量的最大值 | 作业中所有 TaskManager 所在的 JVM 的物理内存用量(RSS)的最大值,包括堆内、堆外、Native 等所有区域的总内存用量。该指标可用于对容器 OOM Killed 事件的预警 | 3597035110.00 Bytes |
TaskManager 堆外直接内存缓存数 | 作业中所有 TaskManager 堆外直接内存(Direct Buffer Pool)中的缓存(Buffer)个数之和 | 10993.00 Items |
TaskManager 堆外直接内存用量 | 作业中所有 TaskManager 堆外直接内存(Direct Buffer Pool)的用量之和 | 360328431.00 Bytes |
TaskManager 堆外直接内存总容量 | 作业中所有 TaskManager 堆外直接内存(Direct Buffer Pool)的最大容量之和 | 360328431.00 Bytes |
TaskManager 堆外映射内存缓存数 | 作业中所有 TaskManager 堆外映射内存(Mapped Buffer Pool)中的缓存(Buffer)个数之和 | 4 Items |
TaskManager 堆外映射内存用量 | 作业中所有 TaskManager 堆外映射内存(Mapped Buffer Pool)的用量之和 | 33554432.00 Bytes |
TaskManager 堆外映射内存总容量 | 作业中所有 TaskManager 堆外映射内存(Mapped Buffer Pool)的最大容量之和 | 33554432.00 Bytes |
JobManager 老年代 GC 次数 | 当前作业 JobManager 老年代 GC 次数 | 3.00 Times |
JobManager 老年代 GC 时间 | 当前作业 JobManager 老年代 GC 时间 | 701.00 ms |
JobManager 年轻代 GC 次数 | 当前作业 JobManager 年轻代 GC 次数 | 53.00 Times |
JobManager 年轻代 GC 时间 | 当前作业 JobManager 年轻代 GC 时间 | 4094.00 ms |
最近一次的 Checkpoint 耗时 | 当前作业最近一次的 Checkpoint 耗时 | 723.00 ms |
最近一次的 Checkpoint 大小 | 当前作业最近一次的 Checkpoint 大小 | 751321.00 Bytes |
TaskManager 老年代 GC 次数 | 作业中所有 TaskManager 老年代 GC 次数之和 | 9.00 Times |
TaskManager 老年代 GC 时间 | 作业中所有 TaskManager 老年代 GC 时间之和 | 2014.00 ms |
TaskManager 年轻代 GC 次数 | 作业中所有 TaskManager 年轻代 GC 次数之和 | 889.00 Times |
TaskManager 年轻代 GC 时间 | 作业中所有 TaskManager 年轻代 GC 时间之和 | 15051.00 ms |
Checkpoint 成功完成次数 | 当前作业 Checkpoint 成功完成次数 | 11.00 Times |
Checkpoint 失败次数 | 当前作业 Checkpoint 失败(例如超时、遇到异常等)的次数 | 1.00 Times |
正在进行的 Checkpoint 个数 | 当前作业进行中(未完成)的 Checkpoint 个数 | 1.00 Times |
Checkpoint 总次数 | Checkpoint 总次数(进行中、已完成和失败的总和) | 13.00 Times |
严重异常数据个数 | 算子中发生严重异常(例如抛出各种 Exception)的数据个数,如果大于1则会影响 Exactly-Once 语义(试验参数,仅供参考) | 0.00 Times |
当前实例崩溃重启次数 | 当前实例 JobManager 记录的任务崩溃重启次数(不含 JobManager 退出后作业重新拉起的场景) | 10.00 Times |
JobManager 堆内存使用率 | 当前作业 JobManager 堆内存使用率 | 31.34% |
JobManager 堆内存的用量 | 当前作业 JobManager 堆内存的用量 | 1040001560.00 Bytes |
JobManager 已提交的堆内存容量 | 当前作业 JobManager 已提交(committed)的堆内存容量 | 3318218752.00 Bytes |
JobManager 堆内存最大容量 | 当前作业 JobManager 堆内存最大容量 | 3318218752.00 Bytes |
JobManager 非堆内存用量 | 当前作业 JobManager 非堆内存(JVM 元空间、代码缓存等)用量 | 117362656.00 Bytes |
JobManager 已提交的非堆内存容量 | 当前作业已提交(committed)的 JobManager 非堆内存(JVM 元空间、代码缓存等)容量 | 122183680.00 Bytes |
JobManager 非堆内存最大容量 | 当前作业 JobManager 非堆内存(仅限 JVM 元空间、代码缓存等)的最大容量 | 780140544.00 Bytes |
JobManager 所在的 JVM 的物理内存用量 | 当前作业 JobManager 所在的 JVM 的物理内存用量(RSS),包括堆内、堆外、Native 等所有区域的总内存用量。该指标可用于对容器 OOM Killed 事件的预警 | 3597035110.00 Bytes |
JobManager CPU 使用率 | 当前作业 JobManager 的 CPU 使用率 | 7.12% |
JobManager CPU 使用时长 | 当前作业 JobManager CPU 使用时长(毫秒) | 834490.00 ms |
作业中断运行时间 | 对于失败或恢复等非运行状态的作业,表示本次中断运行的时长。对于正在运行中的作业,值为0 | 1088466.00 ms |
作业无中断持续执行的时间 | 对于运行中的作业,表示当次作业持续处于运行中的时长 | 202305.00 ms |
作业重启耗时 | 作业最近一次重启耗时 | 197181.00 ms |
作业最近一次恢复的时间戳 | 作业最近一次从快照恢复的 Unix 时间戳(以毫秒为单位,如果未恢复过则是-1) | 1621934344137.00 ms |
JobManager 堆外映射内存缓存数 | JobManager 堆外映射内存(Mapped Buffer Pool)中的缓存(Buffer)个数 | 4.00 Items |
JobManager 堆外映射内存的使用量 | JobManager 堆外映射内存(Mapped Buffer Pool)的用量 | 33554432.00 Bytes |
JobManager 堆外映射内存的总容量 | JobManager 堆外映射内存(Mapped Buffer Pool)的最大用量 | 33554432.00 Bytes |
JobManager 堆外直接内存中的缓存数 | JobManager 堆外直接内存(Direct Buffer Pool)中的缓存(Buffer)个数 | 22.00 Items |
JobManager 堆外直接内存使用量 | JobManager 堆外直接内存(Direct Buffer Pool)的用量 | 575767.00 Bytes |
JobManager 堆外直接内存总容量 | JobManager 堆外直接内存(Direct Buffer Pool)的最大用量 | 577814.00 Bytes |
注册的 TaskManager 数 | 当前作业已注册的 TaskManager 数,通常等于所有算子并行度的最大值。如果 TaskManager 个数减少,说明存在 TaskManager 失联,作业可能崩溃并尝试恢复 | 3.00 TaskManagers |
运行中的作业数 | 正在运行中作业数。如果作业正常运行,则值为1。如果作业崩溃,则值为0 | 1.00 Jobs |
可用任务槽数量 | 如果作业正常运行,则可用的任务槽(Task Slot)数为0。如果不为0,则说明作业可能出现短时间的非运行状态 | 0.00 Slots |
任务槽总数 | Oceanus 中一个 TaskManager 只有一个任务槽,因此任务槽总数等于注册的 TaskManager 数 | 3.00 Slots |
JobManager 活动线程数 | 当前作业 JobManager 中活动的线程数,含 Daemon 和非 Daemon 线程 | 77.00 Threads |
TaskManager CPU 使用时长 | 作业中所有 TaskManager CPU 使用时长总和(毫秒) | 2029230.00 ms |
TaskManager 可用的 MemorySegment 个数 | 作业中所有 TaskManager 的可用 MemorySegment 个数之和 | 32890.00 Items |
TaskManager 已分配的 MemorySegment 总数 | 作业中所有 TaskManager 已分配的 MemorySegment 个数总和 | 32931.00 Items |
TaskManager 活动线程数 | 作业中所有 TaskManager 中活动的线程数之和,含 Daemon 和非 Daemon 线程 | 207.00 Threads |
上次 Checkpoint 大小 | 上个快照存储的大小 | 1024字节 |
Checkpoint 耗时 | 上个快照存储所耗时间 | 100ms |
Checkpoint 失败总次数 | 保存快照累计失败次数 | 1次 |
JM CPU Load | JobManager 维度的 JVM 最近 CPU 利用率 | 12% |
JM Heap Memory | JobManager 维度的堆内存使用情况 | 1次 |
JM GC Count | JobManager 维度的 Status.JVM.GarbageCollector.<GarbageCollector>.Count ,GC(垃圾回收)次数 | 5次 |
JM GC Time | JobManager 维度的 Status.JVM.GarbageCollector.<GarbageCollector>.Time ,GC(垃圾回收)时间 | 64ms |
TaskManager CPU Load | 选中的 TaskManager 维度的 JVM 最近 CPU 利用率 | 70% |
TaskManager Heap Memory | 选中的 TaskManager 维度的堆内存使用情况 | 50字节 |
TaskManager GC Count | 选中的 TaskManager 维度的 Status.JVM.GarbageCollector.<GarbageCollector>.Count ,GC(垃圾回收)次数 | 5次 |
TaskManager GC Time | 选中的 TaskManager 维度的 Status.JVM.GarbageCollector.<GarbageCollector>.Time ,GC(垃圾回收)时间 | 5ms |
TaskManager Pod Memory | 选中的 TaskManager 所在 Pod 内存使用率 | 30% |
TaskManager Pod CPU
| 选中的 TaskManager 所在 Pod CPU 使用率 | 30% |
Task OutPoolUsage | 输出队列百分比,达到100%时任务达到完全反压状态 | 64% |
Task OutputQueueLength | 输出队列个数 | 6 |
Task InPoolUsage | 输入队列百分比,达到100%时任务达到完全反压状态 | 64% |
Task InputQueueLength | 输入队列个数 | 6 |
Task CurrentInputWatermark | 当前水位 | 1623814418 |
数据流入耗时(ETL) | 当前作业 Source 拿到数据已经产生的延迟时间 | 10 ms |
作业每秒输入的记录条数(ETL) | 当前作业所有 source 的加和速率 | 342 条/秒 |
批间隔时间(ETL) | 当前作业 Source 处理数据的批间隔,间接反映 source 空闲状态 | 24532223 ms |
source 处理延迟(ETL) | 当前作业 Source 拿到数据并处理的延迟时间 | 1345 ms |
BinLog/lsn 的位点信息(ETL) | 当前作业 mysql binlog 的 pos 点位/pg 的 lsn 号 | 260690147 |
算子计算总耗时(ETL) | 当前作业统计 Sink 与 Source算子之间的平均延迟时间 | 49 ms |
sink 刷新延迟(ETL) | 当前作业 sink 的延迟 flush 时间+异步回调时间 | 30 ms |
作业每秒输出的记录条数(ETL) | 当前作业所有 sink 的加和速率 | 234 条/秒 |
数据源-存量同步(ETL) | 当前作业存量数据的同步进度 | 30% |
数据源-增量同步(ETL) | 针对 mysql 同步延迟指的是当前 source 处理 binlog 位点和 mysql 实例源最新的 binlog 的最后一次采样的缺口值,针对 postgresql 同步延迟指的是当前 source 处理 lsn 日志号和 postgresql 实例源最新的 lsn 日志号的最后一次采样缺口值 | 205 |
Kafka - Records_Lag 最大值 | Taskmanager 上报的 kafka-lag-max 最大值(kafka-lag-max:生产者当前偏移量和消费者当前偏移量之间的计算差值) | 100 |
Kafka - Records_Lag 最小值 | Taskmanager 上报的 kafka-lag-max 最小值(kafka-lag-max:生产者当前偏移量和消费者当前偏移量之间的计算差值) | 50 |
Kafka - Records_Lag 均值 | Taskmanager 上报的 kafka-lag-max 均值(kafka-lag-max:生产者当前偏移量和消费者当前偏移量之间的计算差值) | 80 |
Kafka - Records_Lag 求和值 | 各个 Taskmanager 上报的 kafka-lag-max 的求和值(kafka-lag-max:生产者当前偏移量和消费者当前偏移量之间的计算差值) | 500 |
作业传输延迟 (毫秒) | 指标计算公式:数据被 Source 读取的时间(FetchTime)- 数据事件时间(EventTime)。该指标反映了数据在外部系统的滞留情况 | 10 |
作业业务延迟 (毫秒) | 指标计算公式:数据离开 Source 的时间(EmitTime)- 数据事件时间(EventTime)。该指标反映了数据在外部系统和 Source 中的滞留情况 | 20 |
反压指标(%) | 作业所有 SubTask 的反压百分比的最大值 | 30% |
数据倾斜程度 | 指标为每个作业的 SubTask 的数据输入量的离散系数(=标准差/均值)的最大值,小于 10% 属于弱倾斜 | 10% |