监控指标一览

最近更新时间:2024-01-10 14:58:21

我的收藏
通过查阅监控指标一览,您可以了解到监控指标中每个指标的指标含义。这有助于您更好的使用 Oceanus 的监控功能。

监控指标一览

注意
您可以在 腾讯云可观测平台控制台 > 流计算 Oceanus 查看以下指标,同时也可以 配置告警
指标中文名
指标含义
示例值
作业每秒输入的记录数
作业所有数据源(Source)每秒输入的数据总条数
22478.14 Record/s
作业每秒输出的记录数
作业所有数据目的(Sink)每秒输出的数据总条数
12017.09 Record/s
作业每秒输入的数据量
作业所有数据源(Source)每秒输入的数据总量(仅对 Kafka Source 有效)
786576 Byte/s
作业每秒输出的数据量
作业所有数据目的(Sink)每秒输出的数据总量(仅对 Kafka Sink 有效)
156872 Byte/s
算子计算总耗时
数据流经各个算子时的耗时总和。可能存在采样误差,数值仅供参考
275 ms
目的端 Watermark 延时
当前时间戳与数据目的(Sink)输入侧 Watermark 之间的差值(多个 Sink 则取最大值)
5432 ms
TaskManager CPU 使用率
作业中所有 TaskManager 的平均 CPU 使用率
23.85%
TaskManager 堆内存使用率
作业中所有 TaskManager 的平均堆内存使用率
57.12%
TaskManager 堆内存用量
作业中所有 TaskManager 的当前堆内存用量总和
830897056.00 Bytes
TaskManager 已提交的堆内存容量
作业中所有 TaskManager 已提交(committed)的堆内存容量总和
4937220096.00 Bytes
TaskManager 堆内存最大容量
作业中所有 TaskManager 的堆内存最大(max)容量总和
4937220096.00 Bytes
TaskManager 非堆内存用量
作业中所有 TaskManager 非堆内存(JVM 元空间、代码缓存等)用量总和
296651064.00 Bytes
TaskManager 已提交的非堆内存容量
作业中所有 TaskManager 已提交(committed)的非堆内存(JVM 元空间、代码缓存等)用量总和
103219200.00 Bytes
TaskManager 非堆内存最大容量
作业中所有 TaskManager 非堆内存(JVM 元空间、代码缓存等)最大容量总和
780140544.00 Bytes
所有 TaskManager JVM 的物理内存用量的最大值
作业中所有 TaskManager 所在的 JVM 的物理内存用量(RSS)的最大值,包括堆内、堆外、Native 等所有区域的总内存用量。该指标可用于对容器 OOM Killed 事件的预警
3597035110.00 Bytes
TaskManager 堆外直接内存缓存数
作业中所有 TaskManager 堆外直接内存(Direct Buffer Pool)中的缓存(Buffer)个数之和
10993.00 Items
TaskManager 堆外直接内存用量
作业中所有 TaskManager 堆外直接内存(Direct Buffer Pool)的用量之和
360328431.00 Bytes
TaskManager 堆外直接内存总容量
作业中所有 TaskManager 堆外直接内存(Direct Buffer Pool)的最大容量之和
360328431.00 Bytes
TaskManager 堆外映射内存缓存数
作业中所有 TaskManager 堆外映射内存(Mapped Buffer Pool)中的缓存(Buffer)个数之和
4 Items
TaskManager 堆外映射内存用量
作业中所有 TaskManager 堆外映射内存(Mapped Buffer Pool)的用量之和
33554432.00 Bytes
TaskManager 堆外映射内存总容量
作业中所有 TaskManager 堆外映射内存(Mapped Buffer Pool)的最大容量之和
33554432.00 Bytes
JobManager 老年代 GC 次数
当前作业 JobManager 老年代 GC 次数
3.00 Times
JobManager 老年代 GC 时间
当前作业 JobManager 老年代 GC 时间
701.00 ms
JobManager 年轻代 GC 次数
当前作业 JobManager 年轻代 GC 次数
53.00 Times
JobManager 年轻代 GC 时间
当前作业 JobManager 年轻代 GC 时间
4094.00 ms
最近一次的 Checkpoint 耗时
当前作业最近一次的 Checkpoint 耗时
723.00 ms
最近一次的 Checkpoint 大小
当前作业最近一次的 Checkpoint 大小
751321.00 Bytes
TaskManager 老年代 GC 次数
作业中所有 TaskManager 老年代 GC 次数之和
9.00 Times
TaskManager 老年代 GC 时间
作业中所有 TaskManager 老年代 GC 时间之和
2014.00 ms
TaskManager 年轻代 GC 次数
作业中所有 TaskManager 年轻代 GC 次数之和
889.00 Times
TaskManager 年轻代 GC 时间
作业中所有 TaskManager 年轻代 GC 时间之和
15051.00 ms
Checkpoint 成功完成次数
当前作业 Checkpoint 成功完成次数
11.00 Times
Checkpoint 失败次数
当前作业 Checkpoint 失败(例如超时、遇到异常等)的次数
1.00 Times
正在进行的 Checkpoint 个数
当前作业进行中(未完成)的 Checkpoint 个数
1.00 Times
Checkpoint 总次数
Checkpoint 总次数(进行中、已完成和失败的总和)
13.00 Times
严重异常数据个数
算子中发生严重异常(例如抛出各种 Exception)的数据个数,如果大于1则会影响 Exactly-Once 语义(试验参数,仅供参考)
0.00 Times
当前实例崩溃重启次数
当前实例 JobManager 记录的任务崩溃重启次数(不含 JobManager 退出后作业重新拉起的场景)
10.00 Times
JobManager 堆内存使用率
当前作业 JobManager 堆内存使用率
31.34%
JobManager 堆内存的用量
当前作业 JobManager 堆内存的用量
1040001560.00 Bytes
JobManager 已提交的堆内存容量
当前作业 JobManager 已提交(committed)的堆内存容量
3318218752.00 Bytes
JobManager 堆内存最大容量
当前作业 JobManager 堆内存最大容量
3318218752.00 Bytes
JobManager 非堆内存用量
当前作业 JobManager 非堆内存(JVM 元空间、代码缓存等)用量
117362656.00 Bytes
JobManager 已提交的非堆内存容量
当前作业已提交(committed)的 JobManager 非堆内存(JVM 元空间、代码缓存等)容量
122183680.00 Bytes
JobManager 非堆内存最大容量
当前作业 JobManager 非堆内存(仅限 JVM 元空间、代码缓存等)的最大容量
780140544.00 Bytes
JobManager 所在的 JVM 的物理内存用量
当前作业 JobManager 所在的 JVM 的物理内存用量(RSS),包括堆内、堆外、Native 等所有区域的总内存用量。该指标可用于对容器 OOM Killed 事件的预警
3597035110.00 Bytes
JobManager CPU 使用率
当前作业 JobManager 的 CPU 使用率
7.12%
JobManager CPU 使用时长
当前作业 JobManager CPU 使用时长(毫秒)
834490.00 ms
作业中断运行时间
对于失败或恢复等非运行状态的作业,表示本次中断运行的时长。对于正在运行中的作业,值为0
1088466.00 ms
作业无中断持续执行的时间
对于运行中的作业,表示当次作业持续处于运行中的时长
202305.00 ms
作业重启耗时
作业最近一次重启耗时
197181.00 ms
作业最近一次恢复的时间戳
作业最近一次从快照恢复的 Unix 时间戳(以毫秒为单位,如果未恢复过则是-1)
1621934344137.00 ms
JobManager 堆外映射内存缓存数
JobManager 堆外映射内存(Mapped Buffer Pool)中的缓存(Buffer)个数
4.00 Items
JobManager 堆外映射内存的使用量
JobManager 堆外映射内存(Mapped Buffer Pool)的用量
33554432.00 Bytes
JobManager 堆外映射内存的总容量
JobManager 堆外映射内存(Mapped Buffer Pool)的最大用量
33554432.00 Bytes
JobManager 堆外直接内存中的缓存数
JobManager 堆外直接内存(Direct Buffer Pool)中的缓存(Buffer)个数
22.00 Items
JobManager 堆外直接内存使用量
JobManager 堆外直接内存(Direct Buffer Pool)的用量
575767.00 Bytes
JobManager 堆外直接内存总容量
JobManager 堆外直接内存(Direct Buffer Pool)的最大用量
577814.00 Bytes
注册的 TaskManager 数
当前作业已注册的 TaskManager 数,通常等于所有算子并行度的最大值。如果 TaskManager 个数减少,说明存在 TaskManager 失联,作业可能崩溃并尝试恢复
3.00 TaskManagers
运行中的作业数
正在运行中作业数。如果作业正常运行,则值为1。如果作业崩溃,则值为0
1.00 Jobs
可用任务槽数量
如果作业正常运行,则可用的任务槽(Task Slot)数为0。如果不为0,则说明作业可能出现短时间的非运行状态
0.00 Slots
任务槽总数
Oceanus 中一个 TaskManager 只有一个任务槽,因此任务槽总数等于注册的 TaskManager 数
3.00 Slots
JobManager 活动线程数
当前作业 JobManager 中活动的线程数,含 Daemon 和非 Daemon 线程
77.00 Threads
TaskManager CPU 使用时长
作业中所有 TaskManager CPU 使用时长总和(毫秒)
2029230.00 ms
TaskManager 可用的 MemorySegment 个数
作业中所有 TaskManager 的可用 MemorySegment 个数之和
32890.00 Items
TaskManager 已分配的 MemorySegment 总数
作业中所有 TaskManager 已分配的 MemorySegment 个数总和
32931.00 Items
TaskManager 活动线程数
作业中所有 TaskManager 中活动的线程数之和,含 Daemon 和非 Daemon 线程
207.00 Threads
上次 Checkpoint 大小
上个快照存储的大小
1024字节
Checkpoint 耗时
上个快照存储所耗时间
100ms
Checkpoint 失败总次数
保存快照累计失败次数
1次
JM CPU Load
JobManager 维度的 JVM 最近 CPU 利用率
12%
JM Heap Memory
JobManager 维度的堆内存使用情况
1次
JM GC Count
JobManager 维度的 Status.JVM.GarbageCollector.<GarbageCollector>.Count,GC(垃圾回收)次数
5次
JM GC Time
JobManager 维度的 Status.JVM.GarbageCollector.<GarbageCollector>.Time,GC(垃圾回收)时间
64ms
TaskManager CPU Load
选中的 TaskManager 维度的 JVM 最近 CPU 利用率
70%
TaskManager Heap Memory
选中的 TaskManager 维度的堆内存使用情况
50字节
TaskManager GC Count
选中的 TaskManager 维度的 Status.JVM.GarbageCollector.<GarbageCollector>.Count,GC(垃圾回收)次数
5次
TaskManager GC Time
选中的 TaskManager 维度的 Status.JVM.GarbageCollector.<GarbageCollector>.Time,GC(垃圾回收)时间
5ms
TaskManager Pod Memory
选中的 TaskManager 所在 Pod 内存使用率
30%
TaskManager Pod CPU
选中的 TaskManager 所在 Pod CPU 使用率
30%
Task OutPoolUsage
输出队列百分比,达到100%时任务达到完全反压状态
64%
Task OutputQueueLength
输出队列个数
6
Task InPoolUsage
输入队列百分比,达到100%时任务达到完全反压状态
64%
Task InputQueueLength
输入队列个数
6
Task CurrentInputWatermark
当前水位
1623814418
数据流入耗时(ETL)
当前作业 Source 拿到数据已经产生的延迟时间
10 ms
作业每秒输入的记录条数(ETL)
当前作业所有 source 的加和速率
342 条/秒
批间隔时间(ETL)
当前作业 Source 处理数据的批间隔,间接反映 source 空闲状态
24532223 ms
source 处理延迟(ETL)
当前作业 Source 拿到数据并处理的延迟时间
1345 ms
BinLog/lsn 的位点信息(ETL)
当前作业 mysql binlog 的 pos 点位/pg 的 lsn 号
260690147
算子计算总耗时(ETL)
当前作业统计 Sink 与 Source算子之间的平均延迟时间
49 ms
sink 刷新延迟(ETL)
当前作业 sink 的延迟 flush 时间+异步回调时间
30 ms
作业每秒输出的记录条数(ETL)
当前作业所有 sink 的加和速率
234 条/秒
数据源-存量同步(ETL)
当前作业存量数据的同步进度
30%
数据源-增量同步(ETL)
针对 mysql 同步延迟指的是当前 source 处理 binlog 位点和 mysql 实例源最新的 binlog 的最后一次采样的缺口值,针对 postgresql 同步延迟指的是当前 source 处理 lsn 日志号和 postgresql 实例源最新的 lsn 日志号的最后一次采样缺口值
205
Kafka - Records_Lag 最大值
Taskmanager 上报的 kafka-lag-max 最大值(kafka-lag-max:生产者当前偏移量和消费者当前偏移量之间的计算差值)
100
Kafka - Records_Lag 最小值
Taskmanager 上报的 kafka-lag-max 最小值(kafka-lag-max:生产者当前偏移量和消费者当前偏移量之间的计算差值)
50
Kafka - Records_Lag 均值
Taskmanager 上报的 kafka-lag-max 均值(kafka-lag-max:生产者当前偏移量和消费者当前偏移量之间的计算差值)
80
Kafka - Records_Lag 求和值
各个 Taskmanager 上报的 kafka-lag-max 的求和值(kafka-lag-max:生产者当前偏移量和消费者当前偏移量之间的计算差值)
500
作业传输延迟 (毫秒)
指标计算公式:数据被 Source 读取的时间(FetchTime)- 数据事件时间(EventTime)。该指标反映了数据在外部系统的滞留情况
10
作业业务延迟 (毫秒)
指标计算公式:数据离开 Source 的时间(EmitTime)- 数据事件时间(EventTime)。该指标反映了数据在外部系统和 Source 中的滞留情况
20
反压指标(%)
作业所有 SubTask 的反压百分比的最大值
30%
数据倾斜程度
指标为每个作业的 SubTask 的数据输入量的离散系数(=标准差/均值)的最大值,小于 10% 属于弱倾斜
10%