YARN-概览
标题 | 指标名称 | 指标单位 | 指标含义 |
节点个数 | NumActiveNMs | 个 | 当前存活的 NodeManager 个数 |
| NumDecommissionedNMs | 个 | 当前 Decommissioned 的 NodeManager 个数 |
| NumLostNMs | 个 | 当前 Lost 的 NodeManager 个数 |
| NumUnhealthyNMs | 个 | 当前 Unhealthy 的 NodeManager 个数 |
CPU 核数 | AllocatedVCores | 核 | 当前队列分配的 VCore 个数 |
| ReservedVCores | 核 | 当前队列中 reserved 的 VCore 个数 |
| AvailableVCores | 核 | 当前队列可用的 VCore 个数 |
| PendingVCores | 核 | 当前队列的资源请求中 pending 的 VCore 个数 |
应用总数 | AppsSubmitted | 个 | 当前队列历史提交作业个数 |
| AppsRunning | 个 | 当前队列正在运行的作业个数 |
| AppsPending | 个 | 当前队列 pending 的作业个数 |
| AppsCompleted | 个 | 当前队列完成的作业个数 |
| AppsKilled | 个 | 当前队列 kill 掉的作业个数 |
| AppsFailed | 个 | 当前队列失败的作业个数 |
| ActiveApplications | 个 | 当前队列中 active 的作业个数 |
| running_0 | 个 | 当前队列中运行作业运行时间≤60分钟的作业个数 |
| running_60 | 个 | 当前队列中运行作业运行时间介于(60,300]分钟的作业个数 |
| running_300 | 个 | 当前队列中运行作业运行时间介于(300,1440]分钟的作业个数 |
| running_1440 | 个 | 当前队列中运行作业运行时间>1440分钟的作业个数 |
内存大小 | AllocatedMB | MB | 当前队列分配的内存大小 |
| AvailableMB | MB | 当前队列可用的内存大小 |
| PendingMB | MB | 当前队列的资源请求中 pending 的内存大小 |
| ReservedMB | MB | 当前队列中 reserved 内存大小 |
容器个数 | AllocatedContainers | 个 | 当前队列分配的 container 个数 |
| PendingContainers | 个 | 当前队列的资源请求中 pending 的 container 个数 |
| ReservedContainers | 个 | 当前队列中 reserved 的 container 个数 |
容器分配释放总数 | AggregateContainersAllocated | 个 | 当前队列分配的 container 总数 |
| AggregateContainersReleased | 个 | 当前队列 release 的 container 总数 |
用户数 | ActiveUsers | 个 | 当前队列活跃用户数 |
Memory | allocatedMB | MB | 集群中已分配的内存资源 |
| availableMB | MB | 集群中可使用的内存资源 |
| reservedMB | MB | 集群中保留的内存资源 |
| totalMB | MB | 集群中全部的内存资源 |
Applications | completed | 个 | 采样周期内集群中运行完成的作业数 |
| failed | 个 | 采样周期内集群中运行失败的作业数 |
| killed | 个 | 采样周期内集群中被杀掉的作业数 |
| pending | 个 | 采样周期内集群中等待运行的作业数 |
| running | 个 | 采样周期内集群中运行中的作业数 |
| submitted | 个 | 采样周期内集群中已提交的作业数 |
Containers | containersAllocated | 个 | 集群中已分配的 Container 数目 |
| containersPending | 个 | 集群中请求中的 Container 数目 |
| containersReserved | 个 | 集群中保留的 Container 数目 |
内存使用率 | usageRatio | % | 集群当前内存资源的使用率 |
内存使用率大小 | configMemRatioMax_queue | % | 最大队列分配内存占比 |
| configMemRatio_queue | % | 队列分配内存占比 |
内存占集群大小 | configMemRatio_cluster | % | 队列分配内存占集群的比率 |
| configMemMaxRatio_cluster | % | 最大队列分配内存占集群的比率 |
| usedMemRatio_cluster | % | 队列使用内存占集群的比率 |
Cores | allocatedVirtualCores | 个 | 集群中已分配的 CPU 资源 |
| availableVirtualCores | 个 | 集群中可使用的 CPU 资源 |
| reservedVirtualCores | 个 | 集群中保留的 CPU 资源 |
| totalVirtualCores | 个 | 集群中全部的 CPU 资源 |
CPU 使用率 | usageRatio | % | 集群当前 CPU 资源的使用率 |
CPU 使用率大小 | configVCoresRatioMax_queue | % | 最大队列分配 CPU 占比 |
| configVCoresRatio_queue | % | 队列分配 CPU 占比 |
CPU 占集群大小 | configVCoresRatio_cluster | % | 队列分配 CPU 占集群的比率 |
| configVCoresMaxRatio_cluster | % | 最大队列分配 CPU 占集群的比率 |
| usedVCoresRatio_cluster | % | 队列使用 CPU 占集群的比率 |
AM 启动数量 | AMLaunchDelayNumOps | 个 | AM 启动数量 |
RM 启动 AM 的平均时间 | AMLaunchDelayAvgTime | ms | RM 启动 AM 的平均时间 |
注册的 AM 总数 | AMRegisterDelayNumOps | 个 | 注册的 AM 总数 |
AM 注册到 RM 的平均时间 | AMRegisterDelayAvgTime | ms | AM 注册到 RM 的平均时间 |
队列 CPU 使用率 | YARN.RM.QUEUE.VCORES.RATIO | 个 | 当前队列分配 CPU 使用率 |
队列内存使用率 | YARN.RM.QUEUE.MEM.RATIO | 个 | 当前队列分配内存使用率 |
可用内存资源百分比 | availableMemPercentage | % | 集群当前可用内存资源百分比 |
待分配 Container 百分比 | containerPendingRatio | % | 待分配 Container 百分比 |
可用 CPU 百分比 | availableCoresPercentage | % | 可用 CPU 百分比 |
YARN-ResourceManager
标题 | 指标名称 | 指标单位 | 指标含义 |
RPC 认证授权数 | RpcAuthenticationFailures | 个 | RPC authentication 失败个数 |
| RpcAuthenticationSuccesses | 个 | RPC authentication 成功个数 |
| RpcAuthorizationFailures | 个 | RPC authorization 失败个数 |
| RpcAuthorizationSuccesses | 个 | RPC authorization 成功个数 |
RPC 接收发送数据量 | ReceivedBytes | bytes/s | RPC 接收数据量 |
| SentBytes | bytes/s | RPC 发送数据量 |
RPC 连接数 | NumOpenConnections | 个 | 当前打开的连接个数 |
RPC 请求次数 | RpcProcessingTimeNumOps | 次 | RPC 请求次数 |
| RpcQueueTimeNumOps | 次 | RPC 请求次数 |
RPC 队列长度 | CallQueueLength | 个 | 当前 RPC 队列长度 |
RPC 平均处理时间 | RpcProcessingTimeAvgTime | s | RPC 请求平均处理时间 |
| RpcQueueTimeAvgTime | s | RPC 在 Queue 中平均时间 |
GC 次数 | YGC | 次 | Young GC 次数 |
| FGC | 次 | Full GC 次数 |
GC 时间 | FGCT | s | Full GC 消耗时间 |
| GCT | s | 垃圾回收时间消耗 |
| YGCT | s | Young GC 消耗时间 |
内存区域占比 | S0 | % | Survivor 0区内存使用占比 |
| E | % | Eden 区内存使用占比 |
| CCS | % | Compressed class space 区内存使用占比 |
| S1 | % | Survivor 1区内存使用占比 |
| O | % | Old 区内存使用占比 |
| M | % | Metaspace 区内存使用占比 |
堆内存使用率 | MemHeapUsedRate | % | JVM 当前已经使用的 HeapMemory 的数量所占 JVM 配置的 HeapMemory 的数量的百分比 |
JVM 线程数量 | ThreadsNew | 个 | 处于 NEW 状态的线程数量 |
| ThreadsRunnable | 个 | 处于 RUNNABLE 状态的线程数量 |
| ThreadsBlocked | 个 | 处于 BLOCKED 状态的线程数量 |
| ThreadsWaiting | 个 | 处于 WAITING 状态的线程数量 |
| ThreadsTimedWaiting | 个 | 处于 TIMED WAITING 状态的线程数量 |
| ThreadsTerminated | 个 | 处于 Terminated 状态的线程数量 |
JVM 日志数量 | LogFatal | 个 | Fatal 日志数量 |
| LogError | 个 | Error 日志数量 |
| LogWarn | 个 | Warn 日志数量 |
| LogInfo | 个 | Info 日志数量 |
JVM 内存 | MemNonHeapUsedM | MB | 进程使用的非堆内存大小 |
| MemNonHeapCommittedM | MB | 进程 commit 的非堆内存大小 |
| MemHeapUsedM | MB | 进程使用的堆内存大小 |
| MemHeapCommittedM | MB | 进程 commit 的堆内存大小 |
| MemHeapMaxM | MB | 进程最大的堆内存大小 |
| MemMaxM | MB | 进程最大内存大小 |
CPU 利用率 | ProcessCpuLoad | % | CPU 利用率 |
CPU 累计使用时间 | ProcessCpuTime | ms | CPU 累计使用时间 |
文件描述符数 | MaxFileDescriptorCount | 个 | 最大文件描述符数 |
| OpenFileDescriptorCount | 个 | 打开文件描述符数 |
进程运行时长 | Uptime | s | 进程运行时长 |
工作线程数 | DaemonThreadCount | 个 | 进程的 Daemon 线程个数 |
| ThreadCount | 个 | 进程的线程个数 |
节点状态 | haState | 1:Active,0:Standby | ResourceManager 主备状态 |
主备切换 | switchOccurred | - | ResourceManager 主备切换 |
YARN-JobHistoryServer
标题 | 指标名称 | 指标单位 | 指标含义 |
JVM 线程数量 | ThreadsNew | 个 | 处于 NEW 状态的线程数量 |
| ThreadsRunnable | 个 | 处于 RUNNABLE 状态的线程数量 |
| ThreadsBlocked | 个 | 处于 BLOCKED 状态的线程数量 |
| ThreadsWaiting | 个 | 处于 WAITING 状态的线程数量 |
| ThreadsTimedWaiting | 个 | 处于 TIMED WAITING 状态的线程数量 |
| ThreadsTerminated | 个 | 处于 Terminated 状态的线程数量 |
JVM 日志数量 | LogFatal | 个 | FATAL 级别日志数量 |
| LogError | 个 | ERROR 级别日志数量 |
| LogWarn | 个 | WARN 级别日志数量 |
| LogInfo | 个 | INFO 级别日志数量 |
JVM 内存 | MemNonHeapUsedM | MB | 进程使用的非堆内存大小 |
| MemNonHeapCommittedM | MB | 进程 commit 的非堆内存大小 |
| MemHeapUsedM | MB | 进程使用的堆内存大小 |
| MemHeapCommittedM | MB | 进程 commit 的堆内存大小 |
| MemHeapMaxM | MB | 进程最大的堆内存大小 |
| MemMaxM | MB | 进程最大内存大小 |
堆内存使用率 | MemHeapUsedRate | % | JVM 当前已经使用的 HeapMemory 的数量所占 JVM 配置的 HeapMemory 的数量的百分比 |
GC 次数 | YGC | 次 | Young GC 次数 |
| FGC | 次 | Full GC 次数 |
GC 时间 | FGCT | s | Full GC 消耗时间 |
| GCT | s | 垃圾回收时间消耗 |
| YGCT | s | Young GC 消耗时间 |
内存区域占比 | S0 | % | Survivor 0区内存使用占比 |
| E | % | Eden 区内存使用占比 |
| CCS | % | Compressed class space 区内存使用占比 |
| S1 | % | Survivor 1区内存使用占比 |
| O | % | Old 区内存使用占比 |
| M | % | Metaspace 区内存使用占比 |
CPU 利用率 | ProcessCpuLoad | % | CPU 利用率 |
CPU 累计使用时间 | ProcessCpuTime | ms | CPU 累计使用时间 |
文件描述符数 | MaxFileDescriptorCount | 个 | 最大文件描述符数 |
| OpenFileDescriptorCount | 个 | 打开文件描述符数 |
进程运行时长 | Uptime | s | 进程运行时长 |
工作线程数 | DaemonThreadCount | 个 | 进程的 Daemon 线程个数 |
| ThreadCount | 个 | 进程的线程个数 |
YARN-NodeManager
标题 | 指标名称 | 指标单位 | 指标含义 |
GC 次数 | YGC | 次 | Young GC 次数 |
| FGC | 次 | Full GC 次数 |
GC 时间 | FGCT | s | Full GC 消耗时间 |
| GCT | s | 垃圾回收时间消耗 |
| YGCT | s | Young GC 消耗时间 |
内存区域占比 | S0 | % | Survivor 0区内存使用占比 |
| E | % | Eden 区内存使用占比 |
| CCS | % | Compressed class space 区内存使用占比 |
| S1 | % | Survivor 1区内存使用占比 |
| O | % | Old 区内存使用占比 |
| M | % | Metaspace 区内存使用占比 |
堆内存使用率 | MemHeapUsedRate | % | JVM 当前已经使用的 HeapMemory 的数量所占 JVM 配置的 HeapMemory 的数量的百分比 |
JVM 线程数量 | ThreadsNew | 个 | 处于 NEW 状态的线程数量 |
| ThreadsRunnable | 个 | 处于 RUNNABLE 状态的线程数量 |
| ThreadsBlocked | 个 | 处于 BLOCKED 状态的线程数量 |
| ThreadsWaiting | 个 | 处于 WAITING 状态的线程数量 |
| ThreadsTimedWaiting | 个 | 处于 TIMED WAITING 状态的线程数量 |
| ThreadsTerminated | 个 | 当前 TERMINATED 状态线程数量 |
JVM 日志数量 | LogFatal | 个 | FATAL 级别日志数量 |
| LogError | 个 | ERROR 级别日志数量 |
| LogWarn | 个 | WARN 级别日志数量 |
| LogInfo | 个 | INFO 级别日志数量 |
JVM 内存 | MemNonHeapUsedM | MB | 进程使用的非堆内存大小 |
| MemNonHeapCommittedM | MB | 进程 commit 的非堆内存大小 |
| MemHeapUsedM | MB | 进程使用的堆内存大小 |
| MemHeapCommittedM | MB | 进程 commit 的堆内存大小 |
| MemHeapMaxM | MB | 进程最大的堆内存大小 |
| MemMaxM | MB | 进程最大内存大小 |
容器总数 | ContainersLaunched | 个 | launch 的 container 个数 |
| ContainersCompleted | 个 | 运行完成的 container 个数 |
| ContainersFailed | 个 | 失败的 container 个数 |
| ContainersKilled | 个 | 被 kill 的 container 个数 |
| ContainersIniting | 个 | 初始化中的 container 个数 |
| ContainersRunning | 个 | 正在运行的 container 个数 |
| AllocatedContainers | 个 | NodeManager 分配的 container 数量 |
容器启动平均耗时 | ContainerLaunchDurationAvgTime | ms | 容器启动平均耗时 |
容器启动操作数 | ContainerLaunchDurationNumOps | 个 | 容器启动操作数 |
CPU 核数 | AvailableVCores | 核 | NodeManager 可用的 VCore 个数 |
| AllocatedVCores | 核 | NodeManager 分配的 VCore个数 |
内存大小 | AllocatedGB | GB | NodeManager 分配的内存大小 |
| AvailableGB | GB | NodeManager 可用的内存大小 |
CPU 利用率 | ProcessCpuLoad | % | CPU 利用率 |
CPU 累计使用时间 | ProcessCpuTime | ms | CPU 累计使用时间 |
文件描述符数 | MaxFileDescriptorCount | 个 | 最大文件描述符数 |
| OpenFileDescriptorCount | 个 | 打开文件描述符数 |
进程运行时长 | Uptime | s | 进程运行时长 |
工作线程数 | DaemonThreadCount | 个 | 进程的 Daemon 线程个数 |
| ThreadCount | 个 | 进程的线程个数 |
YARN-Timeline
标题 | 指标名称 | 指标单位 | 指标含义 |
JVM GC 次数 | GcCount | count | JVM GC 次数 |
JVM GC 时间 | GcTimeMillis | ms | JVM GC 时间 |
JVM 内存 | MemNonHeapUsedM | MB | 进程使用的非堆内存大小 |
| MemNonHeapCommittedM | MB | 进程 commit 的非堆内存大小 |
| MemNonHeapMaxM | MB | 进程使用的堆内存大小 |
| MemHeapUsedM | MB | 进程 commit的堆内存大小 |
| MemHeapCommittedM | MB | 进程最大的堆内存大小 |
| MemHeapMaxM | MB | 进程使用的非堆内存大小 |
获取 domain 操作数 | Ops | count | 获取 domain 操作数 |
批量获取 domains 操作数 | Ops | count | 批量获取 domains 操作数 |
批量获取 domains平均时间 | Time | ms | 批量获取 domains平均时间 |
获取 domain 平均时间 | Time | ms | 获取 domain 平均时间 |
批量获取 entities 操作数 | Ops | count | 批量获取 entities 操作数 |
获取批量 entities 平均时间 | Time | ms | 获取批量 entities 平均时间 |
获取 entity 操作数 | Ops | count | 获取 entity 操作数 |
获取 entity 平均时间 | Time | ms | 获取 entity 平均时间 |
获取批量 events 操作数 | Ops | count | 获取批量 events 操作数 |
获取批量 events 平均时间 | Time | ms | 获取批量 events 平均时间 |
更新批量 entities 操作数 | Ops | count | 更新批量 entities 操作数 |
更新批量 entities 的平均时间 | Time | ms | 更新批量 entities 的平均时间 |
更新 domain 操作数 | Ops | count | 更新 domain 操作数 |
更新 domain 平均时间 | Time | ms | 更新 domain 平均时间 |