HDFS-概览
标题 | 指标名称 | 指标单位 | 指标含义 |
集群存储容量 | CapacityTotal | GB | 集群存储总容量 |
| CapacityUsed | GB | 集群存储已使用容量 |
| CapacityRemaining | GB | 集群存储剩余容量 |
| CapacityUsedNonDFS | GB | 集群非 HDFS 使用容量 |
集群负载 | TotalLoad | 1 | 当前连接数 |
集群文件总数量 | FilesTotal | 个 | 总文件数量 |
BLOCKS 数量 | BlocksTotal | 个 | 总 BLOCK 数量 |
| PendingReplicationBlocks | 个 | 等待被备份的块数量 |
| UnderReplicatedBlocks | 个 | 副本数不够的块数量 |
| CorruptBlocks | 个 | 坏块数量 |
| ScheduledReplicationBlocks | 个 | 安排要备份的块数量 |
| PendingDeletionBlocks | 个 | 等待被删除的块数量 |
| ExcessBlocks | 个 | 多余的块数量 |
| PostponedMisreplicatedBlocks | 个 | 被推迟处理的异常块数量 |
BLOCK 容量 | BlockCapacity | 个 | BLOCK 容量 |
集群数据节点 | NumLiveDataNodes | 个 | 活的数据节点数量 |
| NumDeadDataNodes | 个 | 已经标记为 Dead 状态的数据节点数量 |
| NumDecomLiveDataNodes | 个 | 下线且 Live 的节点数量 |
| NumDecomDeadDataNodes | 个 | 下线且 Dead 的节点数量 |
| NumDecommissioningDataNodes | 个 | 正在下线的节点数量 |
| NumStaleDataNodes | 个 | 标记为过期状态的 DataNode 数目 |
HDFS 存储空间使用率 | CapacityUsedRate | 个 | HDFS 集群存储空间使用率 |
SNAPSHOT 相关 | Snapshots | 次 | Snapshots 数量 |
磁盘故障 | VolumeFailuresTotal | 次 | 所有 Datanodes 的卷故障总数 |
Blocks 数量 | MissingReplicatedBlocks | count | 丢失的副本块数量 |
HDFS-NameNode
标题 | 指标名称 | 指标单位 | 指标含义 |
JVM 内存 | MemNonHeapUsedM | MB | JVM 当前已经使用的 NonHeapMemory 的大小 |
| MemNonHeapCommittedM | MB | JVM 配置的 NonHeapCommittedM 的大小 |
| MemHeapUsedM | MB | JVM 当前已经使用的 HeapMemory 的大小 |
| MemHeapCommittedM | MB | JVM HeapMemory 提交大小 |
| MemHeapMaxM | MB | JVM 配置的 HeapMemory 的大小 |
| MemMaxM | MB | JVM 运行时可以使用的最大内存大小 |
堆内存使用率 | MemHeapUsedRate | % | JVM 当前已经使用的 HeapMemory 的数量所占 JVM 配置的 HeapMemory 的数量的百分比 |
数据块汇报延迟 | BlockReportAvgTime | 次/s | 每秒处理 DataNode Block 平均延迟 |
JVM 线程数量 | ThreadsNew | 个 | 处于 NEW 状态的线程数量 |
| ThreadsRunnable | 个 | 处于 RUNNABLE 状态的线程数量 |
| ThreadsBlocked | 个 | 处于 BLOCKED 状态的线程数量 |
| ThreadsWaiting | 个 | 处于 WAITING 状态的线程数量 |
| ThreadsTimedWaiting | 个 | 处于 TIMED WAITING 状态的线程数量 |
| ThreadsTerminated | 个 | 处于 Terminated 状态的线程数量 |
JVM 日志数量 | LogFatal | 个 | FATAL级别日志数量 |
| LogError | 个 | ERROR 级别日志数量 |
| LogWarn | 个 | WARN 级别日志数量 |
| LogInfo | 个 | INFO 级别日志数量 |
GC 次数 | YGC | 次 | Young GC 次数 |
| FGC | 次 | Full GC 次数 |
GC 时间 | FGCT | s | Full GC 消耗时间 |
| GCT | s | 垃圾回收时间消耗 |
| YGCT | s | Young GC 消耗时间 |
内存区域占比 | S0 | % | Survivor 0区内存使用占比 |
| S1 | % | Survivor 1区内存使用占比 |
| E | % | Eden 区内存使用占比 |
| O | % | Old 区内存使用占比 |
| M | % | Metaspace 区内存使用占比 |
| CCS | % | Compressed class space 区内存使用占比 |
被标记为过期的存储的数量 | NumStaleStorages | 个 | 所有过期 DataNode 的存储目总数 |
备 NN 上挂起的与 BLOCK 相关操作的消息数量 | PendingDataNodeMessageCount | 个/s | DATANODE 的请求被 QUEUE 在 standby namenode 中的个数 |
缺失块统计 | NumberOfMissingBlocks | 个 | 缺失的数据块数量 |
| NumberOfMissingBlocksWithReplicationFactorOne | 个 | 缺失的数据库数量(rf = 1) |
SNAPSHOT 操作 | AllowSnapshotOps | 次/s | 每秒执行 AllowSnapshot 操作的次数 |
| DisallowSnapshotOps | 次/s | 每秒执行 DisallowSnapshot 操作的次数 |
| CreateSnapshotOps | 次/s | 每秒执行 CreateSnapshot 操作的次数 |
| DeleteSnapshotOps | 次/s | 每秒执行 DeleteSnapshot 操作的次数 |
| ListSnapshottableDirOps | 次/s | 每秒执行 ListSnapshottableDir 操作次数 |
| SnapshotDiffReportOps | 次/s | 每秒执行 SnapshotDiffReportOps 的次数 |
| RenameSnapshotOps | 次/s | 每秒执行 RenameSnapshotOps 的次数 |
文件操作 | CreateFileOps | 次/s | 每秒执行 CreateFile 操作的次数 |
| GetListingOps | 次/s | 每秒执行 GetListing 操作的次数 |
| TotalFileOps | 次/s | 每秒执行 TotalFileOps 的次数 |
| DeleteFileOps | 次/s | 每秒执行 DeleteFile 操作的次数 |
| FileInfoOps | 次/s | 每秒执行 FileInfo 操作的次数 |
| GetAdditionalDatanodeOps | 次/s | 每秒执行 GetAdditionalDatanode 操作的次数 |
| CreateSymlinkOps | 次/s | 每秒执行 CreateSymlink 操作的次数 |
| GetLinkTargetOps | 次/s | 每秒执行 GetLinkTarget 操作的次数 |
| FilesInGetListingOps | 次/s | 每秒执行 FilesInGetListing 操作的次数 |
文件统计 | FilesDeleted | count | 文件和文件夹被删除或重命名的数量 |
| FilesCreated | count | 文件和文件夹创建数量 |
| FilesAppended | count | Appended 文件数量 |
文件数量 | FilesTotal | count | 文件数量 |
事务操作 | TransactionsNumOps | 次/s | 每秒处理 Journal transaction 操作的次数 |
| TransactionsBatchedInSync | 次/s | 每秒批量处理 Journal transaction 操作次数 |
镜像操作 | GetEditNumOps | 次/s | 每秒执行 GetEditNumOps 的次数 |
| GetImageNumOps | 次/s | 每秒执行 GetImageNumOps 的次数 |
| PutImageNumOps | 次/s | 每秒执行 PutImageNumOps 的次数 |
SYNC 操作 | SyncsNumOps | 次/s | 每秒处理 Journal syncs 操作的次数 |
数据块操作 | BlockReceivedAndDeletedOps | 次/s | 每秒执行 BlockReceivedAndDeletedOps 的次数 |
| BlockOpsQueued | 次/s | 处理 DataNode Block 上报操作的次数 |
缓存汇报 | CacheReportNumOps | 次/s | 每秒处理 CacheReport 操作的次数 |
数据块汇报 | BlockReportNumQps | 次/s | 每秒处理 DataNode Block 上报操作的次数 |
SYNCS 操作延迟 | SyncsAvgTime | ms | 处理 Journal syncs 操作的平均延迟 |
Cache 汇报延迟 | CacheReportAvgTime | ms | 缓存上报动作平均延迟 |
镜像操作延迟 | GetEditAvgTime | ms | 读取 Edit 文件操作平均延迟 |
| GetImageAvgTime | ms | 读取镜像文件平均延迟 |
| PutImageAvgTime | ms | 写入镜像文件平均延迟 |
事务操作延迟 | TransactionsAvgTime | ms | 处理 Journal Transaction 操作的平均延迟 |
启动时间 | StartTime | ms | 进程启动时间 |
主备情况 | State | 1 | NameNode HA 状态 |
主备情况 | State | 1:主 0:备 | NameNode 主备情况 |
线程数量 | PeakThreadCount | 个 | 峰值线程数 |
| ThreadCount | 个 | 线程数量 |
| DaemonThreadCount | 个 | 后台线程数量 |
上次 Checkpoint 以来事务总数 | SinceLastCheckpoint | count | 自上次检查点以来的总事务数 |
Checkpoint 时间 | LastCheckpoint | time | 上次 Checkpoint 以来的时间 |
等待文件锁的队列长度 | LockQueueLength | count | LockQueueLength 等待文件锁的队列长度 |
BLOCKS数量 | BlocksTotal | count | BLOCK 数量 |
| PendingReplicationBlocks | count | 等待被备份的块数量 |
| UnderReplicatedBlocks | count | 副本数不够的块数量 |
| CorruptBlocks | count | 坏块数量 |
| ScheduledReplicationBlocks | count | 安排要备份的块数量 |
| PendingDeletionBlocks | count | 等待被删除的块数量 |
| ExcessBlocks | count | 多余的块数量 |
| PostponedMisreplicatedBlocks | count | 被推迟处理的异常块数量 |
正在写入的文件数量 | NumFilesUnderConstruction | count | 正在写入的文件数量 |
数据流量 QPS(Client RPC) | ReceivedBytes | Bytes/s | 接收数据速率 |
| SentBytes | Bytes/s | 发送数据速率 |
QPS(Client RPC) | RpcQueueTimeNumOps | count/s | RPC 调用速率 |
请求处理延迟(Client RPC) | RpcQueueTimeAvgTime | ms | RPC 平均延迟时间 |
| RpcProcessingTimeAvgTime | ms | RPC 请求平均处理时间 |
验证和授权(Client RPC) | RpcAuthenticationFailures | count | RPC 验证失败次数 |
| RpcAuthenticationSuccesses | count | RPC 验证成功次数 |
| RpcAuthorizationFailures | count | RPC 授权失败次数 |
| RpcAuthorizationSuccesses | count | RPC 授权成功次数 |
当前连接数(Client RPC) | NumOpenConnections | count | 当前连接数量 |
RPC 处理队列长度(Client RPC) | CallQueueLength | count | 当前 RPC 处理队列长度 |
数据流量(Service RPC) | ReceivedBytes | Bytes/s | Service RPC 接收数据速率 |
| SentBytes | Bytes/s | Service RPC 发送数据速率 |
QPS(Service RPC) | RpcQueueTimeNumOps | count/s | Service RPC 调用速率 |
请求处理延迟(Service RPC) | RpcQueueTimeAvgTime | ms | Service RPC 平均延迟时间 |
| RpcProcessingTimeAvgTime | ms | Service RPC 请求平均处理时间 |
验证和授权 (Service RPC)
| RpcAuthenticationFailures | count | Service RPC 验证失败次数 |
| RpcAuthenticationSuccesses | count | Service RPC 验证成功次数 |
| RpcAuthorizationFailures | count | Service RPC 授权失败次数 |
| RpcAuthorizationSuccesses | count | Service RPC 授权成功次数 |
当前连接数(Service RPC) | NumOpenConnections | count | 当前Service RPC连接数量 |
RPC处理队列长度(Service RPC) | CallQueueLength | count | 当前 Service RPC 处理队列长度 |
RPC 平均时间(NameNode RPC) | CompleteAvgTime | ms | Complete 请求平均延迟时间 |
| CreateAvgTime | ms | Create 请求平均延迟时间 |
| RenameAvgTime | ms | Rename 请求平均延迟时间 |
| AddBlockAvgTime | ms | AddBlock 请求平均延迟时间 |
| GetListingAvgTime | ms | GetListing 请求平均延迟时间 |
| GetFileInfoAvgTime | ms | GetFileInfo 请求平均延迟时间 |
| SendHeartbeatAvgTime | ms | SendHeartbeat 请求平均延迟时间 |
RPC 平均时间(NameNode RPC) | RegisterDatanodeAvgTime | ms | RegisterDatanode 请求平均延迟时间 |
| BlockReportAvgTime | ms | BlockReport 请求平均延迟时间 |
| DeleteAvgTime | ms | Delete 请求平均延迟时间 |
| RenewLeaseAvgTime | ms | RenewLease 请求平均延迟时间 |
| BlockReceivedAndDeletedAvgTime | ms | BlockReceivedAndDeleted 请求平均延迟时间 |
| FsyncAvgTime | ms | Fsync 请求平均延迟时间 |
| VersionRequestAvgTime | ms | VersionRequest 请求平均延迟时间 |
RPC 平均时间(NameNode RPC) | ListEncryptionZonesAvgTime | ms | ListEncryptionZones 请求平均延迟时间 |
| SetPermissionAvgTime | ms | SetPermission 请求平均延迟时间 |
| SetTimesAvgTime | ms | SetTimes 请求平均延迟时间 |
| SetSafeModeAvgTime | ms | SetSafeMode 请求平均延迟时间 |
| MkdirsAvgTime | ms | Mkdirs 请求平均延迟时间 |
| GetServerDefaultsAvgTime | ms | GetServerDefaults 请求平均延迟时间 |
| GetBlockLocationsAvgTime | ms | GetBlockLocations 请求平均延迟时间 |
RPC 统计(NameNode RPC) | CompleteNumOps | 次/s | 每秒调用 Complete 的次数 |
| CreateNumOps | 次/s | 每秒调用 Create 的次数 |
| RenameNumOps | 次/s | 每秒调用 Rename 的次数 |
| AddBlockNumOps | 次/s | 每秒调用 AddBlock 的次数 |
| GetListingNumOps | 次/s | 每秒调用 GetListing 的次数 |
| GetFileInfoNumOps | 次/s | 每秒调用 GetFileInfo 的次数 |
| SendHeartbeatNumOps | 次/s | 每秒调用 SendHeartbeat 的次数 |
RPC 统计(NameNode RPC) | RegisterDatanodeNumOps | 次/s | 每秒调用 RegisterDatanode 的次数 |
| BlockReportNumOps | 次/s | 每秒调用 BlockReport 的次数 |
| DeleteNumOps | 次/s | 每秒调用 Delete 的次数 |
| RenewLeaseNumOps | 次/s | 每秒调用 RenewLease 的次数 |
| BlockReceivedAndDeletedNumOps | 次/s | 每秒调用 BlockReceivedAndDeleted 的次数 |
| FsyncNumOps | 次/s | 每秒调用 Fsync 的次数 |
| VersionRequestNumOps | 次/s | 每秒调用 VersionRequest 的次数 |
RPC 统计(NameNode RPC) | ListEncryptionZonesNumOps | 次/s | 每秒调用 ListEncryptionZones 的次数 |
| SetPermissionNumOps | 次/s | 每秒调用 SetPermission 的次数 |
| SetTimesNumOps | 次/s | 每秒调用 SetTimes 的次数 |
| SetSafeModeNumOps | 次/s | 每秒调用 SetSafeMode 的次数 |
| MkdirsNumOps | 次/s | 每秒调用 Mkdirs 的次数 |
| GetServerDefaultsNumOps | 次/s | 每秒调用 GetServerDefaults 的次数 |
| GetBlockLocationsNumOps | 次/s | 每秒调用 GetBlockLocations 的次数 |
Blocks 数量 | MissingReplicatedBlocks | count | 丢失的副本块数量 |
HDFS-DataNode
标题 | 指标名称 | 指标单位 | 指标含义 |
XCEIVER 数量 | XceiverCount | 个 | Xceiver 数量 |
数据读写速率 | BytesWrittenMB | Bytes/s | 写入 DN 的字节速率 |
| BytesReadMB | Bytes/s | 读取 DN 的字节速率 |
| RemoteBytesReadMB | Bytes/s | 远程客户端读取字节速率 |
| RemoteBytesWrittenMB | Bytes/s | 远程客户端写入字节速率 |
客户端连接数 | WritesFromRemoteClient | 个 | 来自远程客户端写操作 QPS |
| WritesFromLocalClient | 个 | 来自本地客户端写操作 OPS |
| ReadsFromRemoteClient | 个 | 来自远程客户端读操作 QPS |
| ReadsFromLocalClient | 个 | 来自本地客户端读操作 QPS |
Block校验失败 | BlockVerificationFailures | 次/s | BLOCK 校验失败数量 |
磁盘故障 | VolumeFailures | 次/s | 磁盘故障次数 |
网络错误 | DatanodeNetworkErrors | 次/s | 网络错误统计 |
心跳延迟 | HeartbeatsAvgTime | ms | 心跳接口平均时间 |
心跳 QPS | HeartbeatsNumOps | 次/s | 心跳接口 QPS |
包传输操作RT | SendDataPacketTransferNanosAvgTime | ms | 发送数据包平均时间 |
数据块操作 | ReadBlockOpNumOps | 次/s | 从 DataNode 读取 Block OPS |
| WriteBlockOpNumOps | 次/s | 向 DataNode 写入 Block OPS |
| BlockChecksumOpNumOps | 次/s | DataNode 进行 Checksum 操作的 OPS |
| CopyBlockOpNumOps | 次/s | 复制 Block 操作的 OPS |
| ReplaceBlockOpNumOps | 次/s | Replace Block 操作的 OPS |
| BlockReportsNumOps | 次/s | BLOCK 汇报动作的 OPS |
| IncrementalBlockReportsNumOps | 次/s | BLOCK 增量汇报的 OPS |
| CacheReportsNumOps | 次/s | 缓存汇报的 OPS |
| PacketAckRoundTripTimeNanosNumOps | 次/s | 每秒处理 ACK ROUND TRIP 次数 |
FSYNC 操作 | FsyncNanosNumOps | 次/s | 每秒处理 FSYNC 操作次数 |
FLUSH 操作 | FlushNanosNumOps | 次/s | 每秒处理 Flush 操作次数 |
数据块操作延迟统计 | ReadBlockOpAvgTime | ms | 读取 Block 操作平均时间 |
| WriteBlockOpAvgTime | ms | 写 Block 操作平均时间 |
| BlockChecksumOpAvgTime | ms | 块校验操作平均时间 |
| CopyBlockOpAvgTime | ms | 复制块操作平均时间 |
| ReplaceBlockOpAvgTime | ms | Replace Block 操作平均时间 |
| BlockReportsAvgTime | ms | 块汇报平均时间 |
| IncrementalBlockReportsAvgTime | ms | 增量块汇报平均时间 |
| CacheReportsAvgTime | ms | 缓存汇报平均时间 |
| PacketAckRoundTripTimeNanosAvgTime | ms | 处理 ACK ROUND TRIP 平均时间 |
FLUSH 延迟 | FlushNanosAvgTime | ns | Flush 操作平均时间 |
FSYNC 延迟 | FsyncNanosAvgTime | ns | Fsync 操作平均时间 |
RAMDISK Blocks | RamDiskBlocksWrite | 块/s | 写入内存的块的总数 |
| RamDiskBlocksWriteFallback | 块/s | 写入内存但未成功的块总数(故障转移到磁盘) |
| RamDiskBlocksDeletedBeforeLazyPersisted | 块/s | 应用程序在被保存到磁盘之前被删除的块的总数 |
| RamDiskBlocksReadHits | 块/s | 内存中的块被读取的总次数 |
| RamDiskBlocksEvicted | 块/s | 内存中被清除的块总数 |
| RamDiskBlocksEvictedWithoutRead | 块/s | 从内存中取出的内存块总数 |
| RamDiskBlocksLazyPersisted | 块/s | 惰性写入器写入磁盘的总数 |
| RamDiskBytesLazyPersisted | Bytes/s | 由惰性写入器写入磁盘的总字节数 |
RAMDISK 写入速度 | RamDiskBytesWrite | Bytes/s | 写入内存的总字节数 |
JVM 内存 | MemNonHeapUsedM | MB | JVM 当前已经使用的 NonHeapMemory 的大小 |
| MemNonHeapCommittedM | MB | JVM 配置的 NonHeapCommittedM 的大小 |
| MemHeapUsedM | MB | JVM 当前已经使用的 HeapMemory 的大小 |
| MemHeapCommittedM | MB | JVM HeapMemory 提交大小 |
| MemHeapMaxM | MB | JVM 配置的 HeapMemory 的大小 |
| MemMaxM | MB | JVM 运行时可以使用的最大内存大小 |
堆内存使用率 | MemHeapUsedRate | % | JVM 当前已经使用的 HeapMemory 的数量所占 JVM 配置的 HeapMemory 的数量的百分比 |
JVM 线程数量 | ThreadsNew | 个 | 处于 NEW 状态的线程数量 |
| ThreadsRunnable | 个 | 处于 RUNNABLE 状态的线程数量 |
| ThreadsBlocked | 个 | 处于 BLOCKED 状态的线程数量 |
| ThreadsWaiting | 个 | 处于 WAITING 状态的线程数量 |
| ThreadsTimedWaiting | 个 | 处于 TIMED WAITING 状态的线程数量 |
| ThreadsTerminated | 个 | 处于 Terminated 状态的线程数量 |
JVM 日志数量 | LogFatal | 个 | Fatal 日志数量 |
| LogError | 个 | Error 日志数量 |
| LogWarn | 个 | Warn 日志数量 |
| LogInfo | 个 | Info 日志数量 |
GC 次数 | YGC | 次 | Young GC 次数 |
| FGC | 次 | Full GC 次数 |
GC 时间 | FGCT | s | Full GC 消耗时间 |
| GCT | s | 垃圾回收时间消耗 |
| YGCT | s | Young GC 消耗时间 |
内存区域占比 | S0 | % | Survivor 0区内存使用占比 |
| E | % | Eden 区内存使用占比 |
| CCS | % | Compressed class space 区内存使用占比 |
| S1 | % | Survivor 1区内存使用占比 |
| O | % | Old 区内存使用占比 |
| M | % | Metaspace 区内存使用占比 |
数据速率 | ReceivedBytes | Bytes/s | 接收数据速率 |
| SentBytes | Bytes/s | 发送数据速率 |
QPS | RpcQueueTimeNumOps | 次/s | RPC 调用速率 |
请求处理延迟 | RpcQueueTimeAvgTime | ms | RPC 平均延迟时间 |
| RpcProcessingTimeAvgTime | 次/s | RPC 请求平均处理时间 |
验证和授权 | RpcAuthenticationFailures | 次/s | RPC 验证失败次数 |
| RpcAuthenticationSuccesses | 次/s | RPC 验证成功次数 |
| RpcAuthorizationFailures | 次/s | RPC 授权失败次数 |
| RpcAuthorizationSuccesses | 次/s | RPC 授权成功次数 |
当前连接数 | NumOpenConnections | 个 | 当前链接数量 |
RPC 处理队列长度 | CallQueueLength | 1 | 当前 RPC 处理队列长度 |
CPU 时间 | CurrentThreadSystemTime | ms | 系统时间 |
| CurrentThreadUserTime | ms | 用户时间 |
启动时间 | StartTime | s | 进程启动时间 |
线程数量 | PeckThreadCount | 个 | 峰值线程数量 |
| DaemonThreadCount | 个 | 后台线程数量 |
读写延迟 | write | ms | 写操作耗时 |
| read | ms | 读操作耗时 |
包传输操作 QPS | DataPacketOps | 次/s | 包传输操作 QPS |
Block 数量 | 跟盘信息相关例如:/data/qcloud/data/hdfs | 个 | Block 数量 |
使用磁盘容量 | 跟盘信息相关例如:/data/qcloud/data/hdfs | GB | 使用磁盘容量 |
空闲磁盘容量 | 跟盘信息相关例如:/data/qcloud/data/hdfs | GB | 空闲磁盘容量 |
预留磁盘容量 | 跟盘信息相关例如:/data/qcloud/data/hdfs | GB | 预留磁盘容量 |
HDFS-JournalNode
标题 | 指标名称 | 指标单位 | 指标含义 |
JVM 内存 | MemNonHeapUsedM | MB | JVM 当前已经使用的 NonHeapMemory 的大小 |
| MemNonHeapCommittedM | MB | JVM 配置的 NonHeapCommittedM 的大小 |
| MemHeapUsedM | MB | JVM 当前已经使用的 HeapMemory 的大小 |
| MemHeapCommittedM | MB | JVM HeapMemory 提交大小 |
| MemHeapMaxM | MB | JVM 配置的 HeapMemory 的大小 |
| MemMaxM | MB | JVM 运行时可以使用的最大内存大小 |
堆内存使用率 | MemHeapUsedRate | % | JVM 当前已经使用的 HeapMemory 的数量所占 JVM 配置的 HeapMemory 的数量的百分比 |
JVM 线程数量 | ThreadsNew | 个 | 处于 NEW 状态的线程数量 |
| ThreadsRunnable | 个 | 处于 RUNNABLE 状态的线程数量 |
| ThreadsBlocked | 个 | 处于 BLOCKED 状态的线程数量 |
| ThreadsWaiting | 个 | 处于 WAITING 状态的线程数量 |
| ThreadsTimedWaiting | 个 | 处于 TIMED WAITING 状态的线程数量 |
| ThreadsTerminated | 个 | 处于 Terminated 状态的线程数量 |
JVM 日志数量 | LogFatal | 个 | FATAL 级别日志数量 |
| LogError | 个 | ERROR 级别日志数量 |
| LogWarn | 个 | WARN 级别日志数量 |
| LogInfo | 个 | INFO 级别日志数量 |
GC 次数 | YGC | 次 | Young GC 次数 |
| FGC | 次 | Full GC 次数 |
GC 时间 | FGCT | s | Full GC 消耗时间 |
| GCT | s | 垃圾回收时间消耗 |
| YGCT | s | Young GC 消耗时间 |
内存区域占比 | S0 | % | Survivor 0区内存使用占比 |
| E | % | Eden 区内存使用占比 |
| CCS | % | Compressed class space 区内存使用占比 |
| S1 | % | Survivor 1区内存使用占比 |
| O | % | Old 区内存使用占比 |
| M | % | Metaspace 区内存使用占比 |
数据流量 | ReceivedBytes | Bytes/s | 接收数据速率 |
| SentBytes | Bytes/s | 发送数据速率 |
请求处理延迟 | RpcQueueTimeAvgTime | ms | RPC 平均延迟时间 |
验证和授权 | RpcAuthenticationFailures | 次/s | RPC 验证失败次数 |
| RpcAuthenticationSuccesses | 次/s | RPC 验证成功次数 |
| RpcAuthorizationFailures | 次/s | RPC 授权失败次数 |
| RpcAuthorizationSuccesses | 次/s | RPC 授权成功次数 |
当前连接数 | NumOpenConnections | 个 | 当前链接数量 |
RPC处理队列长度 | CallQueueLength | 1 | 当前 RPC 处理队列长度 |
CPU 时间 | CurrentThreadSystemTime | ms | 系统时间 |
| CurrentThreadUserTime | ms | 用户时间 |
启动时间 | StartTime | s | 进程启动时间 |
线程数量 | PeckThreadCount | 个 | 峰值线程数量 |
| DaemonThreadCount | 个 | 后台线程数量 |
HDFS-ZKFC
标题 | 指标名称 | 指标单位 | 指标含义 |
GC 次数 | YGC | 次 | Young GC 次数 |
| FGC | 次 | Full GC 次数 |
GC 时间 | FGCT | s | Full GC 消耗时间 |
| GCT | s | 垃圾回收时间消耗 |
| YGCT | s | Young GC 消耗时间 |
内存区域占比 | S0 | % | Survivor 0区内存使用占比 |
| E | % | Eden 区内存使用占比 |
| CCS | % | Compressed class space 区内存使用占比 |
| S1 | % | Survivor 1区内存使用占比 |
| O | % | Old 区内存使用占比 |
| M | % | Metaspace 区内存使用占比 |
HDFS-Router
标题 | 指标名称 | 指标单位 | 指标含义 |
GC 次数 | YGC | count | Young GC 次数 |
| FGC | count | Full GC 次数 |
GC 时间 | FGCT | s | Full GC 消耗时间 |
| GCT | s | 垃圾回收时间消耗 |
| YGCT | s | Young GC 消耗时间 |
内存区域占比 | S0 | % | Survivor 0区内存使用占比 |
| E | % | Eden 区内存使用占比 |
| CCS | % | Compressed class space 区内存使用占比 |
| S1 | % | Survivor 1区内存使用占比 |
| O | % | Old 区内存使用占比 |
| M | % | Metaspace 区内存使用占比 |
JVM 线程数量 | ThreadsNew | count | 处于 NEW 状态的线程数量 |
| ThreadsRunnable | count | 处于 RUNNABLE 状态的线程数量 |
| ThreadsBlocked | count | 处于 BLOCKED 状态的线程数量 |
| ThreadsWaiting | count | 处于 WAITING 状态的线程数量 |
| ThreadsTimedWaiting | count | 处于 TIMED WAITING 状态的线程数量 |
| ThreadsTerminated | count | 处于 Terminated 状态的线程数量 |
JVM 日志数量 | LogFatal | count | FATAL 级别日志数量 |
| LogError | count | ERROR 级别日志数量 |
| LogWarn | count | WARN 级别日志数量 |
| LogInfo | count | INFO 级别日志数量 |
JVM 内存 | MemNonHeapUsedM | MB | 进程使用的非堆内存大小 |
| MemNonHeapCommittedM | MB | 进程 commit 的非堆内存大小 |
| MemHeapUsedM | MB | 进程使用的堆内存大小 |
| MemHeapCommittedM | MB | 进程 commit 的堆内存大小 |
| MemHeapMaxM | MB | 进程最大的堆内存大小 |
| MemMaxM | MB | 进程最大内存大小 |
线程数量 | DaemonThreadCount | count | 进程的 Daemon 线程数 |
| ThreadCount | count | 进程的线程数 |
| PeakThreadCount | count | 进程的 Peak 线程数 |
数据流量 | ReceivedBytes | Bytes/s | 接收数据速率 |
| SentBytes | Bytes/s | 发送数据速率 |
QPS | RpcQueueTimeNumOps | 次/s | RPC 调用速率 |
请求处理延迟 | RpcQueueTimeAvgTime | ms | RPC 平均延迟时间 |
| RpcProcessingTimeAvgTime | ms | RPC 请求平均处理时间 |
验证和授权 | RpcAuthenticationFailures | count | RPC验证失败次数 |
| RpcAuthenticationSuccesses | count | RPC 验证成功次数 |
| RpcAuthorizationFailures | count | RPC 授权失败次数 |
| RpcAuthorizationSuccesses | count | RPC 授权成功次数 |
当前连接数 | NumOpenConnections | count | 当前连接数量 |
RPC 处理队列长度 | CallQueueLength | count | 当前 RPC 处理队列长 度 |
堆内存使用率 | MemHeapUsedRate | % | 堆内存使用占比 |
文件数量 | NumFiles | count | 当前文件和目录的数量 |
nameservices 数量 | NumNameservice s | count | nameservices 的数量 |
namenodes 数量 | NumExpiredNamenodes | count | 过期的 namenodes 的数量 |
| NumNamenodes | count | namenodes 的数量 |
Router 操作数 | ProcessingOp | count /s | 每秒 Router 内部处理的 操作数 |
| ProxyOp | count/s | 每秒 Router 代理到 Namenode 的操作数量 |
失败请求数 | RouterFailureStateStore | count/s | 每秒由于状态存储不可用而导致的失败请求数 |
| RouterFailureReadOnly | count/s | 每秒由于只读挂载点而导致的失败请求数 |
| RouterFailureLocked | count/s | 每秒由于路径锁定而导致的失败请求数 |
| RouterFailureSafemode | count/s | 每秒由于安全模式而导致的失败请求数 |
Router 处理操作平均时间 | ProcessingAvgTime | ns | Router 处理操作的平均时间 |
| ProxyAvgTime | ns | Router 代理操作到 Namenodes 的平均时间 |
StateStore 事务操作 | ReadsNumOps | count/s | 每秒 GET 事务数 |
| WritesNumOps | count/s | 每秒 PUT 事务数 |
| RemovesNumOps | count/s | 每秒 REMOVE 事务数 |
| FailuresNumOps | count/s | 每秒失败事务数 |
StateStore 事务操作平均时间 | ReadsAvgTime | ms | State Store 的 GET 事务平均时间 |
| WritesAvgTime | ms | State Store 进行 PUT 事务的平均时间 |
| RemovesAvgTime | ms | State Store 进行 REMOVE 事务的平均时间 |
| FailuresAvgTime | ms | State Store 失败事务的平均时间 |