KUDU-概览
标题 | 指标名称 | 指标单位 | 指标含义 |
tablet 数 | TabletRunning | 个 | 所有 tablet server 中当前正在运行的 tablet 总个数 |
tablet 副本数差 | ClusterReplicaSkew | 个 | 承载最多副本的 tablet 服务器上的副本数与承载最少副本的 tablet 服务器上的副本数之间的差异 |
tserver 线程数 | ThreadsRunning | 个 | 所有 tablet server 中当前正在运行的线程数 |
master 线程数 | ThreadsRunning | 个 | 所有 master 中当前正在运行的线程数 |
tserver 日志数 | ErrorMessages | 个 | 所有进程中发出的 ERROR 级日志消息数 |
master 日志数 | ErrorMessages | 个 | 所有进程中发出的 ERROR 级日志消息数 |
| WarningMessages | 个 | 所有进程中发出的 WARNING 级日志消息数 |
过大的写请求数 | OversizedWriteRequests | 个 | 启动后 master 拒绝的对 system catalog tablet 的过大写请求数 |
KUDU-Server
标题 | 指标名称 | 指标单位 | 指标含义 |
块缓存命中 | BlockCacheHit | 次 | 预期并命中块的查找数。当确定缓存的效率时,使用此值代替 cache_hits |
| BlockCacheMiss | 次 | 预期但未命中块的查找数。当确定缓存的效率时,使用此值代替 cache_misses |
块缓存使用率 | BlockCacheUsage | bytes | 块缓存占用的内存 |
文件缓存命中 | FileCacheHit | 次 | 预期并命中文件描述符的查找数。当确定缓存的效率时,使用此值代替 cache_hits |
| FileCacheMiss | 次 | 预期但未命中文件描述符的查找数。当确定缓存的效率时,使用此值代替cache_misses |
文件缓存使用率 | FileCacheUsage | 个 | 文件缓存中的条目数 |
Scanner | ActiveScanners | 个 | 当前处于活动状态的 scanner 个数 |
| ExpiredScanners | 个 | 自服务启动后由于不活动而过期的 scanner 个数 |
块管理器 block 数 | BlockUnderManagement | 个 | 当前管理的数据块数 |
| BlockOpenReading | 个 | 当前打开供读取的数据块数 |
| BlockOpenWriting | 个 | 当前打开进行写入的数据块数 |
块管理器字节数 | BytesUnderManagement | bytes | 当前管理的数据块字节数 |
块管理器容器数 | ContainersUnderManagement | 个 | 日志块容器数 |
| FullContainersUnderManagement | 个 | 完整日志块容器数 |
tablet leader个数 | NumRaftLeaders | 个 | Raft leaders的tablet副本数量 |
tablet session 数 | OpenClientSessions | 个 | 此服务器上当前打开的 tablet 复制客户端 session 个数 |
| OpenSourceSessions | 个 | 此服务器上当前打开的 tablet 复制源 session 个数 |
tablet 数 | TabletBootstrapping | 个 | 当前正在 bootstrap 的 tablet 个数 |
| TabletFailed | 个 | 失败的 tablet 个数 |
| TabletInitialized | 个 | 当前初始化过的 tablet 个数 |
| TabletNotInitialized | 个 | 当前未初始化过的 tablet 个数 |
| TabletRunning | 个 | 当前正在运行的 tablet 个数/当前正在运行的线程数 |
| TabletShutdown | 个 | 当前关闭的 tablet 个数 |
| TabletStopped | 个 | 当前停止的 tablet 个数 |
| TabletStopping | 个 | 当前正在停止的 tablet 个数 |
Cpu 时间 | CpuStime | 毫秒 | 进程的总系统 CPU 时间 |
| CpuUtime | 毫秒 | 进程的用户 CPU 总时间 |
数据路径 | DataDirsFailed | 个 | 磁盘当前处于故障状态的数据目录数 |
| DataDirsFull | 个 | 磁盘当前已满的数据目录数 |
线程 | ThreadsRunning | 个 | 当前正在运行的线程数 |
上下文 | InvoluntarySwitches | 次 | 非自发的上下文切换 |
| VoluntarySwitches | 次 | 自发的上下文切换 |
自旋锁 | SpinlockContentionTime | 微秒 | 自服务器启动后,内部自旋锁上的争用所消耗的时间量 |
日志信息 | ErrorMessages | 个 | 应用程序发出的 ERROR 级日志消息数 |
| WarningMessages | 个 | 应用程序发出的 WARNING 级日志消息数 |
队列中操作数 | TotalCount | 个 | 总数 |
| Min | 个 | 队列中最小等待任务数 |
| Max | 个 | 队列中最大等待任务数 |
| Mean | 个 | 队列中平均等待任务数 |
| Percentile_99_9 | 个 | 队列中等待任务数的99.9分位数 |
操作运行时间 | TotalCount | 微秒 | 总操作数 |
| Min | 微秒 | 最小运行时间 |
| Max | 微秒 | 最大运行时间 |
| Mean | 微秒 | 平均运行时间 |
| Percentile_99_9 | 微秒 | 运行时间的99.9分位数 |
排队等待时间 | TotalCount | 微秒 | 总操作数 |
| Min | 微秒 | 最小等待时间 |
| Max | 微秒 | 最大等待时间 |
| Mean | 微秒 | 平均等待时间 |
| Percentile_99_9 | 微秒 | 等待时间的99.9分位数 |
分配的字节 | AllocatedBytes | bytes | 应用程序使用的字节数。这通常与操作系统报告的内存使用情况不匹配,因为它不包括TCMalloc开销或内存碎片 |
混合时钟错误 | HybridClockError | 微秒 | 服务器时钟最大错误;无法读取基础时钟时返回2^64-1 |
混合时钟时间戳 | HybridClockTimestamp | 微秒 | 混合时钟时间戳;无法读取基础时钟时返回2^64-1 |
TCMalloc 内存 | HeapSize | bytes | TCMalloc 保留的系统内存字节 |
| CurrentThreadCacheBytes | bytes | TCMalloc 正在使用的内存的度量(对于小对象) |
| TotalThreadCacheBytes | bytes | TCMalloc 用于小对象的内存限制 |
TCMalloc PageHeap | FreeBytes | bytes | 页堆中可用的映射页的字节数 |
| UnMappedBytes | bytes | 页堆中空闲的未映射页的字节数 |
RPC 请求 | ConnectionsAccepted | 个 | 到 RPC 服务器的连入 TCP 连接数 |
| QueueOverflow | 个 | 由于服务队列已满而丢弃的 RPC 数 |
| TimesOutInQueue | 个 | 在服务队列中等待时超时并因此未被处理的 RPC 数 |
RPC FetchData | TotalCount | 微秒 | 总操作数 |
| Min | 微秒 | 最小处理时间 |
| Max | 微秒 | 最大处理时间 |
| Mean | 微秒 | 平均处理时间 |
| Percentile_99_9 | 微秒 | 处理时间的99.9分位数 |
RPC AlterSchema | TotalCount | 微秒 | 总操作数 |
| Min | 微秒 | 最小处理时间 |
| Max | 微秒 | 最大处理时间 |
| Mean | 微秒 | 平均处理时间 |
| Percentile_99_9 | 微秒 | 处理时间的99.9分位数 |
RPC CreateTablet | TotalCount | 微秒 | 总操作数 |
| Min | 微秒 | 最小处理时间 |
| Max | 微秒 | 最大处理时间 |
| Mean | 微秒 | 平均处理时间 |
| Percentile_99_9 | 微秒 | 处理时间的99.9分位数 |
RPC DeleteTablet | TotalCount | 微秒 | 总操作数 |
| Min | 微秒 | 最小处理时间 |
| Max | 微秒 | 最大处理时间 |
| Mean | 微秒 | 平均处理时间 |
| Percentile_99_9 | 微秒 | 处理时间的99.9分位数 |
RPC Quiesce | TotalCount | 微秒 | 总操作数 |
| Min | 微秒 | 最小处理时间 |
| Max | 微秒 | 最大处理时间 |
| Mean | 微秒 | 平均处理时间 |
| Percentile_99_9 | 微秒 | 处理时间的99.9分位数 |
RPC Scan | TotalCount | 微秒 | 总操作数 |
| Min | 微秒 | 最小处理时间 |
| Max | 微秒 | 最大处理时间 |
| Mean | 微秒 | 平均处理时间 |
| Percentile_99_9 | 微秒 | 处理时间的99.9分位数 |
RPC ScannerKeepAlive | TotalCount | 微秒 | 总操作数 |
| Min | 微秒 | 最小处理时间 |
| Max | 微秒 | 最大处理时间 |
| Mean | 微秒 | 平均处理时间 |
| Percentile_99_9 | 微秒 | 处理时间的99.9分位数 |
RPC Write | TotalCount | 微秒 | 总操作数 |
| Min | 微秒 | 最小处理时间 |
| Max | 微秒 | 最大处理时间 |
| Mean | 微秒 | 平均处理时间 |
| Percentile_99_9 | 微秒 | 处理时间的99.9分位数 |
队列过载拒写数 | QueueOverloadRejections | count | 因队列过载被拒绝写请求数 |
scanner 速率 | ScannedFromDiskRate | bytes/s | 每秒 scanner 数据量 |
| ScannerReturnedRate | bytes/s | 每秒 scanner 数据量 |
scanner 总量 | ScannedFromDisk | bytes | 从硬盘 scanner 数据总量 |
| ScannerReturned | bytes | scanner 返回数据总量 |
行操作总量 | RowsInserted | count | 节点插入 Row 的数量 |
| RowsDeleted | count | 节点删除 Row 的数量 |
| RowsUpserted | count | 节点 Upserted Row 的数量 |
| RowsUpdated | count | 节点更新 Row 的数量 |
行操作速率 | RowsInsertedRate | count/s | 节点每秒插入 Row 的数量 |
| RowsDeletedRate | count/s | 节点每秒删除 Row 的数量 |
| RowsUpsertedRate | count/s | 节点每秒 Upserted Row 的数量 |
| RowsUpdatedRate | count/s | 节点每秒更新 Row 的数量 |
ExpScanner | ExpiredScanners | 个/秒 | 指标采集周期内平均每秒自服务启动后由于不活动而过期的scanner个数 |
Mem Rowset | Total | bytes | 节点已使用tablet’s memrowset 的大小 |
内存刷新 | DeltaMemStore | count | DeltaMemStore 刷新数量 |
| MemRowSet | count | MemRowSet 刷新数量 |
Disk Rowsets统计 | Total | count | 节点 tablet diskrowsets 总量 |
| Avg | count | 节点 tablet 平均diskrowsets数量 |
| Max | count | 节点tablet最大diskrowsets 数量 |
tablet数据大小 | OnDisk | bytes | 节点上tablet 数据大小 |
Disk Rowsets 平均高度 | Total | count | 节点上tablet总的diskrowsets平均高度 |
| Avg | count | 节点上tablet的平均的diskrowsets平均高度 |
| Max | count | 节点上tablet的最大diskrowsets平均高度 |
Compactions Running 统计 | RowSet | count | 节点上tablet的RowSet合并总大小 |
| Major Delta | count | 节点上tablet的Major Delta合并总大小 |
| Minor Delta | count | 节点上tablet的Minor Delta合并总大小 |
Tablet 缓存刷新 | Bytes Flushed | bytes/s | 在指标采集周期内平均每秒节点上 tablet 缓存刷新数据量 |
RPC 拒绝请求 | leader | 个/秒 | 在指标采集周期内平均每秒leader由于内存压力而被拒绝的RPC请求数 |
| follower | 个/秒 | 在指标采集周期内平均每秒follower由于内存压力而被拒绝的RPC请求数 |
接入队列时间 | TotalCount,Percentile_99,Min,Max,Mean | 微秒 | 接入RPC请求在工作队列中处理时间的99分位数 |
Scanner时间 | TotalCount,Percentile_99,Min,Max,Mean | 微秒 | 扫描持续时间 的99分位数 |
进程内存 | AllocatedMB | MB | 应用程序使用的字节数转换位 MB。这通常与操作系统报告的内存使用情况不匹配,因为它不包括TCMalloc开销或内存碎片。 |
| MemLimit | MB | kuduserver 配置的内存限制阈值 |
内存使用占比 | UsedRate | % | 节点已使用内存 AllocatedMB/配置限制内存 MemLimit |
KUDU-Master
标题 | 指标名称 | 指标单位 | 指标含义 |
块缓存命中 | BlockCacheHit | 次 | 期望一个块并查找到的次数。当确定缓存的效率时,使用此值代替cache_hits |
| BlockCacheMiss | 次 | 预期未生成块的查找数。使用此值来确定缓存的效率,而不是cache_misses |
块缓存使用率 | BlockCacheUsage | bytes | 块缓存占用的内存 |
文件缓存命中 | FileCacheHit | 次 | 预期并命中文件描述符的查找数。当确定缓存的效率时,使用此值代替 cache_hits |
| FileCacheMiss | 次 | 预期但未命中文件描述符的查找数。当确定缓存的效率时,使用此值代替cache_misses |
文件缓存使用率 | FileCacheUsage | 个 | 文件缓存中的条目数 |
块管理器 block 数 | BlockUnderManagement | 个 | 当前管理的数据块数 |
| BlockOpenReading | 个 | 当前打开供读取的数据块数 |
| BlockOpenWriting | 个 | 当前打开进行写入的数据块数 |
块管理器字节数 | BytesUnderManagement | bytes | 当前管理的数据块字节数 |
块管理器容器数 | ContainersUnderManagement | 个 | 日志块容器数 |
| FullContainersUnderManagement | 个 | 完整日志块容器数 |
Cpu 时间 | CpuStime | 毫秒 | 进程的总系统 CPU 时间 |
| CpuUtime | 毫秒 | 进程的用户 CPU 总时间 |
线程 | ThreadsRunning | 个 | 当前正在运行的线程数 |
数据路径 | DataDirsFailed | 个 | 磁盘当前处于故障状态的数据目录数 |
| DataDirsFull | 个 | 磁盘当前已满的数据目录数 |
分配的字节 | AllocatedBytes | bytes | 应用程序使用的字节数。这通常与操作系统报告的内存使用情况不匹配,因为它不包括TCMalloc开销或内存碎片 |
日志信息 | ErrorMessages | 个 | 应用程序发出的 ERROR 级日志消息数 |
| WarningMessages | 个 | 应用程序发出的 WARNING 级日志消息数 |
上下文 | InvoluntarySwitches | 次 | 非自发的上下文切换 |
| VoluntarySwitches | 次 | 自发的上下文切换 |
队列中操作数 | TotalCount | 个 | 总数 |
| Min | 个 | 队列中最小等待任务数 |
| Max | 个 | 队列中最大等待任务数 |
| Mean | 个 | 队列中平均等待任务数 |
| Percentile_99_9 | 个 | 队列中等待任务数的99.9分位数 |
排队等待时间 | TotalCount | 微秒 | 总操作数 |
| Min | 微秒 | 最小等待时间 |
| Max | 微秒 | 最大等待时间 |
| Mean | 微秒 | 平均等待时间 |
| Percentile_99_9 | 微秒 | 等待时间的99.9分位数 |
操作运行时间 | TotalCount | 微秒 | 总操作数 |
| Min | 微秒 | 最小运行时间 |
| Max | 微秒 | 最大运行时间 |
| Mean | 微秒 | 平均运行时间 |
| Percentile_99_9 | 微秒 | 运行时间的99.9分位数 |
自旋锁 | SpinlockContentionTime | 微秒 | 自服务器启动后,内部自旋锁上的争用所消耗的时间量 |
过大的读请求数 | OversizedWriteRequests | 个 | 启动后拒绝的对system catalog tablet的过大写请求数 |
混合时钟错误 | HybridClockError | 微秒 | 服务器时钟最大错误;无法读取基础时钟时返回2^64-1 |
混合时钟时间戳 | HybridClockTimestamp | 微秒 | 混合时钟时间戳;无法读取基础时钟时返回2^64-1 |
tablet 副本差值 | ClusterReplicaSkew | 个 | 承载最多副本的 tablet 服务器上的副本数与承载最少副本的 tablet 服务器上的副本数之间的差异 |
tablet leader个数 | NumRaftLeaders | 个 | Raft leaders的tablet副本数量 |
tablet session 数 | OpenSourceSessions | 个 | 此服务器上当前打开的 tablet 复制源 session 个数 |
TCMalloc 内存 | HeapSize | bytes | TCMalloc 保留的系统内存字节 |
| CurrentThreadCacheBytes | bytes | TCMalloc 正在使用的内存的度量(对于小对象) |
| TotalThreadCacheBytes | bytes | TCMalloc 用于小对象的内存限制 |
TCMalloc PageHeap | FreeBytes | bytes | 页堆中可用的映射页的字节数 |
| UnMappedBytes | bytes | 页堆中空闲的未映射页的字节数 |
RPC 请求 | ConnectionsAccepted | 个 | 到 RPC 服务器的连入 TCP 连接数 |
| QueueOverflow | 个 | 由于服务队列已满而丢弃的 RPC 数 |
| TimesOutInQueue | 个 | 在服务队列中等待时超时并因此未被处理的 RPC 数 |
RPC RunLeaderElection | TotalCount | 微秒 | 总操作数 |
| Min | 微秒 | 最小处理时间 |
| Max | 微秒 | 最大处理时间 |
| Mean | 微秒 | 平均处理时间 |
| Percentile_99_9 | 微秒 | 处理时间的99.9分位数 |
RPC ConnectToMaster | TotalCount | 微秒 | 总操作数 |
| Min | 微秒 | 最小处理时间 |
| Max | 微秒 | 最大处理时间 |
| Mean | 微秒 | 平均处理时间 |
| Percentile_99_9 | 微秒 | 处理时间的99.9分位数 |
RPC Ping | TotalCount | 微秒 | 总操作数 |
| Min | 微秒 | 最小处理时间 |
| Max | 微秒 | 最大处理时间 |
| Mean | 微秒 | 平均处理时间 |
| Percentile_99_9 | 微秒 | 处理时间的99.9分位数 |
RPC TSHeartbeat | TotalCount | 微秒 | 总操作数 |
| Min | 微秒 | 最小处理时间 |
| Max | 微秒 | 最大处理时间 |
| Mean | 微秒 | 平均处理时间 |
| Percentile_99_9 | 微秒 | 处理时间的99.9分位数 |
RPC FetchData | TotalCount | 微秒 | 总操作数 |
| Min | 微秒 | 最小处理时间 |
| Max | 微秒 | 最大处理时间 |
| Mean | 微秒 | 平均处理时间 |
| Percentile_99_9 | 微秒 | 处理时间的99.9分位数 |