Kudu 监控指标

最近更新时间:2024-10-31 15:06:32

我的收藏

KUDU-概览

标题
指标名称
指标单位
指标含义
tablet 数
TabletRunning
所有 tablet server 中当前正在运行的 tablet 总个数
tablet 副本数差
ClusterReplicaSkew
承载最多副本的 tablet 服务器上的副本数与承载最少副本的 tablet 服务器上的副本数之间的差异
tserver 线程数
ThreadsRunning
所有 tablet server 中当前正在运行的线程数
master 线程数
ThreadsRunning
所有 master 中当前正在运行的线程数
tserver 日志数
ErrorMessages
所有进程中发出的 ERROR 级日志消息数
master 日志数
ErrorMessages
所有进程中发出的 ERROR 级日志消息数
WarningMessages
所有进程中发出的 WARNING 级日志消息数
过大的写请求数
OversizedWriteRequests
启动后 master 拒绝的对 system catalog tablet 的过大写请求数

KUDU-Server

标题
指标名称
指标单位
指标含义
块缓存命中
BlockCacheHit
预期并命中块的查找数。当确定缓存的效率时,使用此值代替 cache_hits
BlockCacheMiss
预期但未命中块的查找数。当确定缓存的效率时,使用此值代替 cache_misses
块缓存使用率
BlockCacheUsage
bytes
块缓存占用的内存
文件缓存命中
FileCacheHit
预期并命中文件描述符的查找数。当确定缓存的效率时,使用此值代替 cache_hits
FileCacheMiss
预期但未命中文件描述符的查找数。当确定缓存的效率时,使用此值代替cache_misses
文件缓存使用率
FileCacheUsage
文件缓存中的条目数
Scanner
ActiveScanners
当前处于活动状态的 scanner 个数
ExpiredScanners
自服务启动后由于不活动而过期的 scanner 个数
块管理器 block 数
BlockUnderManagement
当前管理的数据块数
BlockOpenReading
当前打开供读取的数据块数
BlockOpenWriting
当前打开进行写入的数据块数
块管理器字节数
BytesUnderManagement
bytes
当前管理的数据块字节数
块管理器容器数
ContainersUnderManagement
日志块容器数
FullContainersUnderManagement
完整日志块容器数
tablet leader个数
NumRaftLeaders
Raft leaders的tablet副本数量
tablet session 数
OpenClientSessions
此服务器上当前打开的 tablet 复制客户端 session 个数
OpenSourceSessions
此服务器上当前打开的 tablet 复制源 session 个数
tablet 数
TabletBootstrapping
当前正在 bootstrap 的 tablet 个数
TabletFailed
失败的 tablet 个数
TabletInitialized
当前初始化过的 tablet 个数
TabletNotInitialized
当前未初始化过的 tablet 个数
TabletRunning
当前正在运行的 tablet 个数/当前正在运行的线程数
TabletShutdown
当前关闭的 tablet 个数
TabletStopped
当前停止的 tablet 个数
TabletStopping
当前正在停止的 tablet 个数
Cpu 时间
CpuStime
毫秒
进程的总系统 CPU 时间
CpuUtime
毫秒
进程的用户 CPU 总时间
数据路径
DataDirsFailed
磁盘当前处于故障状态的数据目录数
DataDirsFull
磁盘当前已满的数据目录数
线程
ThreadsRunning
当前正在运行的线程数
上下文
InvoluntarySwitches
非自发的上下文切换
VoluntarySwitches
自发的上下文切换
自旋锁
SpinlockContentionTime
微秒
自服务器启动后,内部自旋锁上的争用所消耗的时间量
日志信息
ErrorMessages
应用程序发出的 ERROR 级日志消息数
WarningMessages
应用程序发出的 WARNING 级日志消息数
队列中操作数
TotalCount
总数
Min
队列中最小等待任务数
Max
队列中最大等待任务数
Mean
队列中平均等待任务数
Percentile_99_9
队列中等待任务数的99.9分位数
操作运行时间
TotalCount
微秒
总操作数
Min
微秒
最小运行时间
Max
微秒
最大运行时间
Mean
微秒
平均运行时间
Percentile_99_9
微秒
运行时间的99.9分位数
排队等待时间
TotalCount
微秒
总操作数
Min
微秒
最小等待时间
Max
微秒
最大等待时间
Mean
微秒
平均等待时间
Percentile_99_9
微秒
等待时间的99.9分位数
分配的字节
AllocatedBytes
bytes
应用程序使用的字节数。这通常与操作系统报告的内存使用情况不匹配,因为它不包括TCMalloc开销或内存碎片
混合时钟错误
HybridClockError
微秒
服务器时钟最大错误;无法读取基础时钟时返回2^64-1
混合时钟时间戳
HybridClockTimestamp
微秒
混合时钟时间戳;无法读取基础时钟时返回2^64-1
TCMalloc 内存
HeapSize
bytes
TCMalloc 保留的系统内存字节
CurrentThreadCacheBytes
bytes
TCMalloc 正在使用的内存的度量(对于小对象)
TotalThreadCacheBytes
bytes
TCMalloc 用于小对象的内存限制
TCMalloc PageHeap
FreeBytes
bytes
页堆中可用的映射页的字节数
UnMappedBytes
bytes
页堆中空闲的未映射页的字节数
RPC 请求
ConnectionsAccepted
到 RPC 服务器的连入 TCP 连接数
QueueOverflow
由于服务队列已满而丢弃的 RPC 数
TimesOutInQueue
在服务队列中等待时超时并因此未被处理的 RPC 数
RPC FetchData
TotalCount
微秒
总操作数
Min
微秒
最小处理时间
Max
微秒
最大处理时间
Mean
微秒
平均处理时间
Percentile_99_9
微秒
处理时间的99.9分位数
RPC AlterSchema
TotalCount
微秒
总操作数
Min
微秒
最小处理时间
Max
微秒
最大处理时间
Mean
微秒
平均处理时间
Percentile_99_9
微秒
处理时间的99.9分位数
RPC CreateTablet
TotalCount
微秒
总操作数
Min
微秒
最小处理时间
Max
微秒
最大处理时间
Mean
微秒
平均处理时间
Percentile_99_9
微秒
处理时间的99.9分位数
RPC DeleteTablet
TotalCount
微秒
总操作数
Min
微秒
最小处理时间
Max
微秒
最大处理时间
Mean
微秒
平均处理时间
Percentile_99_9
微秒
处理时间的99.9分位数
RPC Quiesce
TotalCount
微秒
总操作数
Min
微秒
最小处理时间
Max
微秒
最大处理时间
Mean
微秒
平均处理时间
Percentile_99_9
微秒
处理时间的99.9分位数
RPC Scan
TotalCount
微秒
总操作数
Min
微秒
最小处理时间
Max
微秒
最大处理时间
Mean
微秒
平均处理时间
Percentile_99_9
微秒
处理时间的99.9分位数
RPC ScannerKeepAlive
TotalCount
微秒
总操作数
Min
微秒
最小处理时间
Max
微秒
最大处理时间
Mean
微秒
平均处理时间
Percentile_99_9
微秒
处理时间的99.9分位数
RPC Write
TotalCount
微秒
总操作数
Min
微秒
最小处理时间
Max
微秒
最大处理时间
Mean
微秒
平均处理时间
Percentile_99_9
微秒
处理时间的99.9分位数
队列过载拒写数
QueueOverloadRejections
count
因队列过载被拒绝写请求数
scanner 速率
ScannedFromDiskRate
bytes/s
每秒 scanner 数据量
ScannerReturnedRate
bytes/s
每秒 scanner 数据量
scanner 总量
ScannedFromDisk
bytes
从硬盘 scanner 数据总量
ScannerReturned
bytes
scanner 返回数据总量
行操作总量
RowsInserted
count
节点插入 Row 的数量
RowsDeleted
count
节点删除 Row 的数量
RowsUpserted
count
节点 Upserted Row 的数量
RowsUpdated
count
节点更新 Row 的数量
行操作速率
RowsInsertedRate
count/s
节点每秒插入 Row 的数量
RowsDeletedRate
count/s
节点每秒删除 Row 的数量
RowsUpsertedRate
count/s
节点每秒 Upserted Row 的数量
RowsUpdatedRate
count/s
节点每秒更新 Row 的数量
ExpScanner
ExpiredScanners
个/秒
指标采集周期内平均每秒自服务启动后由于不活动而过期的scanner个数
Mem Rowset
Total
bytes
节点已使用tablet’s memrowset 的大小
内存刷新
DeltaMemStore
count
DeltaMemStore 刷新数量
MemRowSet
count
MemRowSet 刷新数量
Disk Rowsets统计
Total
count
节点 tablet diskrowsets 总量
Avg
count
节点 tablet 平均diskrowsets数量
Max
count
节点tablet最大diskrowsets 数量
tablet数据大小
OnDisk
bytes
节点上tablet 数据大小
Disk Rowsets 平均高度
Total
count
节点上tablet总的diskrowsets平均高度
Avg
count
节点上tablet的平均的diskrowsets平均高度
Max
count
节点上tablet的最大diskrowsets平均高度
Compactions Running 统计
RowSet
count
节点上tablet的RowSet合并总大小
Major Delta
count
节点上tablet的Major Delta合并总大小
Minor Delta
count
节点上tablet的Minor Delta合并总大小
Tablet 缓存刷新
Bytes Flushed
bytes/s
在指标采集周期内平均每秒节点上 tablet 缓存刷新数据量
RPC 拒绝请求
leader
个/秒
在指标采集周期内平均每秒leader由于内存压力而被拒绝的RPC请求数
follower
个/秒
在指标采集周期内平均每秒follower由于内存压力而被拒绝的RPC请求数
接入队列时间
TotalCount,Percentile_99,Min,Max,Mean
微秒
接入RPC请求在工作队列中处理时间的99分位数
Scanner时间
TotalCount,Percentile_99,Min,Max,Mean
微秒
扫描持续时间 的99分位数
进程内存
AllocatedMB
MB
应用程序使用的字节数转换位 MB。这通常与操作系统报告的内存使用情况不匹配,因为它不包括TCMalloc开销或内存碎片。
MemLimit
MB
kuduserver 配置的内存限制阈值
内存使用占比
UsedRate
%
节点已使用内存 AllocatedMB/配置限制内存 MemLimit

KUDU-Master

标题
指标名称
指标单位
指标含义
块缓存命中
BlockCacheHit
期望一个块并查找到的次数。当确定缓存的效率时,使用此值代替cache_hits
BlockCacheMiss
预期未生成块的查找数。使用此值来确定缓存的效率,而不是cache_misses
块缓存使用率
BlockCacheUsage
bytes
块缓存占用的内存
文件缓存命中
FileCacheHit
预期并命中文件描述符的查找数。当确定缓存的效率时,使用此值代替 cache_hits
FileCacheMiss
预期但未命中文件描述符的查找数。当确定缓存的效率时,使用此值代替cache_misses
文件缓存使用率
FileCacheUsage
文件缓存中的条目数
块管理器 block 数
BlockUnderManagement
当前管理的数据块数
BlockOpenReading
当前打开供读取的数据块数
BlockOpenWriting
当前打开进行写入的数据块数
块管理器字节数
BytesUnderManagement
bytes
当前管理的数据块字节数
块管理器容器数
ContainersUnderManagement
日志块容器数
FullContainersUnderManagement
完整日志块容器数
Cpu 时间
CpuStime
毫秒
进程的总系统 CPU 时间
CpuUtime
毫秒
进程的用户 CPU 总时间
线程
ThreadsRunning
当前正在运行的线程数
数据路径
DataDirsFailed
磁盘当前处于故障状态的数据目录数
DataDirsFull
磁盘当前已满的数据目录数
分配的字节
AllocatedBytes
bytes
应用程序使用的字节数。这通常与操作系统报告的内存使用情况不匹配,因为它不包括TCMalloc开销或内存碎片
日志信息
ErrorMessages
应用程序发出的 ERROR 级日志消息数
WarningMessages
应用程序发出的 WARNING 级日志消息数
上下文
InvoluntarySwitches
非自发的上下文切换
VoluntarySwitches
自发的上下文切换
队列中操作数
TotalCount
总数
Min
队列中最小等待任务数
Max
队列中最大等待任务数
Mean
队列中平均等待任务数
Percentile_99_9
队列中等待任务数的99.9分位数
排队等待时间
TotalCount
微秒
总操作数
Min
微秒
最小等待时间
Max
微秒
最大等待时间
Mean
微秒
平均等待时间
Percentile_99_9
微秒
等待时间的99.9分位数
操作运行时间
TotalCount
微秒
总操作数
Min
微秒
最小运行时间
Max
微秒
最大运行时间
Mean
微秒
平均运行时间
Percentile_99_9
微秒
运行时间的99.9分位数
自旋锁
SpinlockContentionTime
微秒
自服务器启动后,内部自旋锁上的争用所消耗的时间量
过大的读请求数
OversizedWriteRequests
启动后拒绝的对system catalog tablet的过大写请求数
混合时钟错误
HybridClockError
微秒
服务器时钟最大错误;无法读取基础时钟时返回2^64-1
混合时钟时间戳
HybridClockTimestamp
微秒
混合时钟时间戳;无法读取基础时钟时返回2^64-1
tablet 副本差值
ClusterReplicaSkew
承载最多副本的 tablet 服务器上的副本数与承载最少副本的 tablet 服务器上的副本数之间的差异
tablet leader个数
NumRaftLeaders
Raft leaders的tablet副本数量
tablet session 数
OpenSourceSessions
此服务器上当前打开的 tablet 复制源 session 个数
TCMalloc 内存
HeapSize
bytes
TCMalloc 保留的系统内存字节
CurrentThreadCacheBytes
bytes
TCMalloc 正在使用的内存的度量(对于小对象)
TotalThreadCacheBytes
bytes
TCMalloc 用于小对象的内存限制
TCMalloc PageHeap
FreeBytes
bytes
页堆中可用的映射页的字节数
UnMappedBytes
bytes
页堆中空闲的未映射页的字节数
RPC 请求
ConnectionsAccepted
到 RPC 服务器的连入 TCP 连接数
QueueOverflow
由于服务队列已满而丢弃的 RPC 数
TimesOutInQueue
在服务队列中等待时超时并因此未被处理的 RPC 数
RPC RunLeaderElection
TotalCount
微秒
总操作数
Min
微秒
最小处理时间
Max
微秒
最大处理时间
Mean
微秒
平均处理时间
Percentile_99_9
微秒
处理时间的99.9分位数
RPC ConnectToMaster
TotalCount
微秒
总操作数
Min
微秒
最小处理时间
Max
微秒
最大处理时间
Mean
微秒
平均处理时间
Percentile_99_9
微秒
处理时间的99.9分位数
RPC Ping
TotalCount
微秒
总操作数
Min
微秒
最小处理时间
Max
微秒
最大处理时间
Mean
微秒
平均处理时间
Percentile_99_9
微秒
处理时间的99.9分位数
RPC TSHeartbeat
TotalCount
微秒
总操作数
Min
微秒
最小处理时间
Max
微秒
最大处理时间
Mean
微秒
平均处理时间
Percentile_99_9
微秒
处理时间的99.9分位数
RPC FetchData
TotalCount
微秒
总操作数
Min
微秒
最小处理时间
Max
微秒
最大处理时间
Mean
微秒
平均处理时间
Percentile_99_9
微秒
处理时间的99.9分位数