查看监控指标

最近更新时间:2024-12-17 16:26:02

我的收藏
腾讯云向量数据库(Tencent Cloud VectorDB)支持通过腾讯云可观测平台(Tencent Cloud Observability Platform,TCOP)实时监控实例资源的监控指标数据,辅助运维人员快速识别并解决潜在的性能问题,保障业务稳定运行。

监控指标

监控系统从实例与节点两个层面实时跟踪数据库的关键性能指标,包含资源使用、流量、请求响应等。
实例维度监控:监控覆盖整个数据库集群,包括集群的 CPU、内存和磁盘的最大与平均使用率,以及数据库出入流量和请求响应情况,以便全面评估整个实例的性能状态。
节点维度监控:监控聚焦于每一个节点的 CPU、内存和磁盘的使用率,以及数据流量与请求响应情况,以便快速识别出资源处理瓶颈,预防内存溢出或性能下降。
监控对象
分组
指标名称
指标英文名称
单位
含义
实例监控
CPU 监控
节点 CPU 最大使用率
cluster_nodes_max_cpu_util
%
集群中单个节点的最高 CPU 使用率。
节点 CPU 平均使用率
cluster_nodes_avg_cpu_util
%
集群中所有节点的平均 CPU 使用率。
内存监控
节点内存最大使用率
cluster_nodes_max_mem_util
%
集群中单个节点的最高内存使用率。
节点内存平均使用率
cluster_nodes_avg_mem_util
%
集群中所有节点的平均内存使用率。
磁盘监控
节点磁盘最大使用率
cluster_nodes_max_disk_usage_util
%
集群中单个节点的最高磁盘使用率。
节点磁盘平均使用率
cluster_nodes_avg_disk_usage_util
%
集群中所有节点的平均磁盘使用率。
网络监控
集群网络入流量
cluster_nodes_total_in_flow
MBytes/s
每秒流入数据库的流量。
集群网络出流量
cluster_nodes_total_out_flow
MBytes/s
每秒流出数据库的流量。
请求监控
集群插入请求平均耗时
cluster_nodes_avg_upsert_time
ms
集群处理插入请求所需的平均时间。
集群请求异常率
cluster_nodes_commands_except_util
%
集群处理请求异常数与总请求数之比。
集群请求成功率
cluster_nodes_commands_success_util
%
集群处理请求成功数与总请求数之比。
集群请求超时率
cluster_nodes_commands_timeout_util
%
集群处理请求超时的数量与总请求数之比。
集群请求量QPS
cluster_nodes_total_commands
Count/s
集群每秒总请求数。
集群请求异常数
cluster_nodes_total_exception_commands_cnt
Count/s
集群每秒请求异常数。
集群搜索请求量 QPS
cluster_nodes_total_search_cnt
Count/s
集群每秒搜索请求。
集群请求超时数
cluster_nodes_total_timeout_commands_cnt
Count
集群每秒请求超时数。
集群插入请求量 QPS
cluster_nodes_total_upsert_cnt
Count/s
集群每秒插入请求数。
集群请求平均耗时
cluster_nodes_avg_commands_time
ms
集群处理请求的平均耗时。
集群搜索请求平均耗时
cluster_nodes_avg_search_time
ms
集群处理搜索请求所需的平均时间。
响应监控
空结果率
cluster_nodes_avg_null_res_util
%
集群各节点空结果返回请求数与各节点总请求量之和的比例。
集群搜索平均召回数
cluster_nodes_avg_recall_count
Count
集群处理搜索请求的平均召回数量,通过各节点平均召回数之和除以节点数计算平均召回数。
节点监控
CPU 监控
CPU 使用率
cpu_util
%
节点 CPU 使用率
内存监控
内存使用率
mem_util
%
实际使用内存和申请总内存之比
磁盘监控
硬盘空间使用率
disk_util
%
实际使用硬盘容量和节点总容量之比
硬盘空间使用量
disk_used
MBytes
实际使用硬盘容量
网络监控
网络入流量
in_flow
MBytes/s
内网每秒所流入的字节数
网络出流量
out_flow
MBytes/s
内网每秒所流出的字节数
请求监控
请求量QPS
commands
Count/s
每秒请求总数量
请求成功率
commands_success_util
%
请求成功数量与总请求数之比
请求超时率
commands_timeout_util
%
超时请求数与总请求数之比
请求异常率
commands_exp_util
%
请求异常数与总请求数之比
失败请求量QPS
commands_fail_cnt
Count/s
每秒无法完成的请求量
请求平均耗时
commands_time
ms
从发起请求到接收到请求所耗费时间的平均值
搜索请求数量QPS
search_cnt
Count/s
每秒搜索请求的总数量
响应监控
空结果率
search_null_res_util
%
搜索返回结果为空的数量与搜索请求量之比
平均召回数
search_recall_avg
Count
搜索返回的文档数与搜索批量之比

前提条件

实例状态为运行中

操作指南

1. 使用腾讯云账号登录 向量数据库控制台
2. 在实例列表中,找到需查看监控数据的实例。
3. 单击目标实例 ID,或在其操作列,单击管理,进入实例详情页面。
4. 切换至实例监控页签,可直接查看实例维度的监控视图;选择实例监控下的节点:worker-0、worker-1 或 worker-2,可分别查看单个节点的监控视图。
在页面右上角的时间框,选择所需监控数据的时间跨度。
在页面右上角的时间粒度后面的下拉列表选择监控粒度,即监控数据的采集粒度。时间跨度的范围不同,所支持的时间粒度不同,如下表所示。
时间跨度
时间粒度
监控数据保留时长
5分钟
5秒、10秒、1分钟
时间粒度不同,监控数据存储保留时长不同。
秒级:1天。
1分钟:15天。
5分钟:31天。
1小时:93天。
1天:186天。
30分钟
5秒、10秒、1分钟与5分钟
1小时
3小时
5秒、10秒、1分钟、5分钟、1小时
12小时
1分钟、5分钟、1小时
1天(24小时)
1分钟、5分钟、1小时、1天
2天
7天
1小时、1天
30天
1小时、1天
单击

,可刷新监控数据,并更新监控视图。
单击关闭,可关闭数据更新;在关闭的下拉菜单,可设置更新数据的周期,支持每隔30s、5min、30min、1h更新数据。

5. 如果需导出监控视图的监控数据与视图,请在每一个视图的右上角单击

,在其下拉列表,可选择数据导出图片导出

6. 如果需全屏展示单个监控视图,单击

;如果需给单个监控指标配置告警,单击

,具体操作,请参见 配置监控告警