消息队列 Pulsar 版提供了全面、多维度的监控指标体系,覆盖从集群、命名空间和 Topic 各个维度,帮助您实时了解资源运行状态。本文为您介绍 Pulsar 的各项监控指标的含义和推荐重点关注指标,您可以通过这些指标快速掌握实例等资源的健康状态,并决定是否需要升降配等运维操作,保障其稳定运行。
监控指标含义
以下是 Pulsar 监控能力提供的所有监控指标说明,请您根据实际业务需求合理配置监控和告警策略。
分类 | 指标中文名 | 指标英文名 | 单位 | 说明 |
关键指标监控 | 集群 TPS | PulsarTenantTps | Count/s | 当前集群已使用的 TPS 大小 |
| 集群 TPS 使用占比 | PulsarTenantTpsUsage | % | 当前集群 TPS 已使用百分比,单位时间取最大值 |
| 生产 TPS 峰值 | TenantCaculateRateIn | Count/s | 倍率计算后的消息生产速率 |
| 消费 TPS 峰值 | TenantCaculateRateOut | Count/s | 倍率计算后的消息消费速率 |
| 生产带宽峰值 | PulsarTenantThroughputIn | Bytes/s | 所有生产者每秒写入消息的最大数据量 |
| 消费带宽峰值 | PulsarTenantThroughputOut | Bytes/s | 所有消费者每秒读取消息的最大数据量 |
| 标签过滤消息速率 | TenantTagFilterRejectedMsgRate | Count/s | 单位时间内因不匹配订阅的标签过滤器而每秒被丢弃的消息数量 |
| 标签过滤消息流量 | TenantTagFilterRejectedBytesRate | Bytes/s | 单位时间内因不匹配订阅的标签过滤器而被丢弃的消息总数据量 |
| 延迟消息数量 | PulsarMessageDelayed | Count | 当前集群的延迟消息数量 |
| 延迟消息数使用占比 | PulsarMessageDelayedUsage | % | 当前集群延迟消息已使用百分比,单位时间取最大值 |
| 延迟消息发送速率 | TenantDelayRateIn | Count/s | 单位时间内发送延迟消息的数量 |
| 公网流量 | PulsarClbIntraffic | Mbps | 通过公网访问集群的公网流量大小 |
| 公网带宽占比 | PulsarClbIntrafficVipRatio | % | 公网流量所占用的带宽与总带宽的比率 |
集群存储指标 | 存储用量 | TenantStorageSize | Bytes | 租户级别消息积压大小 |
| 存储大小已使用百分比 | TenantStorageSizeUsedPercentage | % | 当前集群存储大小已使用百分比 |
集群限流指标 | 每分钟写入受限次数 | TenantInLimitCount | Count | 每分钟租户限流写入请求受限次数 |
| 每分钟消费受限次数 | TenantOutLimitCount | Count | 每分钟租户限流消费请求受限次数 |
指标中文名 | 指标英文名 | 单位 | 说明 |
消息生产速率 | NsCaculateRateIn | Count/s | 每秒生产到该命名空间下 Topic 的消息条数 |
消息消费速率 | NsCaculateRateOut | Count/s | 每秒从该命名空间下 Topic 消费的消息条数 |
消息生产流量 | NsThroughputIn | Bytes/s | 每秒生产到该命名空间下 Topic 的消息数据量 |
消息消费流量 | NsThroughputOut | Bytes/s | 每秒从该命名空间下 Topic 消费的消息数据量 |
存储用量 | NsStorageSize | Bytes | 该命名空间下所有 Topic 的消息在磁盘上占用的总空间大小 |
指标中文名 | 指标英文名 | 单位 | 说明 |
消息生产速率 | PulsarCaculateRateIn | Count/s | 每秒生产到该 Topic 的消息条数 |
消息消费速率 | PulsarCaculateRateOut | Count/s | 每秒从该 Topic 消费的消息条数 |
标签过滤消息速率 | TopicTagFilterRejectedMsgRate | Count/s | 该 Topic 下因不匹配标签过滤而每秒被丢弃的消息条数 |
消息生产流量 | MsgThroughputIn | Bytes/s | 每秒生产到该 Topic 的消息数据量 |
消息消费流量 | MsgThroughputOut | Bytes/s | 每秒从该 Topic 消费的消息数据量 |
标签过滤消息流量 | TopicTagFilterRejectedBytesRate | Bytes/s | 该 Topic 下因不匹配标签过滤而每秒被丢弃的消息数据量 |
延迟消息数量 | TopicMessageDelayed | Count | 该 Topic 下当前正被延迟投递、尚未被消费的消息总条数 |
积压消息大小 | StorageSize | Bytes | 该 Topic 下所有未被消费的消息在磁盘上占用的总空间 |
延迟消息发送速率 | TopicDelayRateIn | Bytes/s | 每秒发送到该 Topic 并被设定为延迟投递的消息数量 |
生产者数量 | ProducersCount | Count | 当前连接到该 Topic 的生产者客户端总数 |
消费者数量 | ConsumersCount | Count | 当前连接到该 Topic 的消费者客户端总数 |
生产者已使用占比 | TopicProducerPercentage | % | 该 Topic 已使用的生产者数量与允许的最大生产者数量的比例 |
消费者已使用占比 | TopicConsumerPercentage | % | 该 Topic 已使用的消费者数量与允许的最大消费者数量的比例 |
各维度对应参数总览
参数名称 | 维度名称 | 维度解释 | 维度解释 |
Instances.N.Dimensions.0.Name | environmentId | environmentId 的维度名称 | 输入 String 类型的维度名称:environmentId |
Instances.N.Dimensions.0.Value | environmentId | 具体命名空间 | 输入具体命名空间,例如:default |
Instances.N.Dimensions.0.Name | tenantId | 集群 ID 的维度名称 | 输入 String 类型的维度名称:tenantId |
Instances.N.Dimensions.0.Value | tenantId | 具体集群 ID | 输入具体集群 ID,例如:pulsar-xxxxxxxxxx |
Instances.N.Dimensions.0.Name | topicName | 主题名称的维度名称 | 输入 String 类型的维度名称:topicName |
Instances.N.Dimensions.0.Value | topicName | 具体主题名称 | 具体主题名称,例如:testTopic |
Instances.N.Dimensions.0.Name | namespace | 集群所在命名空间的维度名称 | 输入 String 类型的维度名称:namespace |
Instances.N.Dimensions.0.Value | namespace | 具体命名空间 | 输入具体命名空间:例如:test |
Instances.N.Dimensions.0.Name | tenant | 集群 ID 的维度名称 | 输入 String 类型维度名称:tenant |
Instances.N.Dimensions.0.Value | tenant | 具体集群 ID | 输入具体集群 ID,例如:pulsar-xxxxxxxxxx |
Instances.N.Dimensions.0.Name | subName | 订阅名称的维度名称 | 输入 String 类型维度名称:subName |
Instances.N.Dimensions.0.Value | subName | 订阅名称 |
入参说明
查询消息队列监控数据,入参取值如下:
指标类型一:
&Namespace = QCE/TDMQ
&Instances.N.Dimensions.0.Name = environmentId
&Instances.N.Dimensions.0.Value = 具体命名空间
&Instances.N.Dimensions.1.Name = tenantId
&Instances.N.Dimensions.1.Value = 具体集群 ID
&Instances.N.Dimensions.2.Name = topicName
&Instances.N.Dimensions.2.Value = 具体主题名称
指标类型二:
&Namespace = QCE/TDMQ
&Instances.N.Dimensions.0.Name = tenant
&Instances.N.Dimensions.0.Value = 具体集群 ID