消息队列 RabbitMQ 版配置告警策略

操作场景
消息队列 RabbitMQ 版不仅为运行中的资源提供了多项监控指标，用于监测集群的运行情况，还提供了关键指标的配置告警功能。您可以为监控指标配置告警规则，创建的告警会将一定周期内监控的指标与给定阈值的情况进行比对，当监控指标达到设定的报警阈值时，可观测平台可以通过邮件、短信、微信、电话等方式通知您，您可以及时采取相应的预防或补救措施，合理地配置告警规则能帮助您提高应用程序的健壮性和可靠性。
告警配置建议
本节为您介绍在使用 TDMQ RabbitMQ 版过程中需要重点关注的一些指标及其告警配置建议，您可以根据业务需要进行配置：
Serverless 版
开源托管版
指标
维度
告警建议配置
告警处理建议
集群消费 TPS（Count/s）
集群
统计周期1分钟，“集群消费TPS”数值 > 消费限流值的80%，持续5个数据点，每30分钟告警一次
判断集群消费 TPS 是否即将超出当前所购买/配置的规格上限，触发限流。可根据此项适当选择升配操作。
集群生产 TPS（Count/s）
集群
统计周期1分钟，“集群生产TPS”数值 > 生产限流值的80%，持续5个数据点，每30分钟告警一次
判断集群生产 TPS 是否即将超出当前所购买/配置的规格上限，触发限流。可根据此项适当选择升配操作。
﻿在线连接数量（Count）
集群
统计周期1分钟，> 8000，持续5个数据点，每30分钟告警一次
客户端和服务器的连接数，可以反映集群的稳定性和性能。连接数量过大时，建议优化客户端数量。
堆积消息条数（Count）
集群
统计粒度1分钟，“堆积消息数量”数值 > 业务预期堆积消息数量，持续5个数据点，每30分钟告警一次
消息堆积数量超过预期，说明业务可能存在风险。当消息堆积数量过大时，建议扩容消费者实例或提升消费并发度，检查消费者是否存在宕机实例或消费卡顿。
指标
维度
告警配置建议
告警处理建议
磁盘利用率（%）
节点
统计粒度1分钟，“磁盘利用率”数值 > 80%，持续5个数据点，每30分钟告警一次
磁盘使用率过高会导致节点没有足够的磁盘空间容纳消息分配到该节点上，从而导致消息无法落盘。建议在平均磁盘使用率超过80%时及时清理数据或扩容集群。
内存利用率（%）
节点
统计粒度1分钟，“内存利用率”数值 > 50%，持续5个数据点，每30分钟告警一次
内存利用率过高会阻塞消息生产。建议在内存利用率超过50%时及时加快消费、对生产进行流控或扩容集群。
CPU利用率（%）
节点
统计粒度1分钟，“CPU利用率”数值 > 70%，持续5个数据点，每30分钟告警一次
CPU 利用率过高会影响消息生产速度。建议在 CPU 利用率超过70%时及时扩容。
﻿堆积消息数量（Count）
节点
统计粒度1分钟，“堆积消息数量”数值 > 业务预期堆积消息数量，持续5个数据点，每30分钟告警一次
堆积过多的消息会导致 Broker 节点磁盘使用率迅速上涨，无法再接入更多消息。需要进行扩容。
节点存活状况
节点
统计粒度1分钟，“节点存活状况”数值 = 1，持续3个数据点，每15分钟告警一次
节点存活状况异常/宕机会导致消息丢失，尤其是在没有开启持久化或镜像队列的情况下。同时会增加其余节点的负载，从而导致集群性能下降。建议结合其他指标和告警信息检查原因。
﻿消费者数量﻿
队列
统计粒度5分钟，“消费者数量”环比下降 >= 10%，持续1个数据点，每30分钟告警一次
消费者数量突然下降，说明业务可能存在消费者断连且未重连的问题，建议检查消费者是否存在宕机实例
堆积消息条数（Count）
队列
统计粒度1分钟，“堆积消息数量”数值 > 业务预期堆积消息数量，持续5个数据点，每30分钟告警一次
消息堆积数量超过预期，说明业务可能存在风险。当消息堆积数量过大时，建议扩容消费者实例或提升消费并发度，检查消费者是否存在宕机实例或消费卡顿。
进入配置告警页面
入口一： 登录TDMQ RabbitMQ 版控制台，在集群列表中，单击目标集群操作列的更多 > 配置告警可以直接跳转到告警配置页面，页面默认设定的告警对象是当前集群。
入口二：登录TDMQ RabbitMQ 版控制台，在监控大盘页面，单击监控图表右上角的配置告警按钮可以跳转到告警配置页面，页面默认设定的告警对象是跳转前监控图表对应的监控指标。
﻿
入口三：登录腾讯云可观测平台控制台，在告警配置页面可以查看所有预设策略和自定义策略，单击新建策略，监控类型选择云产品监控，策略类型选择消息队列TDMQ，开源托管版请选择 RabbitMQ 专享版 ，Serverless 版请选择 RabbitMQ Serverless。
配置告警策略
TDMQ RabbitMQ 开源托管版在节点维度预设了全面的默认告警策略，您可在腾讯云可观测平台上查看并配置这些策略，并根据实际需求在默认策略的基础上进行灵活调整。Serverless 版暂未支持默认告警策略，敬请期待。
默认告警策略
自定义告警策略
1. 进入告警策略配置页面后，策略类型选择消息队列 TDMQ / RabbitMQ专享版/节点。
2. 选择您要设置告警的对象。
所属标签：可以根据标签批量筛选您想配置告警策略的资源。
告警对象：选择需要配置告警策略的 RabbitMQ 资源。
3. 触发条件保持默认的手动配置，勾选使用预置触发条件，会出现如下图所示的系统预置告警触发条件，您可以根据这些默认策略快捷配置告警规则。
﻿
4. 单击下一步：配置告警通知，配置告警通知人。
1. 进入告警策略配置页面后，选择好策略类型，页面会自动展示当前资源类型提供的策略，您可以在默认告警策略基础上根据实际业务需求自定义配置告警策略。
说明：
开源托管版集群监控策略类型支持多个维度：集群、节点、虚拟主机、交换机、队列。
由于底层技术架构优化，开源托管版的旧版本告警指标即将下线，建议您选择新版指标配置告警规则，该操作不会影响您的业务运行，请放心使用。
﻿
Serverless版集群监控策略支持多个维度：集群、虚拟主机、队列、交换机
﻿
2. 选择您要设置告警的对象。
所属标签：可以根据标签批量筛选您想配置告警策略的资源。
告警对象：选择需要配置告警策略的 RabbitMQ 资源。
3. 设置告警触发条件，支持选择模板和手动配置，默认选择手动配置。
手动配置
选择模板
指标：例如“磁盘利用率”，选择统计粒度为1分钟，则在1分钟内，磁盘使用百分比连续N个数据点超过阈值，就会触发告警。
告警频次：例如“每30分钟警告一次”，指每30分钟内，连续多个统计周期指标都超过了阈值，如果有一次告警，30分钟内就不会再次进行告警，直到下一个30分钟，如果指标依然超过阈值，才会再次告警。
1. 勾选选择模板后，单击新建触发条件模板，跳转到设置触发条件模板页面。
2. 在左上角单击新建触发条件模板，在新建模板页面，配置告警策略。
策略类型：选择 消息队列 TDMQ，然后托管版请选择RabbitMQ专享版 ，Serverless版请选择RabbitMQServerless。
触发条件：根据我们提供的告警策略建议或者您实际的业务需求，设置好告警策略。
﻿
3. 确认无误后，单击保存，返回新建告警策略页，单击刷新，就会出现刚配置的告警策略模板。
﻿
﻿
﻿
说明：
关于配置告警策略功能的更多介绍，请参考配置指标告警文档。
4. 单击下一步：配置告警通知，配置告警通知人。
配置告警通知
在配置告警通知页面，您可以选择系统预设的通知模板，预设模板的告警对象通常为主账号负责人。如您需要通知到实例负责人或其他人员，也可以单击新建模板来新建通知模板，设置告警接收对象和接收渠道。
新建通知模板的详细操作请参考新建通知模板。
﻿
﻿

指标	维度	告警建议配置	告警处理建议
集群消费 TPS（Count/s）	集群	统计周期1分钟，“集群消费TPS”数值 > 消费限流值的80%，持续5个数据点，每30分钟告警一次	判断集群消费 TPS 是否即将超出当前所购买/配置的规格上限，触发限流。可根据此项适当选择升配操作。
集群生产 TPS（Count/s）	集群	统计周期1分钟，“集群生产TPS”数值 > 生产限流值的80%，持续5个数据点，每30分钟告警一次	判断集群生产 TPS 是否即将超出当前所购买/配置的规格上限，触发限流。可根据此项适当选择升配操作。
在线连接数量（Count）	集群	统计周期1分钟，> 8000，持续5个数据点，每30分钟告警一次	客户端和服务器的连接数，可以反映集群的稳定性和性能。连接数量过大时，建议优化客户端数量。
堆积消息条数（Count）	集群	统计粒度1分钟，“堆积消息数量”数值 > 业务预期堆积消息数量，持续5个数据点，每30分钟告警一次	消息堆积数量超过预期，说明业务可能存在风险。当消息堆积数量过大时，建议扩容消费者实例或提升消费并发度，检查消费者是否存在宕机实例或消费卡顿。

指标	维度	告警配置建议	告警处理建议
磁盘利用率（%）	节点	统计粒度1分钟，“磁盘利用率”数值 > 80%，持续5个数据点，每30分钟告警一次	磁盘使用率过高会导致节点没有足够的磁盘空间容纳消息分配到该节点上，从而导致消息无法落盘。建议在平均磁盘使用率超过80%时及时清理数据或扩容集群。
内存利用率（%）	节点	统计粒度1分钟，“内存利用率”数值 > 50%，持续5个数据点，每30分钟告警一次	内存利用率过高会阻塞消息生产。建议在内存利用率超过50%时及时加快消费、对生产进行流控或扩容集群。
CPU利用率（%）	节点	统计粒度1分钟，“CPU利用率”数值 > 70%，持续5个数据点，每30分钟告警一次	CPU 利用率过高会影响消息生产速度。建议在 CPU 利用率超过70%时及时扩容。
堆积消息数量（Count）	节点	统计粒度1分钟，“堆积消息数量”数值 > 业务预期堆积消息数量，持续5个数据点，每30分钟告警一次	堆积过多的消息会导致 Broker 节点磁盘使用率迅速上涨，无法再接入更多消息。需要进行扩容。
节点存活状况	节点	统计粒度1分钟，“节点存活状况”数值 = 1，持续3个数据点，每15分钟告警一次	节点存活状况异常/宕机会导致消息丢失，尤其是在没有开启持久化或镜像队列的情况下。同时会增加其余节点的负载，从而导致集群性能下降。建议结合其他指标和告警信息检查原因。
消费者数量	队列	统计粒度5分钟，“消费者数量”环比下降 >= 10%，持续1个数据点，每30分钟告警一次	消费者数量突然下降，说明业务可能存在消费者断连且未重连的问题，建议检查消费者是否存在宕机实例
堆积消息条数（Count）	队列	统计粒度1分钟，“堆积消息数量”数值 > 业务预期堆积消息数量，持续5个数据点，每30分钟告警一次	消息堆积数量超过预期，说明业务可能存在风险。当消息堆积数量过大时，建议扩容消费者实例或提升消费并发度，检查消费者是否存在宕机实例或消费卡顿。

配置告警策略

本页目录：

操作场景

告警配置建议

进入配置告警页面

配置告警策略

配置告警通知