告警配置建议

最近更新时间:2024-10-14 16:52:14

我的收藏
消息队列 CKafka 版不仅为运行中的 CKafka 集群提供了多项监控指标,用于监测集群的运行情况,还提供了一些关键指标的配置告警功能,帮助您及时发现集群问题并进行处理。具体使用方法可参见 查看监控配置告警
本文为您介绍在使用 CKafka 过程中需要重点关注的一些指标及其告警建议配置:
指标
告警建议配置
详细说明
磁盘使用率(%)
统计周期1分钟,>80%,持续5个周期,每30分钟告警一次
平均磁盘使用率表示集群各节点磁盘使用率的平均值。磁盘使用率过高会导致节点没有足够的磁盘空间容纳分配到该节点上,从而导致消息无法落盘,建议在平均磁盘使用率超过75%时及时清理数据或扩容集群。
未消费的消息条数(Count)
统计周期5分钟,>8000,持续10个周期,每30分钟告警一次
堆积过多的消息会导致 Broker 节点磁盘使用率迅速上涨,无法再接入更多消息,服务会停止。需要进行扩容
生产峰值带宽(MB/s)
统计周期1分钟,>所购买的实例带宽规格,持续5个周期,每10分钟告警一次
一分钟内,客户每秒的流量最大值。判断是否超出当前所购买的流量上限。可根据此项适当选择升配操作等