本文为您介绍在使用 ES 集群过程中需要重点关注的一些指标及其告警建议配置:
指标 | 告警建议配置 | 详细说明 |
集群健康状态 | 统计周期1分钟,≥1,持续5个周期,每30分钟告警一次 | 集群健康状态取值为: 0:绿色,表示集群所有主分片和副本分片都可用,集群处于最健康的状态。 1:黄色,表示所有的主分片均可用,但存在不可用副本分片。此时,搜索结果仍然是完整的,但集群的高可用性在一定程度上受到影响,数据面临较高的丢失风险。 2:红色,表示至少一个主分片以及它的全部副本分片均不可用。集群处于红色状态意味着已有部分数据不可用,搜索只能返回部分数据,而分配到丢失分片上的请求会返回异常。 集群健康状态是集群当前运行情况的最直接体现,当集群处于黄色或红色状态时,应立即排查产生原因,并及时修复,防止数据丢失和服务不可用。 |
平均磁盘使用率 | 统计周期1分钟,>80%,持续5个周期,每30分钟告警一次 | 平均磁盘使用率表示集群各节点磁盘使用率的平均值。磁盘使用率过高会导致节点没有足够的磁盘空间容纳分配到该节点上的分片,从而导致创建索引,添加文档等基本操作执行失败。建议在平均磁盘使用率超过75%时及时清理数据或扩容集群。另外可以参考 使用 Curator 在腾讯云 Elasticsearch 中自动删除过期数据,为集群配置定时清理任务。 |
平均 JVM 内存使用率 | 统计周期1分钟,>85%,持续5个周期,每30分钟告警一次 | 平均 JVM 堆内内存使用率表示集群各节点 JVM 内存使用率的平均值。JVM 内存使用率过高会导致读写操作被拒绝,集群 GC 频繁,甚至出现 OOM 等问题。当发现 JVM 内存使用率超过阈值时,建议通过纵向扩容的方式提高集群节点的规格。 |
平均 CPU 使用率 | 统计周期1分钟,>90%,持续5个周期,每30分钟告警一次 | 平均 CPU 使用率表示集群各节点 CPU 使用率的平均值。该值过高会导致集群节点处理能力下降,甚至宕机。发现 CPU 过高时,应根据集群当前节点配置情况和业务情况,提高节点规格或降低业务请求量。 |
bulk 拒绝率 | 统计周期1分钟,>0%,持续1个周期, 每30分钟告警一次 | bulk 拒绝率表示单周期内集群执行 bulk 操作被拒绝次数占 bulk 总操作次数的百分比。当 bulk 拒绝率大于0%,即出现 bulk 拒绝时,说明集群已经达到了 bulk 操作处理能力的上限,或集群出现异常,应及时排除出现 bulk 拒绝的原因并及时解决,否则会影响业务的 bulk 操作,甚至出现数据丢失情况。 |
查询拒绝率 | 统计周期1分钟,>0%,持续1个周期,每30分钟告警一次 | 查询拒绝率表示单周期内集群执行查询操作被拒绝次数占查询总操作数的百分比。当查询拒绝率大于0%,即出现查询拒绝时,说明集群已经达到了查询操作处理能力的上限,或集群出现异常,应及时排查出现查询拒绝的原因并及时解决,否则会影响业务的查询操作。 |