告警策略简介

最近更新时间:2024-05-29 17:15:22

我的收藏
告警策略是指在监控系统中定义和配置的一组告警规则,用于确定在监控系统中触发告警的条件、相应的操作和通知方式。
腾讯云可观测平台为用户提供了多种云产品的预置告警策略,同时也支持用户自定义添加、修改和删除告警策略,用户可以根据业务特点和自身需求灵活配置,确保系统稳定性。

默认告警策略

当用户首次成功购买默认策略支持的云产品后,告警管理会为用户自动创建默认告警策略。
用户也可以手动创建告警策略,将其设为默认告警策略。设置成功后新购买的实例会自动关联默认策略,无需用户手动添加。对于已绑定标签的告警策略,不支持设置默认告警策略。
产品名称
策略类型
指标名称
告警规则
云服务器
云服务器-基础监控
CPU 利用率
统计粒度1分钟,阈值为>95%,连续5次满足条件则只告警一次
内存利用率
统计粒度1分钟,阈值为>95%,连续5次满足条件则只告警一次
磁盘利用率
统计粒度1分钟,阈值为>95%,连续5次满足条件则只告警一次
外网出带宽
统计粒度1分钟,阈值为>95%,连续5次满足条件则只告警一次
轻量应用服务器
轻量应用服务器-网络流量包
网络流量包剩余量百分比
统计粒度1分钟,阈值为<=10%,连续1次满足条件则只告警一次
云数据库-KonisGraph
云数据库-KonisGraph-计算节点
最大内存使用率
统计粒度1分钟,阈值为>80%,连续1次满足条件则只告警一次
最大 CPU 使用率
统计粒度1分钟,阈值为>80%,连续1次满足条件则只告警一次
云数据库-KonisGraph-数据节点
最大磁盘使用率
统计粒度1分钟,阈值为>80%,连续1次满足条件则只告警一次
云数据库-PostgreSQL
云数据库-PostgreSQL
CPU 利用率
统计粒度1分钟,阈值为>60%,连续1次满足条件则只告警一次
剩余 XID 数量
统计粒度1分钟,阈值为< 1500000000个,连续1次满足条件则只告警一次
存储空间使用率
统计粒度1分钟,阈值为>80%,连续1次满足条件则只告警一次
消息服务 CKafka
消息服务 CKafka-实例
磁盘使用百分比
统计粒度1分钟,阈值为>85%,连续5次满足条件则只告警一次
实例连接数百分比
统计粒度1分钟,阈值为>85%,连续5次满足条件则只告警一次
实例消费带宽百分比
统计粒度1分钟,阈值为>85%,连续5次满足条件则只告警一次
实例生产带宽百分比
统计粒度1分钟,阈值为>85%,连续5次满足条件则只告警一次
实例 partition 百分比
统计粒度1分钟,阈值为>85%,连续3次满足条件则只告警一次
实例 topic 百分比
统计粒度1分钟,阈值为>85%,连续3次满足条件则只告警一次
消息服务CKafka-Broker
ZK 断连次数
统计粒度1分钟,阈值为>3Count,连续3次满足条件则只告警一次
ISR 扩充次数
统计粒度1分钟,阈值为>10Count,连续3次满足条件则只告警一次
ISR 收缩次数
统计粒度1分钟,阈值为>10Count,连续3次满足条件则只告警一次
未同步副本
统计粒度1分钟,阈值为>10Count,连续3次满足条件则只告警一次
节点异常
统计粒度1分钟,连续3次满足条件则只告警一次
负载均衡
负载均衡-公网负载均衡实例-丢弃/利用率监控
丢弃连接数
统计粒度1分钟,阈值为>10Count/s,连续3次满足条件则只告警一次
丢弃流入数据包
统计粒度1分钟,阈值为>10Count/s,连续3次满足条件则只告警一次
丢弃流出数据包
统计粒度1分钟,阈值为>10Count/s,连续3次满足条件则只告警一次
丢弃入带宽
统计粒度1分钟,阈值为>10Bit/s,连续3次满足条件则只告警一次
丢弃出带宽
统计粒度1分钟,阈值为>10Bit/s,连续3次满足条件则只告警一次
入带宽利用率
统计粒度1分钟,阈值为>80%,连续3次满足条件则只告警一次
出带宽利用率
统计粒度1分钟,阈值为>80%,连续3次满足条件则只告警一次
弹性 MapReduce
弹性 MapReduce-PRESTO-概览
节点数量(Failed)
统计粒度1分钟,阈值为>0Count,连续5次满足条件则只告警一次
弹性 MapReduce-PRESTO-Presto_Coordinator
GC 时间(FGCT)
统计粒度1分钟,阈值为>5秒,连续5次满足条件则只告警一次
弹性 MapReduce-PRESTO-Presto_Worker
GC 时间(FGCT)
统计粒度1分钟,阈值为>5秒,连续5次满足条件则只告警一次
弹性 MapReduce-TRINO-Worker
堆内存使用率(MemHeapUsedRate)
统计粒度1分钟,阈值为>90%,连续5次满足条件则只告警一次
弹性 MapReduce-YARN-JobHistoryServer
堆内存使用率(MemHeapUsedRate)
统计粒度1分钟,阈值为>90%,连续5次满足条件则只告警一次
弹性 MapReduce-HDFS-JournalNode
堆内存使用率(MemHeapUsedRate)
统计粒度1分钟,阈值为>90%,连续5次满足条件则只告警一次
弹性 MapReduce-HIVE-HiveServer2
GC 时间(FGCT)
统计粒度1分钟,阈值为>5秒,连续5次满足条件则只告警一次
工作线程数(ThreadCount)
统计粒度1分钟,阈值为>2000Count,连续5次满足条件则只告警一次
工作线程数(DaemonThreadCount)
统计粒度1分钟,阈值为>2000Count,连续5次满足条件则只告警一次
弹性 MapReduce-HIVE-HiveMetaStore
GC 时间(FGCT)
统计粒度1分钟,阈值为>5秒,连续5次满足条件则只告警一次
工作线程数(ThreadCount)
统计粒度1分钟,阈值为>2000Count,连续5次满足条件则只告警一次
工作线程数(DaemonThreadCount)
统计粒度1分钟,阈值为>2000Count,连续5次满足条件则只告警一次
弹性 MapReduce-PRESTOSQL-概览
节点数量(Failed)
统计粒度1分钟,阈值为>0Count,连续5次满足条件则只告警一次
弹性 MapReduce-PRESTOSQL-Coordinator
GC 时间(FGCT)
统计粒度1分钟,阈值为>5秒,连续5次满足条件则只告警一次
弹性 MapReduce-PRESTOSQL-Worker
GC 时间(FGCT)
统计粒度1分钟,阈值为>5秒,连续5次满足条件则只告警一次
弹性 MapReduce-HBASE-HMaster
GC 时间(FGCT)
统计粒度1分钟,阈值为>5秒,连续5次满足条件则只告警一次
弹性 MapReduce-HBASE-RegionServer
GC 时间(FGCT)
统计粒度1分钟,阈值为>5秒,连续5次满足条件则只告警一次
Region 个数(regionCount)
统计粒度1分钟,阈值为>600Count,连续5次满足条件则只告警一次
操作队列请求数(compactionQueueLength)
统计粒度1分钟,阈值为>500Count,连续5次满足条件则只告警一次
弹性 MapReduce-HDFS-DataNode
GC 时间(FGCT)
统计粒度1分钟,阈值为>5秒,连续5次满足条件则只告警一次
XCEIVER 数量(XceiverCount)
统计粒度1分钟,阈值为>1000Count,连续5次满足条件则只告警一次
弹性 MapReduce-主机监控-CPU
CPU 使用率(idle)
统计粒度1分钟,阈值为<2%,连续5次满足条件则只告警一次
弹性 MapReduce-主机监控-内存
内存使用占比(used_percent)
统计粒度1分钟,阈值为>95%,连续5次满足条件则只告警一次
弹性 MapReduce-ZOOKEEPER-Zookeeper
GC 时间(FGCT)
统计粒度1分钟,阈值为>5秒,连续5次满足条件则只告警一次
排队请求数(zk_outstanding_requests)
统计粒度1分钟,阈值为>50Count,连续5次满足条件则只告警一次
ZNODE 个数(zk_znode_count)
统计粒度1分钟,阈值为>1000Count,连续5次满足条件则只告警一次
弹性 MapReduce-YARN-ResourceManager
GC 时间(FGCT)
统计粒度1分钟,阈值为>5秒,连续5次满足条件则只告警一次
弹性 MapReduce-YARN-概览
节点个数(NumLostNMs)
统计粒度1分钟,阈值为>0Count,连续5次满足条件则只告警一次
节点个数(NumUnhealthyNMs)
统计粒度1分钟,阈值为>0Count,连续5次满足条件则只告警一次
弹性 MapReduce-HDFS-NameNode
GC 时间(FGCT)
统计粒度1分钟,阈值为>5秒,连续5次满足条件则只告警一次
缺失块统计(NumberOfMissingBlocks)
统计粒度1分钟,阈值为>0Count,连续5次满足条件则只告警一次
弹性 MapReduce-主机监控-磁盘
磁盘空间使用率(used_all)
统计粒度1分钟,阈值为>80%,连续5次满足条件则只告警一次
INODES 使用率(used_all)
统计粒度1分钟,阈值为>50%,连续5次满足条件则只告警一次
弹性 MapReduce-YARN-NodeManager
GC 时间(FGCT)
统计粒度1分钟,阈值为>5秒,连续5次满足条件则只告警一次
弹性 MapReduce-HDFS-概览
磁盘故障(VolumeFailuresTotal)
统计粒度1分钟,阈值为>0Count,连续5次满足条件则只告警一次
集群数据节点(NumDeadDataNodes)
统计粒度1分钟,阈值为>0Count,连续5次满足条件则只告警一次
集群数据节点(NumStaleDataNodes)
统计粒度1分钟,阈值为>0Count,连续5次满足条件则只告警一次
HDFS 存储空间使用率(capacityusedrate)
统计粒度1分钟,阈值为>90%,连续5次满足条件则只告警一次