告警策略是指在监控系统中定义和配置的一组告警规则,用于确定在监控系统中触发告警的条件、相应的操作和通知方式。
腾讯云可观测平台为用户提供了多种云产品的预置告警策略,同时也支持用户自定义添加、修改和删除告警策略,用户可以根据业务特点和自身需求灵活配置,确保系统稳定性。
默认告警策略
当用户首次成功购买默认策略支持的云产品后,告警管理会为用户自动创建默认告警策略。
用户也可以手动创建告警策略,将其设为默认告警策略。设置成功后新购买的实例会自动关联默认策略,无需用户手动添加。对于已绑定标签的告警策略,不支持设置默认告警策略。
产品名称 | 策略类型 | 指标名称 | 告警规则 |
云服务器 | 云服务器-基础监控 | CPU 利用率 | 统计粒度1分钟,阈值为>95%,连续5次满足条件则只告警一次 |
| | 内存利用率 | 统计粒度1分钟,阈值为>95%,连续5次满足条件则只告警一次 |
| | 磁盘利用率 | 统计粒度1分钟,阈值为>95%,连续5次满足条件则只告警一次 |
| | 外网出带宽 | 统计粒度1分钟,阈值为>95%,连续5次满足条件则只告警一次 |
轻量应用服务器 | 轻量应用服务器-网络流量包 | 网络流量包剩余量百分比 | 统计粒度1分钟,阈值为<=10%,连续1次满足条件则只告警一次 |
云数据库-KonisGraph | 云数据库-KonisGraph-计算节点 | 最大内存使用率 | 统计粒度1分钟,阈值为>80%,连续1次满足条件则只告警一次 |
| | 最大 CPU 使用率 | 统计粒度1分钟,阈值为>80%,连续1次满足条件则只告警一次 |
| 云数据库-KonisGraph-数据节点 | 最大磁盘使用率 | 统计粒度1分钟,阈值为>80%,连续1次满足条件则只告警一次 |
云数据库-PostgreSQL | 云数据库-PostgreSQL | CPU 利用率 | 统计粒度1分钟,阈值为>60%,连续1次满足条件则只告警一次 |
| | 剩余 XID 数量 | 统计粒度1分钟,阈值为< 1500000000个,连续1次满足条件则只告警一次 |
| | 存储空间使用率 | 统计粒度1分钟,阈值为>80%,连续1次满足条件则只告警一次 |
消息服务 CKafka | 消息服务 CKafka-实例 | 磁盘使用百分比 | 统计粒度1分钟,阈值为>85%,连续5次满足条件则只告警一次 |
| | 实例连接数百分比 | 统计粒度1分钟,阈值为>85%,连续5次满足条件则只告警一次 |
| | 实例消费带宽百分比 | 统计粒度1分钟,阈值为>85%,连续5次满足条件则只告警一次 |
| | 实例生产带宽百分比 | 统计粒度1分钟,阈值为>85%,连续5次满足条件则只告警一次 |
| | 实例 partition 百分比 | 统计粒度1分钟,阈值为>85%,连续3次满足条件则只告警一次 |
| | 实例 topic 百分比 | 统计粒度1分钟,阈值为>85%,连续3次满足条件则只告警一次 |
| 消息服务CKafka-Broker | ZK 断连次数 | 统计粒度1分钟,阈值为>3Count,连续3次满足条件则只告警一次 |
| | ISR 扩充次数 | 统计粒度1分钟,阈值为>10Count,连续3次满足条件则只告警一次 |
| | ISR 收缩次数 | 统计粒度1分钟,阈值为>10Count,连续3次满足条件则只告警一次 |
| | 未同步副本 | 统计粒度1分钟,阈值为>10Count,连续3次满足条件则只告警一次 |
| | 节点异常 | 统计粒度1分钟,连续3次满足条件则只告警一次 |
负载均衡 | 负载均衡-公网负载均衡实例-丢弃/利用率监控 | 丢弃连接数 | 统计粒度1分钟,阈值为>10Count/s,连续3次满足条件则只告警一次 |
| | 丢弃流入数据包 | 统计粒度1分钟,阈值为>10Count/s,连续3次满足条件则只告警一次 |
| | 丢弃流出数据包 | 统计粒度1分钟,阈值为>10Count/s,连续3次满足条件则只告警一次 |
| | 丢弃入带宽 | 统计粒度1分钟,阈值为>10Bit/s,连续3次满足条件则只告警一次 |
| | 丢弃出带宽 | 统计粒度1分钟,阈值为>10Bit/s,连续3次满足条件则只告警一次 |
| | 入带宽利用率 | 统计粒度1分钟,阈值为>80%,连续3次满足条件则只告警一次 |
| | 出带宽利用率 | 统计粒度1分钟,阈值为>80%,连续3次满足条件则只告警一次 |
弹性 MapReduce | 弹性 MapReduce-PRESTO-概览 | 节点数量(Failed) | 统计粒度1分钟,阈值为>0Count,连续5次满足条件则只告警一次 |
| 弹性 MapReduce-PRESTO-Presto_Coordinator | GC 时间(FGCT) | 统计粒度1分钟,阈值为>5秒,连续5次满足条件则只告警一次 |
| 弹性 MapReduce-PRESTO-Presto_Worker | GC 时间(FGCT) | 统计粒度1分钟,阈值为>5秒,连续5次满足条件则只告警一次 |
| 弹性 MapReduce-TRINO-Worker | 堆内存使用率(MemHeapUsedRate) | 统计粒度1分钟,阈值为>90%,连续5次满足条件则只告警一次 |
| 弹性 MapReduce-YARN-JobHistoryServer | 堆内存使用率(MemHeapUsedRate) | 统计粒度1分钟,阈值为>90%,连续5次满足条件则只告警一次 |
| 弹性 MapReduce-HDFS-JournalNode | 堆内存使用率(MemHeapUsedRate) | 统计粒度1分钟,阈值为>90%,连续5次满足条件则只告警一次 |
| 弹性 MapReduce-HIVE-HiveServer2 | GC 时间(FGCT) | 统计粒度1分钟,阈值为>5秒,连续5次满足条件则只告警一次 |
| | 工作线程数(ThreadCount) | 统计粒度1分钟,阈值为>2000Count,连续5次满足条件则只告警一次 |
| | 工作线程数(DaemonThreadCount) | 统计粒度1分钟,阈值为>2000Count,连续5次满足条件则只告警一次 |
| 弹性 MapReduce-HIVE-HiveMetaStore | GC 时间(FGCT) | 统计粒度1分钟,阈值为>5秒,连续5次满足条件则只告警一次 |
| | 工作线程数(ThreadCount) | 统计粒度1分钟,阈值为>2000Count,连续5次满足条件则只告警一次 |
| | 工作线程数(DaemonThreadCount) | 统计粒度1分钟,阈值为>2000Count,连续5次满足条件则只告警一次 |
| 弹性 MapReduce-PRESTOSQL-概览 | 节点数量(Failed) | 统计粒度1分钟,阈值为>0Count,连续5次满足条件则只告警一次 |
| 弹性 MapReduce-PRESTOSQL-Coordinator | GC 时间(FGCT) | 统计粒度1分钟,阈值为>5秒,连续5次满足条件则只告警一次 |
| 弹性 MapReduce-PRESTOSQL-Worker | GC 时间(FGCT) | 统计粒度1分钟,阈值为>5秒,连续5次满足条件则只告警一次 |
| 弹性 MapReduce-HBASE-HMaster | GC 时间(FGCT) | 统计粒度1分钟,阈值为>5秒,连续5次满足条件则只告警一次 |
| 弹性 MapReduce-HBASE-RegionServer | GC 时间(FGCT) | 统计粒度1分钟,阈值为>5秒,连续5次满足条件则只告警一次 |
| | Region 个数(regionCount) | 统计粒度1分钟,阈值为>600Count,连续5次满足条件则只告警一次 |
| | 操作队列请求数(compactionQueueLength) | 统计粒度1分钟,阈值为>500Count,连续5次满足条件则只告警一次 |
| 弹性 MapReduce-HDFS-DataNode | GC 时间(FGCT) | 统计粒度1分钟,阈值为>5秒,连续5次满足条件则只告警一次 |
| | XCEIVER 数量(XceiverCount) | 统计粒度1分钟,阈值为>1000Count,连续5次满足条件则只告警一次 |
| 弹性 MapReduce-主机监控-CPU | CPU 使用率(idle) | 统计粒度1分钟,阈值为<2%,连续5次满足条件则只告警一次 |
| 弹性 MapReduce-主机监控-内存 | 内存使用占比(used_percent) | 统计粒度1分钟,阈值为>95%,连续5次满足条件则只告警一次 |
| 弹性 MapReduce-ZOOKEEPER-Zookeeper | GC 时间(FGCT) | 统计粒度1分钟,阈值为>5秒,连续5次满足条件则只告警一次 |
| | 排队请求数(zk_outstanding_requests) | 统计粒度1分钟,阈值为>50Count,连续5次满足条件则只告警一次 |
| | ZNODE 个数(zk_znode_count) | 统计粒度1分钟,阈值为>1000Count,连续5次满足条件则只告警一次 |
| 弹性 MapReduce-YARN-ResourceManager | GC 时间(FGCT) | 统计粒度1分钟,阈值为>5秒,连续5次满足条件则只告警一次 |
| 弹性 MapReduce-YARN-概览 | 节点个数(NumLostNMs) | 统计粒度1分钟,阈值为>0Count,连续5次满足条件则只告警一次 |
| | 节点个数(NumUnhealthyNMs) | 统计粒度1分钟,阈值为>0Count,连续5次满足条件则只告警一次 |
| 弹性 MapReduce-HDFS-NameNode | GC 时间(FGCT) | 统计粒度1分钟,阈值为>5秒,连续5次满足条件则只告警一次 |
| | 缺失块统计(NumberOfMissingBlocks) | 统计粒度1分钟,阈值为>0Count,连续5次满足条件则只告警一次 |
| 弹性 MapReduce-主机监控-磁盘 | 磁盘空间使用率(used_all) | 统计粒度1分钟,阈值为>80%,连续5次满足条件则只告警一次 |
| | INODES 使用率(used_all) | 统计粒度1分钟,阈值为>50%,连续5次满足条件则只告警一次 |
| 弹性 MapReduce-YARN-NodeManager | GC 时间(FGCT) | 统计粒度1分钟,阈值为>5秒,连续5次满足条件则只告警一次 |
| 弹性 MapReduce-HDFS-概览 | 磁盘故障(VolumeFailuresTotal) | 统计粒度1分钟,阈值为>0Count,连续5次满足条件则只告警一次 |
| | 集群数据节点(NumDeadDataNodes) | 统计粒度1分钟,阈值为>0Count,连续5次满足条件则只告警一次 |
| | 集群数据节点(NumStaleDataNodes) | 统计粒度1分钟,阈值为>0Count,连续5次满足条件则只告警一次 |
| | HDFS 存储空间使用率(capacityusedrate) | 统计粒度1分钟,阈值为>90%,连续5次满足条件则只告警一次 |