使用场景
通过配置监控,能够获取集群的实时状态信息;通过配置告警,能够及时发现问题并触发告警,减少故障排查时间并及时处理故障。您可以确保 Kubernetes 集群的高效、稳定运行,同时降低运维成本,提升业务价值。
TKE 集群支持以下三类告警方式:
基础监控指标告警:基于集群及基础资源的监控指标进行告警。
日志告警:基于日志采集与分析进行告警,包括自定义日志、事件日志、审计日志等。
默认事件与审计告警:内置常见异常场景的默认告警规则,支持一键开启,属于日志告警的特殊形式。该功能结合腾讯云容器服务大规模多场景运维经验,覆盖集群和容器运行过程中常见的异常场景,能够及时发出预警,帮助用户快速发现并定位问题,维护集群和业务的稳定运行。具有以下特点:
预设性:默认告警规则是预先设定好的,用户无需手动创建,方便快捷。
通用性:默认告警规则通常适用于大多数场景,可以满足大部分用户的可观测需求。
灵活性:用户可以根据自己的实际需求,自定义告警规则。
易于管理:默认告警规则可以帮助用户快速搭建起一套基本的监控体系,降低管理成本。
前提条件
基础监控指标告警:集群相关基础资源的指标告警,此类告警的数据链路同步自云监控基础资源监控。更多信息,请参见 基础资源监控。
操作指引
基础监控指标告警配置
1. 登录 容器服务控制台,选择左侧导航栏中的运维中心 > 告警设置。
2. 在新建告警策略页面,策略类型选择容器服务(2.0),选择所需设置的指标维度。

3. 设置触发条件,可增加多个指标,请参见 监控及告警指标列表。

4. 配置告警通知。

5. 单击完成,可在告警策略中查看。

日志告警配置
1. 登录 容器服务控制台,选择左侧导航栏中的集群。
2. 在集群管理页面,单击目标集群 ID,进入集群详情页。
3. 选择左侧导航中的日志,配置日志采集规则并投递到 CLS,详情参见 采集容器日志到 CLS、事件日志、审计日志。
4. 登录 日志服务控制台,选择左侧导航栏中的监控告警 > 告警策略。
5. 单击新建,即可新建日志告警策略,详情参见 配置告警策略。

默认事件与审计告警一键开启
操作步骤
1. 登录 容器服务控制台,选择左侧导航栏中的集群。
2. 在集群管理页面,单击目标集群 ID,进入集群详情页。
3. 选择左侧导航中的告警,按需选择事件告警、审计告警,单击一键开启。

4. 前往开启事件日志、审计日志。
5. 基于默认告警模板做告警策略选择。

6. 关联通知渠道组,通知渠道推荐邮件、短信、微信、电话。详情参见 管理通知渠道组。
7. 单击确定,即可一键开启默认事件告警策略、审计告警策略。
8. 可在告警策略中查看创建的告警策略。

9. 可在告警历史中查看告警历史,单击查看详情。

默认告警模板
节点资源事件告警策略集
| 模板名称 | 模板说明 | 模板类型 | 事件名称 | 
| 节点磁盘容量不合法 | 节点磁盘容量不合法 | 事件类 | InvalidDiskCapacity | 
| 清理磁盘空间失败 | 清理磁盘空间失败 | 事件类 | FreeDiskSpaceFailed | 
| 节点磁盘不足 | 节点磁盘不足 | 事件类 | NodeHasDiskPressure | 
| 节点磁盘多次不足 | 节点磁盘不足 | 事件类 | NodeHasDiskPressure | 
节点状态事件告警策略集
| 模板名称 | 模板说明 | 模板类型 | 事件名称 | 
| 节点内存不足强杀进程 | 节点是否存在 OOM 事件 | 事件类 | SystemOOM | 
| 节点状态异常 | 节点状态异常 | 事件类 | NodeNotReady | 
集群网络事件告警策略集
| 模板名称 | 模板说明 | 模板类型 | 事件名称 | 
| 设置辅助网卡网络失败 | 设置辅助网卡网络失败,可能影响节点数据面网络通信 | 事件类 | FailedSetupENINetwork | 
| 新建节点全局路由失败 | 新建节点全局路由失败 | 事件类 | FailedToCreateRoute | 
| 节点网络内核参数设置失败 | 节点网络内核参数设置失败,可能影响数据面网络通信 | 事件类 | FailedSetupKernel | 
| 固定IP模式下尝试添加共享网卡失败 | 固定 IP 模式下尝试添加共享网卡失败 | 事件类 | FailedAllocENI | 
| ip_forward 参数被修改 | ip_forward 参数被修改,可能影响数据面网络通信 | 事件类 | IPForwardChanged | 
| 弹性网卡 IP 分配失败 | 尝试分配弹性网卡 IP 失败 | 事件类 | FailedAddRouteIPs | 
| 节点 PodCIDR 分配失败 | ipamd 同步 node 并尝试分配 podCIDR 失败 | 事件类  | SyncNodeFailed | 
| 同步指定子网失败 | 同步指定子网失败 | 事件类 | FailedSyncNominatedSubnets | 
| 同步辅助网卡安全组配置失败 | 同步辅助网卡安全组配置失败 | 事件类 | FailedSyncSecurityGroups | 
| rp_filter 参数被修改 | rp_filter 参数被修改,可能影响数据面网络通信 | 事件类 | RpFilterChanged | 
| 全局路由冲突 | 全局路由冲突,可能影响节点数据面网络通信 | 事件类 | GlobalRoutesConflict | 
| 非固定 IP 模式下尝试添加共享网卡失败 | 非固定 IP 模式下尝试添加共享网卡失败 | 事件类 | FailedAttachRENI | 
Service 事件告警策略集
| 模板名称 | 模板说明 | 模板类型 | 事件名称 | 
| CLB 监听器配额达到上限 | CLB 监听器配额达到上限 | 事件类 | EnsureServiceFailed | 
| CLB 后端 RS 配额达到上限 | CLB 后端 RS 配额达到上限 | 事件类 | EnsureServiceFailed | 
| 监听器使用证书已过期 | 监听器使用证书已过期 | 事件类 | EnsureServiceFailed | 
| 后端 RS 单点风险 | 后端 RS 单点风险 | 事件类 | EnsureServiceWarning | 
Ingress 事件告警策略集
| 模板名称 | 模板说明 | 模板类型 | 事件名称 | 
| CLB 监听器配额达到上限 | CLB 监听器配额达到上限 | 事件类 | EnsureServiceFailed | 
| CLB 后端 RS 配额达到上限 | CLB 后端 RS 配额达到上限 | 事件类 | EnsureServiceFailed | 
| 监听器使用证书已过期 | 监听器使用证书已过期 | 事件类 | EnsureServiceFailed | 
| 后端 RS 单点风险 | 后端 RS 单点风险 | 事件类 | EnsureServiceWarning |