文档中心>容器服务>TKE 标准集群指南>原生节点管理>原生节点底层宿主机异常告警

原生节点底层宿主机异常告警

最近更新时间:2025-08-13 17:42:11

我的收藏
CVM 作为 TKE 原生节点物理资源的载体,当底层宿主机存在异常情况时(例如底层宿主机突发异常宕机,底层宿主机的软硬件故障隐患),都会影响到原生节点的可用性和运行性能。平台监控到异常情况会生成异常事件,记录在原生节点池运维记录、事件日志,您可为集群配置 事件持久化 和事件告警,当平台监控到异常情况将立即向用户推送受影响实例的故障或隐患通知。您在收到相关通知后,可及时前往 告警历史,查看异常实例的异常原因。

前提条件

原生节点底层宿主机异常告警需同时开启日志服务功能,请参见 日志采集事件日志

异常事件类型

类型
含义
应对建议
实例运行隐患(101)
实例当前运行正常,但监控到实例宿主机或底层平台存在软硬件隐患,可能导致实例性能抖动,或存在异常宕机风险。
为尽快完成维护以规避底层软硬件隐患,避免潜在的宕机风险,建议您提前备份好业务数据,系统在计划维护时间自动发起维护。
实例运行异常(102)
实例底层宿主机突发软硬件故障或系统错误,导致实例异常宕机或重启。
当监控到实例运行异常类型的异常事件触发时,平台已在第一时间执行相关维护操作,并尝试对异常实例进行重启以快速恢复实例可用性。
建议您等待实例自动重启完成。
实例硬盘异常(103)
实例本地硬盘突发故障,可能导致实例 I/O 性能降低或硬盘功能受损。
为尽快完成维护以恢复异常硬盘可用性,建议您提前备份好业务数据。
实例硬盘预警(106)
实例本地硬盘存在坏盘隐患或使用寿命即将耗尽,可能导致实例 I/O 异常或磁盘掉线等数据层面异常。
为尽快完成维护以消除本地硬盘潜在的故障风险,建议您提前备份好业务数据。
实例网络连接异常(104)
实例底层网络连接突发故障,可能会引起实例网络抖动或导致网络连接异常。
当监控到实例网络连接异常类型的异常事件触发时,平台已在第一时间对底层网络执行相关维护操作,并尝试恢复异常实例的网络连接可用性。
建议您等待实例网络连接自动修复完成。
实例维护升级(107)
实例因底层宿主机架构、软件升级等原因需要发起在线维护,以提升实例性能及安全性。
为尽快完成维护以提升实例性能及安全性,建议您提前备份好业务数据,等待系统在计划维护时间自动发起维护。

操作步骤

开启事件日志

请参见 日志采集事件日志

配置告警通知

1. 登录 日志服务控制台,选择左侧导航栏中的监控告警 > 告警策略
2. 单击新建,即可新建日志告警策略,详情请参见 配置告警策略
3. 主要参数信息如下:
监控对象:选择日志主题,可实现多集群的批量配置。

执行语句:event.reason 配置为上述异常事件类型。可配置多个执行语句,例如:
event.reason:"实例运行隐患(101)"
通知渠道:支持邮件、短信、微信、电话、企业微信、钉钉、飞书、自定义接口回调。


查看异常事件

1. 登录 日志服务控制台,选择左侧导航栏中的监控告警
2. 单击告警历史,选择策略时间范围、告警策略。