背景
容器节点(如 Kubernetes 集群中的工作节点)承载着容器资源,负责运行和管理容器实例。然而,容器节点可能会遇到硬件故障、资源不足、网络故障等问题,导致容器实例无法正常运行。
为了提高容器服务的可靠性和稳定性,需进行节点故障演练。通过演练,可以验证系统在容器节点出现故障时能否正常运行,提前暴露此故障场景下的一系列问题,以便优化系统架构并做好应急预案。
演练实施
步骤一:演练准备
新建容器节点,添加实例,部署测试服务。若已有可以演练的容器节点,则直接创建演练。
进入 探针管理 页面安装探针。
步骤二:创建演练
1. 登录 智能顾问控制台 > 架构治理,进入治理模式,点击混沌演练。(详细创建演练方式请参阅 使用智能顾问进行混沌演练 )

2. 点击新建演练,填写演练基本信息,完成后点击下一步。

3. 在演练实例中,选择容器-标准集群普通节点,选择后点击搜索添加,添加实例资源。亦可通过架构图添加方式,直接点击架构图上的 TKE 资源,选择实例进行添加。

4. 完成添加实例后,点击添加动作,在节点操作分类下,选择 Node 关机故障动作。

5. 设置动作参数,点击确定。

6. 参数配置完成之后,在全局配置中选择执行方式、护栏策略,及添加可观测指标。配置完成后,点击提交,即可完成演练任务创建。

步骤三:执行演练
1. 查看故障执行前节点状态。

2. 进入演练详情,点击故障动作组中的执行,或下方开始演练,注入故障。

3. 点击动作名称,查看动作执行详情。

4. 查看执行日志,确认执行成功。

5. 查看故障执行后节点的状态,可以看到,节点状态为关机,说明故障注入成功,集群节点下的 Pod 也均运行异常。


6. 执行恢复动作,查看日志,确认恢复动作执行成功。

7. 查看故障恢复动作执行成功后,集群节点状态。可以看到节点已经正常运行,集群节点下的 Pod 均已正常运行,说明故障已经恢复成功。