文档中心>混沌演练平台>故障动作库>容器>容器资源节点故障演练案例

容器资源节点故障演练案例

最近更新时间:2024-06-27 17:56:21

我的收藏

背景

容器节点(如 Kubernetes 集群中的工作节点)承载着容器资源,负责运行和管理容器实例。然而,容器节点可能会遇到硬件故障、资源不足、网络故障等问题,导致容器实例无法正常运行。
为了提高容器服务的可靠性和稳定性,需进行节点故障演练。通过演练,可以验证系统在容器节点出现故障时能否正常运行,提前暴露此故障场景下的一系列问题,以便优化系统架构并做好应急预案。

演练实施

步骤一:演练准备

新建容器节点,添加实例,部署测试服务。若已有可以演练的容器节点,则直接创建演练。
进入 探针管理 页面安装探针。

步骤二:创建演练

1. 登录 云顾问 > 混沌演练控制台,进入演练管理页面,单击新建演练
2. 点击跳过,新建空白演练,并填写演练信息。
3. 实例类型选择容器,实例对象选择标准集群普通节点,然后添加实例。


4. 点击立即添加,添加故障动作。


5. 选择节点操作-Node关机故障动作。


6. 设置动作参数,点击确定


7. 动作参数配置完成之后,单击下一步。根据实际情况配置护栏策略监控指标,最后单击提交,完成演练创建。



步骤三:执行演练

1. 查看故障执行前节点状态。


2. 进入演练详情,单击前往动作组执行


3. 点击执行,开始演练。



4. 点击动作卡片,查看动作执行详情。



5. 查看执行日志,确认执行成功。


6. 查看故障执行后节点的状态,可以看到,节点状态已经异常,说明故障注入成功,集群节点下的 Pod 也均运行异常。





7. 执行恢复动作,查看日志,确认恢复动作执行成功。


8. 查看故障恢复动作执行成功后,集群节点状态。可以看到节点已经正常运行,集群节点下的 Pod 均已正常运行,说明故障已经恢复成功。