背景与意义
在 Kubernetes 集群中,节点是运行 Pod 的基础资源。节点的异常重启或维护重启可能对集群服务的稳定性和容灾能力造成影响。通过模拟原生节点重启,可以验证以下场景:
1. 集群调度能力:重启期间,Pod 是否能够被调度到其他节点。
2. 服务容灾能力:服务在节点短暂不可用情况下是否仍能保持连续性。
3. 节点恢复能力:验证节点重启后是否能正确重新加入集群。
腾讯云顾问-混沌演练平台提供了原生节点重启的混沌演练功能,帮助您发现集群调度、容灾能力中的潜在问题,并优化恢复策略。
演练步骤
步骤一:演练准备
1. 购买标准集群实例:确保标准集群已部署,并部署测试服务。
2. 新建容器节点:添加实例并部署测试服务。如果已有可用于演练的容器节点,则直接创建演练。
步骤二:创建演练
1. 登录 云顾问 > 混沌演练控制台,进入演练管理页面,单击新建演练。
2. 在新建演练 > 经验选择页面,选择跳过,新建空白演练。
3. 填写演练信息,单击下一步。
4. 进入演练对象配置页面,填写动作组编排信息。其中,资源类型选择容器,资源对象选择标准集群原生节点。

5. 在动作组的实例列表中选择添加实例。
6. 在演练动作中,单击立即添加,添加故障动作。

7. 选择 Node 重启故障动作,单击下一步。

8. 设置动作参数,完成后单击确定。关机模式说明如下:
关机模式 | 执行方式 | 优点 | 缺点 | 适用场景 |
软关机 | 正常关闭系统流程(超时时间5分钟) | 数据安全、进程友好 | 需要更多时间 | 数据库服务器、关键业务系统 |
优先软关机 | 软关机(5分钟) + 超时后硬关机 | 数据安全与时间控制之间的平衡 | 超时时可能导致数据丢失 | 自动化运维、有 SLA 的批量任务 |
硬关机 | 直接断电或强制停止虚拟机 | 快速执行 | 可能导致数据丢失或系统损坏 | 测试环境、系统无响应时的紧急恢复场景 |

9. 动作参数配置完成之后,单击下一步。根据实际情况配置护栏策略和监控指标,单击提交,完成演练创建。

步骤三:执行演练
1. 登录 容器服务控制台,选择左侧导航栏中的集群。
2. 单击集群名称,进入集群详情页。
3. 选择左侧导航中的节点管理,在节点页签中,单击节点名称,在节点详情页中查看故障执行前节点状态。

4. 登录 云顾问 > 混沌演练控制台,进入演练详情,单击前往动作组执行。

5. 单击执行,开始演练。

6. 单击动作卡片,查看动作执行详情。

7. 查看执行日志,确认执行成功。

8. 查看故障执行后节点的状态,可以看到,节点状态已经异常,说明故障注入成功。

9. 该故障动作没有恢复动作,等待原生节点重启完成后观察集群节点状态即可。
