背景
CVM 内核故障可能会导致业务无法正常运行,并影响到整个系统的稳定性。硬件故障、内核软件缺陷、驱动程序、不兼容性等问题都可能会引起内核故障,导致 CVM 无法正常运行,对于依赖高可用性的业务来说,这会给用户带来很大的不便和损失。
为了提高业务的可靠性和稳定性,需要进行内核故障动作演练。通过演练,可以验证在内核故障的情况下对业务的影响,以及提前暴露故障引起的一系列问题,便于快速有效地解决故障。在处理内核故障时,为避免对系统造成进一步损害,请具备足够系统知识和经验的人员进行操作。
演练实施
步骤一:演练准备
准备若干已经安装自动化助手(TAT)工具的 CVM 实例。
步骤二:演练编排
1. 进入 云顾问 > 混沌演练控制台 > 演练管理,点击新建演练。
2. 单击跳过,新建空白演练。填写演练和动作组基本信息,添加目标 CVM 实例。
3. 添加演练动作,选择 CPU 资源中内核故障动作,然后点击下一步进入参数配置。
4. 配置故障动作参数,此动作无必填参数,可直接点击确定完成添加。
5. 确认配置,提交演练完成创建。
步骤三:执行演练
1. 进入演练详情,单击前往动作组执行。
2. 点击执行开始下发故障任务。
3. 观察故障效果:存量连接中断,实例重启。
4. 执行恢复动作。
说明:
不同操作系统对内核故障有不同的应对策略,常见的方式为自动重启计算机。如果操作系统并未响应,可以在平台上手动执行恢复动作强制重启。