背景
CVM 内核故障可能会导致业务无法正常运行,并影响到整个系统的稳定性。硬件故障、内核软件缺陷、驱动程序、不兼容性等问题都可能会引起内核故障,导致 CVM 无法正常运行,对于依赖高可用性的业务来说,这会给用户带来很大的不便和损失。
为了提高业务的可靠性和稳定性,需要进行内核故障动作演练。通过演练,可以验证在内核故障的情况下对业务的影响,以及提前暴露故障引起的一系列问题,便于快速有效地解决故障。在处理内核故障时,为避免对系统造成进一步损害,请具备足够系统知识和经验的人员进行操作。
演练实施
步骤一:演练准备
准备若干已经安装自动化助手(TAT)工具的 CVM 实例。
步骤二:演练编排
1. 登录 智能顾问控制台 > 架构治理,进入治理模式,点击混沌演练。(详细创建演练方式请参阅 使用智能顾问进行混沌演练 )

2. 点击新建演练,填写演练基本信息,完成后点击下一步。

3. 在演练实例中,选择计算- CVM,选择后点击搜索添加,添加 CVM 实例资源。亦可通过架构图添加方式,直接点击架构图上的 CVM 资源,选择实例进行添加。

4. 完成添加实例后,点击添加动作,在 CPU 资源分类下,选择内核故障。


5. 配置故障动作参数,此动作无必填参数,可直接点击确定完成添加。

6. 参数配置完成之后,在全局配置中选择执行方式、护栏策略,及添加可观测指标。配置完成后,点击提交,即可完成演练任务创建。

步骤三:执行演练
1. 前往演练详情,点击故障动作组中的执行,或下方开始演练,注入故障。

2. 观察故障效果:存量连接中断,实例重启。

3. 执行恢复动作。

说明:
不同操作系统对内核故障有不同的应对策略,常见的方式为自动重启计算机。如果操作系统并未响应,可以在平台上手动执行恢复动作强制重启。