背景
CVM 网络损坏故障是常见的问题之一。由于硬件故障、网络配置不当、网络拥堵等问题,会引起网络损坏,导致 CVM 无法正常响应用户请求,从而影响业务的正常运行。对于依赖高可用和低延迟的业务,网络损坏会给用户带来很大的不便和损失。
为了提高 CVM 的网络可靠性和稳定性,需进行网络损坏故障演练。通过演练,可以验证系统在网络损坏情况下是否能够正常运行,提前暴露在网络损坏故障场景下的一系列问题,以便于优化系统架构并做好应急预案。
演练实施
步骤一:演练准备
准备若干可以演练的 CVM 实例。
步骤二:演练编排
1. 查看故障注入前的网络状态。使用 ping 命令向目标机器发送报文,并等待目标机器的响应,以检查网络连通性。如果无法收到目标机器的响应,或者丢包率较高,可能存在网络损坏问题。
2. 登录 云顾问 > 混沌演练控制台,进入演练管理页面,单击新建演练。
3. 单击跳过,新建空白演练。填写演练信息,添加目标 CVM 实例。
4. 单击立即添加,选择网络资源,单击主机内网络损坏,然后单击下一步。
5. 配置故障动作参数,然后单击确定。
6. 动作参数配置完成之后,单击下一步。根据实际情况配置护栏策略和监控指标,最后单击提交,完成演练创建。
步骤三:执行演练
1. 进入演练详情,单击前往动作组执行。
2. 单击执行,开始演练。
3. 点击动作卡片,查看动作执行结果详情。
4. 查看故障注入后主机网络状态。再次 ping 目标机器的时候可以发现,返回的网络包已有部分损坏。
5. 执行恢复动作,查看恢复动作详情。
6. 查看恢复效果。再次 ping 目标机器,可以看到网络传输已恢复正常,故障已经清除。