接入层故障演练

最近更新时间:2024-06-11 10:41:31

我的收藏

视频介绍



接入层故障示意图




采用 CLB 外网封堵故障动作封禁广州三区 CLB,在 DNSPod 配置的智能全局流量管理策略能够自动探测到 CLB 故障并自动切换到广州四区备用 CLB,服务在短暂不可用后,能够自动恢复。
注意:
本实验智能全局流量管理策略配置并不代表推荐配置,只用于说明试验效果,生产环境配置请参阅 智能全局流量管理策略 文档。
智能全局流量管理策略配置:







演练步骤

步骤1. 启动 PTS 压测平台

1. 登录 PTS压测平台,选择测试场景为 cfg-test,启动压测流量。



2. 等待任务调度后,即可看到压测详情,演练过程中我们主要观察“请求失败率与并发数”、“平均响应时间与并发数”这两个业务指标。




步骤2. 启动故障注入

1. 单击预先在混沌平台创建的演练,进入演练详情,单击右上角执行,即可开始演练。



2. 由于演练是手动执行,所以需要手动开始第一个故障注入,单击图中故障注入目标 CLB 实例,下方会弹出相应的待执行故障动作,单击开始,即可开始向CLB注入第一个故障。



3. 故障注入过程中,CLB 图标会闪烁,故障注入完毕后,CLB 实例变为绿色。


4. 故障注入完成后,回到 PTS 压测页面,观察“请求失败率与并发数”指标,可以看到故障注入后,服务请求失败率为100%,约两分钟后,服务自动恢复。




步骤3. 启动故障恢复

1. 在混沌平台单击故障恢复动作,并等待动作执行完成。



2. 故障注入完成后,回到 PTS 压测页面,观察“请求失败率与并发数”指标,可以看到故障清除后,服务整体无感知。
注意:
PTS 压测时长最长为20min,如果 PTS 压测已经停止,请单击右上角重新执行。




步骤4. 结果分析

在单可用区接入层故障时,服务短时间不可用,随后自动恢复正常,服务接入层的跨可用区容灾能力真实有效。DNSPod 的域名解析 TTL为60s,健康探测时间为60s,在主可用区故障时,从健康探测失败到自动切换生效时间预计为2分钟,从试验结果来看自动恢复时长也符合预期,故障清除后,两个可用区CLB服务都恢复可用,DNSPod 回切到主可用区,恢复过程对服务无影响。