视频介绍
接入层故障示意图
采用 CLB 外网封堵故障动作封禁广州三区 CLB,在 DNSPod 配置的智能全局流量管理策略能够自动探测到 CLB 故障并自动切换到广州四区备用 CLB,服务在短暂不可用后,能够自动恢复。
注意:
智能全局流量管理策略配置:
演练步骤
步骤1. 启动 PTS 压测平台
1. 登录 PTS压测平台,选择测试场景为 cfg-test,启动压测流量。
2. 等待任务调度后,即可看到压测详情,演练过程中我们主要观察“请求失败率与并发数”、“平均响应时间与并发数”这两个业务指标。
步骤2. 启动故障注入
1. 单击预先在混沌平台创建的演练,进入演练详情,单击右上角执行,即可开始演练。
2. 由于演练是手动执行,所以需要手动开始第一个故障注入,单击图中故障注入目标 CLB 实例,下方会弹出相应的待执行故障动作,单击开始,即可开始向CLB注入第一个故障。
3. 故障注入过程中,CLB 图标会闪烁,故障注入完毕后,CLB 实例变为绿色。
4. 故障注入完成后,回到 PTS 压测页面,观察“请求失败率与并发数”指标,可以看到故障注入后,服务请求失败率为100%,约两分钟后,服务自动恢复。
步骤3. 启动故障恢复
1. 在混沌平台单击故障恢复动作,并等待动作执行完成。
2. 故障注入完成后,回到 PTS 压测页面,观察“请求失败率与并发数”指标,可以看到故障清除后,服务整体无感知。
注意:
PTS 压测时长最长为20min,如果 PTS 压测已经停止,请单击右上角重新执行。
步骤4. 结果分析
在单可用区接入层故障时,服务短时间不可用,随后自动恢复正常,服务接入层的跨可用区容灾能力真实有效。DNSPod 的域名解析 TTL为60s,健康探测时间为60s,在主可用区故障时,从健康探测失败到自动切换生效时间预计为2分钟,从试验结果来看自动恢复时长也符合预期,故障清除后,两个可用区CLB服务都恢复可用,DNSPod 回切到主可用区,恢复过程对服务无影响。