逻辑层故障演练

最近更新时间:2024-06-11 10:41:31

我的收藏

视频介绍



逻辑层故障示意图




CLB 后端 RS 绑定了两个云服务器端口,转发权重为1:1,当单可用区 CVM 故障时,CLB 健康检测失败,请求会被 CLB 自动切换到另一个可用区的正常节点,从而实现逻辑层跨可用区容灾。
CLB 配置




演练步骤

步骤1. 启动 PTS 压测平台

登录 PTS压测平台,选择测试场景为 cfg-test,启动压测流量。
注意:
如果接入层故障演练启动的压测任务还未结束,这一步骤可以跳过。




步骤2. 启动故障注入

1. 单击演练编排图中的 CVM 图标,在弹出的动作编排列表中单击执行 CVM 网络中断故障。



2. 等待故障执行成功。



3. 观察 PTS 压测结果,观察请求失败率与并发数指标,可以看到请求失败率始终为0,观察平均响应时间与并发数指标,可以看到在故障后,接口响应时间翻倍。



4. 前往 CLB 控制台,单击广州三区 CLB 实例,查看后端 RS 状态,此时可以看到一个后端 CVM 已经异常。



在演练详情下方,也可以看到故障后,故障 CVM 的 CPU 使用下降。
注意:
基础监控指标存在一定延迟,请以监控指标下方时间轴结合演练日志中的故障注入时间判断故障实际生效时间。




步骤3. 启动故障恢复

1. 单击故障恢复动作。



2. 观察 PTS 压测结果,观察请求失败率与并发数指标,可以看到请求失败率始终为0,观察平均响应时间与并发数指标,可以看到在故障恢复后,接口响应时间回落。



3. 同样的,可以继续观察 CLB 后端 RS 健康检查状态以及 CVM 基础指标监控。







步骤4. 结果分析

在单可用区逻辑层故障时,服务整体可用性未受影响,服务逻辑层的跨可用区容灾能力真实有效。在单台 CVM 故障后,CLB 探测到服务故障,于是将请求流量转发到另一台健康服务,故障 CVM 的 CPU 使用率也随之回落,原来由两台服务器处理的请求现在全部指向单台服务,所以请求时延翻倍。故障清除后,两个可用区的服务都恢复可用,CLB 健康探测恢复正常,流量正常转发到两台服务器,接口时延随之下降,恢复后的服务 CVM CPU使用率也逐渐上升。