温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
平台CM系统时间跳变了一个演练示例,我们这里准备了一个简单的告警系统,主要分为客户端和服务端。客户端它执行一个逻辑,就是从服务端去拉取监控数据,这个监控数据包含两部分,一部分是从上次请求时间到目前为止流工牛金的流量总量。然后他拿到这个数据之后,会去计算每秒钟流过的流量是多少,然后并和我们设定的阈值进行比较,如果超过了这个阈值,我们就会触发告警的逻辑,这里我我们为了后面演示的方便,我们人为的将这个hold设置为零,换一句话说,我们这部分告警的逻辑是一定会执行的,然后这里呢,我已经将这两部分代码编译成的可执行文件,并且上传到了两个。
01:02
呃,CBM实力上。在TEST1上面,我们是计划运行客户端,首先我们把服务端启动起来。然后进而我们把。客户端也启动起来。可以看到。还会触发告警。然后我们这里鉴定一下,就是两台机器上它时间的变化,我们每一秒钟我们看一下它当前的时间变化。OK,我们来到混沌演练平台,我们可以直接复制一个之前创建好的之间跳变的一个,我们可以选择,然后删除这个实例,然后添加我们想要演示的实例,我们这里呢,计划是把客户端的这个系统的时间调整发生突变。
02:13
客户端是在这个test one的机器上,我们点击确定,那么可以看一下他们的参数,它是像这里就是呃,我们设置了,就是这个时间会向前跳变五秒钟。好,我们点击保存,OK,我们点下一步,然后提交。OK,这里会进行那个有一些前置的依赖,OK,我们的检测通过了,我们跳转到详情,OK,我们可以现在点击执行。稍等一下。
03:01
因为这是一个高危操作,所以会进行免费的一个校验。好,我们点击确定OK。此时我们可以看到下面这两个方框,我们就可以是灰色,然后这里按钮我们可以点击开始执行,点击确定好,正在执行当中,我们可以切到这个上面来看一下。最快时间,我是向前跳了五秒钟。看OK,五秒钟,这里是18,这点十说明这个这台机器的时间已经发生了翘变好后可以看到,按照我们预定的逻辑,他是每一次都会触发告警的,而现在他没有触发告警的,而且他这个阈值很明显超过了零,从逻辑上来讲应该是触发告警的,所以说这里应该是发生了故障了,OK,我们发生了故障之后,我们可以点击恢复。
04:09
确定,我们可以继续观察。继续观察。诶。触发告警,OK,触发告警,现在系统已经恢复正常了。好,通过这次演练呢,我们其实可以发现我们的这份代码是存在问题的,就是如果说他他这里当前这个时间并不在这里获取是并不是很合理的,所以说我们通过混沌演练的话,你可以发现执行当中潜在的一些问题。
我来说两句