重磅惊喜:组合套餐
- 自愈套餐新增支持将原子套餐组装成组合套餐,解决复杂故障处理场景。
- 场景:大年三十晚上与家人团聚的时候,运维小A突然收到服务器Ping告警,往年遇到这种情况时,解决问题得花一段时间,团圆饭就基本泡汤了。
今年小A部署了蓝鲸智云社区版,研究了蓝鲸监控和故障自愈,针对往年常出现的故障,设置好了监控->自愈的恢复链路。Ping告警刚产生没几分钟,故障自愈就已经从资源池中拉取了备用机替换了故障机,保障了业务的正常运行,小A也愉快地在家里度过新年。
下面就给大家分享小A的故障自愈组合套餐配置方法。(如果担心全自动的故障恢复有风险,或者流程上不允许,还可以考虑使用带有审批功能的故障自愈组合套餐https://docs.bk.tencent.com/fta/Advanced_Features/Approval_of_ping_alarm_combination_package_access_process.html)
PING不可达故障替换组合套餐
场景:A模块是重要模块,出现PING不可达告警,首先要校验A模块是否真的故障,如果真的故障,接下来是从资源池中获取备机..故障替换等等,期间每个环节都有可能出错,那就要考虑异常分支的场景。
需要提前准备:
- 需要蓝鲸平台上部署故障自愈的前后端
- 需要配置好通知渠道,通知方式可采用邮件/短信/企业微信(配置方法可联系蓝鲸助手)
第一步:准备好组合套餐中每个原子(节点)的套餐。 
1. 配置ping检测的原子套餐,可以在作业平台写个简单的ping检测脚本,再去故障自愈中配置ping检测的自愈套餐。
2. ping检测没有异常,则发送正常通知。如ping检测异常,则使用获取备机套餐,自动获取备机,前提是空闲机池中有空闲机。
2.1 配置ping检测正常通知
2.2 配置自动获取备机套餐
3. 成功获取备机后,拷贝故障机属性到备机,后续处理对象故障机与备机互换,然后初始化业务,启动进程通知故障替换成功,以上步骤失败都加一个失败通知。
3.1『快捷』配置平台拷贝故障机属性到备机、『快捷』后续处理对象故障机与备机互换,都是快捷套餐,只要选择就好,这里就不展开了,后面初始化业务请根据企业的初始化流程来配置初始化套餐,启动进程也是一样,因为这里只是模拟所以仅用通知代替。
第二步:配置组合套餐,并接入故障自愈,接入故障自愈这里选择REST默认分类是为了方便触发告警,实际应用选择ping不可达告警类型。
第三步:触发告警,完成自愈
1. 触发告警,由于这里是做测试,用REST API可以更方便的产生告警,完整流程请参照REST API推送。
2. 回到故障自愈中,查看自愈详情,也可以点击状态,查看执行详情。
惊喜二:标准运维套餐
- 自愈套餐新增标准运维套餐,支持调用标准运维流程处理故障,标准运维是拥有可视化的图形界面,并进行任务流程编排和执行的系统,通过标准运维,可在单个流程内调用平台的众多原子,解决故障。
1. 创建标准运维故障处理流程
2. 在故障自愈创建自愈套餐,选择自愈流程 
3. 接入自愈,简单3步即可完成标准运维套餐的使用
惊喜三:通知套餐
- 自愈套餐新增通知套餐,可以调用不同的接口发送自定义的通知内容。(发送微信失败会改为短信,发送短信失败则发微信,邮件通知接口调用失败将不做处理)
惊喜四:审批套餐
- 自愈套餐新增审批套餐,重要告警发送到企业微信等平台,需人工确认才能进行下一步处理。- 需要先配置企业微信,注册链接:https://work.weixin.qq.com/,注意:开启微信端口80、443
- 需要在企业微信后台创建故障自愈APP
 
惊喜五:新增3种告警源集成
- 目前已支持处理来源于AWS、Icinga 2、邮件中的告警 。
惊喜六:预警自愈
- 频繁故障的资源,除了接入自愈之外,还可以选用预警自愈,配置预警自愈策略,每天早上8点回溯自愈处理过的告警,分析潜在风险并处理。可在健康诊断页面找到分析出的健康事件。
惊喜七:自愈小助手
- 在没有接入自愈的时候,故障自愈也会检测监控工具是否有在产生告警,当检测到有未接入自愈的告警时候,自愈小助手就会根据推荐模型,自动关联告警和处理套餐,一键启用,减少了人工配置的成本。