目前,已经有多家IT,银行公司,在逐步构建AIOps实施和落地。这几年我们也看到了很多有意思的场景的落地,也确确实实给业务带来了很多的价值。 本文主要总结梳理了在现有背景下,如何做好监控告警的智能化, 旨在为智能告警提出可行的解决方案。
痛点基本沿着“异常发现---告警触达---决策分析”的思路演进。
基于规则的告警策略配置,必然导致一个问题:阈值配置过高,容易漏掉系统运行故障;阈值配低,又会带来大量的无效告警,影响运维团队的工作效率,形成很多告警的叨扰。同样,告警检查周期的长短设置也存在类似的问题。往往运维团队为了不 遗漏 告警, 而 提升告警的灵敏度, 导致 告警重复率高达60%。
一个告警问题往往不是1个运维人员可以解决的,大部分的团队都是多 个人参与同一类告警的处理 ,而 同一个告警 就 会被推送到 团队中的 多个运维人员的手中。但是,通常在一些特殊时段只有一个值班 人 员负责处理告警,这就给其他团队成员生活带来了巨大的干扰。因为缺少高效的分派和排班管理机制,加上大量重复的无效信息,这将会在一定程度上造成告警处理的延时和遗漏,引发告警风暴。
如何形成有效的告警分析和决策,而不仅仅是一条告警通知,则是迈向智能化告警的关键 每有一个用户访问 应用系统,应用 都需要 调用链路上 多个 IT单元, 而这其中,有一个环节出现问题, 都有可能导致业务故障。 而 系统中任何一个监控对象的告警都可能引发其他多个相关策略的告警, 这些 告警的相关度高达90% 以上。
方案一:告警配置模版方案
告警配置模板一方面可以让配置阈值方案变得更加简洁, 另外一个方面也是可以逐步把专家配置维护经验,在各个场景进行沉淀。
方案二:智能化检测
智能检测这个话题经常被聊起,每一种算法都可以拿出来单独写一篇文稿。 那业界常用的方法包括:
告警分级方案:
告警收敛方案:
最后,需要强调一下的是,算法在场景应用中,更多的起到帮助人们自动化挖掘出数据中的关系,规律, 但有效制度的建立也是不可缺少的一环。
告警的关联:
支持下钻分析:
根因分析/决策建议:
参考:
http://blog.itpub.net/69948837/viewspace-2724484/
https://www.infoq.cn/article/qta6vcyjvhdoijg5wkze
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。