AIOps为何被认可
随着IT应用的日益普及,IT应用越来越复杂,涉及面越来越广,一旦出现故障,诊断越来越困难,导致人才紧缺。比如,硬件方面会涉及用户终端、服务器、存储、网络等,在软件方面则有操作系统、中间件、数据库等,另外还涉及运营商的网络、云服务商、CDN服务商等,其中任何一个环节出现问题都会导致用户体验欠佳。而让这个问题更为复杂的是,当今互联网环境下越来越多的应用之间通过API或者Web服务进行通信时,这一切就更为困难。
为了高效运维,此前人们提出自动化运维的理念,希望通过各种软件工具,特别是一些开源产品如Ansible、Chef来自动化流程,通过减少人力来提高效率。但这只是解决执行问题,没有解决诊断和归因的问题。
在故障发生和面对各个各样报警信息时如何快速准确找到问题所在,这是解决故障的关键。而AI和大数据技术的出现,让我们看到了解决这个问题的希望。AI和大数据等数据分析和处理技术在改变传统行业的同时,也IT行业自己带来新的发展,IT运维就是其中之一。
大数据的出现,让IT运维有了能力来收集和处理海量的信息,而且是几乎实时地完成整个过程。其次,AI技术的引入让系统可以及时发现问题、预测问题,并自动解决问题,大大减少了人工参与。
AIOps能干什么?
AIOps的主要目标包括:通过采集当前环境中的运维数据,集成现有IT运维管理工具,利用算法等高级数据分析技术对IT系统中各个环节的问题进行快速定位、故障排除和预测;对来自业务环节中各个分布式系统的数据进行聚合分析,合理优化IT服务,挖掘关键业务的KPI指标,反哺业务端,帮助其做出明智决策;通过大数据和人工智能技术分析用户的行为日志和运维数据,发掘潜在的系统安全和合规问题,为企业的信息安全保驾护航。
功能看起来很多,最为核心的功能有:发现异常、定位故障、基线预测等,这些都属于智能运维范畴,在此之上还有提供对业务支撑和运营。
以发现异常为例,传统IT运维工具中都会采用基于经验值来定义异常阈值,这种方法主要基于人的主观判断。而基于机器学习的方法,通过积累历史运维数据,根据日常运维的需求在数据特征的基础上建立算法模型,对模型进行周期性地训练学习,从而能为IT系统提供更为及时、准确、高覆盖的检测结果。
传统异常发现的流程是运维人员在系统中创建了业务路径,并对路径中关注的节点或连线进行告警设置。如数据中心网银交易服务器响应时间告警的设置为>300ms,如果运维软件监测到响应时间超过300ms,系统告警。而采用AI方法进行异常检测时,运维人员不用对业务路径做任何告警设置,当机器学习算法检测到某个业务路径的某个节点或连线上产生了异常值,就会自动抛出异常事件。
抑制告警风暴也是AIops的非常实用的功能。所谓告警风暴是指在短时间内系统产生大量告警消息,这些消息有的是由某种共同因素引发,互相之间存在一定关联。
大型企业的IT应用系统庞大而复杂,设备数量动辄成千上万,任何一个小小的IT问题都有可能引发告警风暴。大量同一事故源引发的告警信息会极大地干扰运维人员的工作,导致运维人员疲于应付大量的告警消息,需要耗费更多时间排查和处理问题,大大降低了运维效率,更为严重的是会让真正关键的告警信息淹没其中,由于无法第一时间发现根源问题,延误了故障处理时间。
AIops通过算法模型结合固定规则的方式对告警消息进行告警压缩和告警合并,在保证核心告警内容(即不压缩核心告警内容)的前提下合并告警消息数量,为运维人员提供有效的告警信息。
领取专属 10元无门槛券
私享最新 技术干货