编前按:运维发展历程与工业革命异曲同工,工业的三次革命分别是机械化、电气化与信息化,运维则是原始手工、脚本与自动化工具。
那么工业4.0悄然来临的今天,智能化又将会给运维带来哪些影响?AIOps早期是由Gartner提出,原义是基于算法的IT运维,随实践、反思和讨论的不断积累,对它的认知发生了一些变化。
随着人工智能技术的发展,基于人工智能的IT运维越来越被普遍认可,所以AIOps如今被解读为Artificial Intelligence for Operations。
如何理解AIOps?
要理解AIOps,首先要弄懂与DevOps之间的关系。AIOps可以看成DevOps的高级阶段,AIOps不是要完全取代成熟的DevOps工具链,而是给DevOps工具链装上“大脑”,将人工决策驱动的运维过程转型成系统自主决策驱动的过程,所以与DevOps工具链深度集成是落地AIOps的必由之路。
用一个形象的比喻,可以把AIOps看成运维的“钢铁侠”模式,系统不再是简单的工具,而是像钢铁侠战甲一样可以协助甚至独立自主的完成任务。
所以,AIOps其实就是将AI技术应用到IT运维领域,提升效率和创造现实价值的“工程化”过程。既然是AI的工程化过程,就需要务实的看待AI技术,需要选择合适的AI技术去解决有效的运维场景,例如智能报警,智能巡检,智能上线,智能自愈等等。
AIOps的六大技术难点
理解AIOps之后,我们来看看AIOps的技术难点。
1
AI“工程化”的复杂性
目前,机器学习是AIOps的重要手段,其他还有自然语言处理,高级搜索,知识图谱等,也需要综合应用到这个领域,才能达成实际“工程化”的落地效果。换言之,把AIOps认为就是算法落地是片面的。不仅如此,为了解决特定场景的问题,可能还要“借鉴”或“移植”其他领域的技术和方法。
2
如何获取高质量,高时效的监控数据
算法的运用是以数据为前提的,尽管经典监控架构已经可以覆盖Metrics,Logging,Tracing三大类数据,但由于每种数据都是各自一套系统捕获,归集,存储,使得数据的时效,对齐,品控的标准难以一致。
此外数据格式也可能差异很大,在经典大数据架构下,还要经过清洗,格式转换,面对海量数据时,时效就会进一步下降。
3
多维度数据的关联难度大
经典监控架构由于采集不统一,即便Metrics也可能来自不同的监控系统,例如面向网络监控,面向主机监控,面向应用监控可能就是三套不同的系统,更不用说Logging,Tracing的数据,这就造成了多维度数据的关联难度大。
除时效外,可实时关联的数据是系统能够“接近”甚至“达到”专业人员的任务决策能力的另一个关键。
4
机器学习模型的训练困境
智能运维运用机器学习的重要目标之一就是能够识别故障特征。但是运维SLA的目标是保证系统可用性99.9...%。这样的矛盾造成故障在实际运行过程中尽管时有发生,但相对于机器学习需要的样本实在是太少。
5
如何实现运维场景的实时感知
运维的时效性也要求系统的感知足够充分,这里不仅仅是监控数据,之所以运维人员比系统有更强的判断力,在于他们掌握了更充分的运维场景的信息,例如他们清楚网络架构,设备之间的关联关系,物理机/虚拟机分布,应用关联关系,应用技术栈,甚至业务用途等,它们是问题定位,根因分析,影响评估的基础,所以这些信息也要能被实时感知起来,而这一块在传统监控中是缺失的。
6
遗留技术栈,混合架构增大复杂性
不管金融行业,还是其他行业,只要不是新企业,都面临大量的遗留系统,它们在技术栈,架构上可能存在很大差异。因此对它们的感知,数据采集需要额外的投入。
另一方面,如果遗留系统还在不停的引入新的业务需求,会进一步引入新的复杂性。
*声明:推送内容与图片均来自公众号“智能运维社区”,欢迎关注。
领取专属 10元无门槛券
私享最新 技术干货