文 / 交通银行数据中心副总经理 郑仕辉
智能运维的主要功能
交行的智能运维包括如下功能。
1.海量运维大数据处理平台。交行建立起基于Ha-doop/Spark架构的运维大数据处理平台,通过Flume/Stream和Kafka将每台服务器和设备上的日志ETL收集到运维大数据处理平台,实现各种运维数据的集中存储和标签化处理。其中包括:系统监控ITM/ITCAM、网络监控NetCool、应用监控Dynatrace、存储监控Unisphere、服务器监控ITO,以及各种自主开发的应用监控等20多个监控系统的监控数据;各类操作系统、网络交换机、小型机和服务器、存储设备、应用系统的日志信息;IT服务台的变更信息、批处理信息和生产问题的历史记录等。该平台可以处理结构化和非结构化信息,每日处理的数据增量达到3.5TB,数据加载和处理时间达到秒级响应。
2.智能预警系统。在对历史运维数据的充分挖掘和分析的基础上,利用概率神经网络、方差分析、时间系列分析等多种机器学习方法,自动学习每个监控指标的波动曲线,并利用清华大学裴丹教授等提出的异常检测算法,解决了波动曲线的周期性问题,实现了波动曲线的自适应。
智能预警在监控指标出现异常的波动时就发出预警,可以在监控系统产生告警之前就发现问题的征兆,例如:可以在内存泄漏还未影响业务之前产生提示,在交易尚未堵塞之前自动报告交易响应时间的异常。智能预警可以提前发现潜在的异常信息,使得运维人员可以提前介入、及早处理,将问题消除在萌芽状态。
3.日志异常分析。我们利用Elasticsearch等开源工具实现了对各种日志准实时集中加载和处理。同时通过统一的界面实现对多个系统日志进行关键字检索、统计分析和灵活报表展现等功能。利用聚类分析和TF-IDF等机器学习技术实现对异常日志进行模式识别、智能预警和提示,辅助对生产问题进行快速定位。
4.生产问题智能定位。在运维数据分析的基础上,我们通过等神经网络和相关系数分析等机器学习算法,实现了各个运行指标之间的相关性分析,通过相关性分析可以发现导致影响业务的真正原因。例如:我们可以利用相关性分析,发现手机银行的交易响应时间缓慢的原因是I/O时间的突然增长,结合日志报警的分析,可以直接定位到是磁盘前端口的板卡故障。在二期项目中,我们将进一步为每个应用系统建立一个知识图谱,每个运行指标都是知识图谱中的一个节点,通过知识图谱可以发现异常指标之间的关联,容易发现问题的根源。
智能运维带来的效果
1.提升运维数据治理能力。运维大数据平台将原先分散在各监控管理平台的运维数据进行统一管理。在发生生产问题时便于进行不同维度运维数据之间的关联分析与排查,大大提高了问题解决的效率,减少了不同运维部门之间数据分散带来的时间成本消耗。
2.提高生产系统的可用性。通过智能预警,数据中心运维保障人员对生产系统的运维模式由被动式故障抢修转变为主动式故障预判。对通过运维大数据平台发现的生产异常预警指标或者系统,相关运维人员可以提前介入进行重点监控、问题定位和故障排查,主动应对可能发生的生产事件。在一定程度上减少了生产问题实际发生的数量,提高可生产系统的可用性。
3.显著提高数据中心的应急处理水平,降低问题的定位和处理时间。通过智能辅助定位功能,可以自动发现和定位问题根源,将原来问题的定位分析时间从数十分钟降低到数分钟。大大提高应急处理水平。
4.显著降低人力成本。自动化运维可以提高数据中心的工作效率,而智能运维进一步提高了生产系统的预警能力和自动化的处理能力,从而进一步降低运维成本。尤其是随着分布式架构的推广,智能运维将使得数据中心人均运维的服务器数量大幅提高。
领取专属 10元无门槛券
私享最新 技术干货