文 /中国银行数据中心副总经理 袁俊德
目前,智能化运维体系建设,已经成为中国银行“科技引领”战略中的一项重要基础性工程。为此,我们在数据中心层面专门成立了智能化运维工作组,由总经理担任组长,强化顶层设计和前瞻规划,在结合自身实际需要与业界发展趋势的基础上,提出了“把握一个原则、实现两个融合、提升五大能力”的智能化运维体系规划和建设总体思路。即:要把握安全合规与敏捷高效相平衡的原则;一方面,要实现新技术与传统运维技术相融合,另一方面,要实现技术手段进步与管理流程优化相融合;重点提升“运行状态的趋势预测”“生产事件的精准定位”“服务的快速交付”“运维操作的自动化执行”“资源的灵活扩展及有效利用”五方面的能力。
智能化运维技术框架规划
经过多年的持续建设,中国银行数据中心已经形成了较为成熟的“以事件为驱动”的运维管理体系。在当前和未来的一段时间,该体系仍将会在确保数据中心的安全生产方面发挥重要作用。同时,基于该体系的细致化分工方式,也使得数据中心的运维工具形成了垂直化的管理格局,增加了后期管理和功能扩展的难度。
在制订中心的智能化运维技术框架时,我们把实现“平台化、集成化和数据驱动”作为了最主要的设计目标。我们要将原来分散设计、分期实现的各类工具,依照所使用的运维领域进行框架整合,结合新技术的使用,逐步建成包含基础设施层、数据算法服务层、自动化运控服务层、交互管理服务层、监测服务层、开发与质量控制服务层在内的若干运营平台。同时,使各层平台之间,能够相互调用,实现数据的交换和共享,将数据激活并转化为知识和洞察力。
数据中心智能化运维实践
1.云中心智能化运维平台研发实践。作为配合数字化转型战略的重要举措,2018年以来,中国银行加快推进分布式私有云中心建设,同步开展了智能化运维平台—“云图”的研发工作。“云图”基于开源软件进行分层设计、模块化部署,提供CMDB、智能监控、自动化工作流管理、运维大数据分析、DevOps等多项功能。
平台上线以来,已管理所有部署于云中心的机房设备、网络设备和IaaS平台,使系统自动化部署的效率提升了几十倍,基本实现了系统环境的一键式交付。目前,“云图”已累计纳管了数个Openstack集群、千余个系统分区,部署了近十万个监控点。随着云中心建设的持续深入,预计至2019年底,“云图”纳管的系统分区将达到上万个。
2.传统集中式架构的自动化和智能化实践。在传统集中式架构的运维管理方面,数据中心以提升运维效率、降低人为操作风险为目标,选择了应用部署、例行变更等工作量占比较高的类别,重点开展自动化和自服务化改造。目前,已实现主机、小型机和x86等多个平台的应用自动化部署,发布效率得到了3~5倍的提升。
另外,数据中心综合运用“大数据、机器学习和可视化”等技术,实现了对应用交易的端到端监控,对应用访问量和系统重要性能指标的关联分析与预测,以及对机房环境、CMDB信息的3D仿真展现。在“快速发现问题、定位问题”方面,取得了一些有益的成果。
3.网络安全领域的智能化研究探索。信息安全管理既是运营管理的关键领域,也是运用数据挖掘、机器学习、人工智能等新技术的重要场景方向。2018年,中国银行已启动了企业级SOC建设工作,并侧重在自适应网络安全架构中的预测和检测两个维度,开展相关的智能化研究探索。
通过与国家信息技术安全研究中心联合开展课题攻关,设计开发了网络安全情报系统,致力于形成金融行业共享的情报获取生态机制。在单要素威胁场景的精确检测领域,选择了WebShell后门和DGA域名两个场景,结合自然语言处理等技术,对深度学习算法在该领域的适用能力进行了研究,取得了优于同类工具的检测效果。
领取专属 10元无门槛券
私享最新 技术干货