牛晓玲,中国信通院云大所审计与治理部副主任,DevOps 标准工作组组长,DevOps国际标准编辑人。
这两年出现特别多的 Ops,众多 Ops 之间有怎样的关系,如何用体系化的架构说清楚?企业面对的IT对象不一样,Ops 出现的层级也不一样,为此,我们将诸多 Ops 之间的关系进行了梳理。
从下而上可以看到:
1、基础设施层,面向网络、IT等,相应出现了 NetOps、ITOps
2、软件生命周期层的 DevOps、DevSecOps、AIOps
3、在企业内部面向数据研发生命周期的 DataOps
4、机器学习,随着大模型的出现,MLOps 也是非常火爆。不管是数据还是机器学习,都需要有一些 Ops
5、BizDevOps,与业务进行更好的结合
6、成本运营—— FinOps
7、战略与规划 ArchOps,因为架构受到企业非常高度的关注,怎样满足中国式现代化道路的架构,需要大家集中智慧进行输出
右侧是的气泡大小代表 Ops 在相关时间和实践出现的领域,每个 Ops 的成熟度也不一样。最早最成熟的是 DevOps,而后根据 DevOps 衍生出其他 Ops。
中国信息通信研究院每年会进行 DevOps 线上调查,根据调查报告,我们发现目前 DevOps 已经进入大规模全面应用阶段。
数字化转型的火爆,究竟企业如何落地数字化转型?这需要非常有利的抓手。通过研究发现,DevOps 和企业数字化转型实质是非常匹配的,主要有三方面。
根据我们研究发现,目前国内已有接近一半企业向大规模全面阶段发展,今年将继续发布研究报告,诚邀广大企业参与。
上图是《研发运营一体化(DevOps)能力成熟度模型》标准框架,目前标准已从8个部分扩展到11个部分。国际上也立项了首个 DevOps 国际标准,由我牵头并制定完成。
根据我们评估数据显示,截至2022年12月已有65家超过216个项目参与了 DevOps 评估,证明了我们在落地实践 DevOps 路线是正确的。
另外需要关注的重点是研发效能度量。在《研发运营一体化(DevOps) 能力成熟度模型》持续交付里有一个模块叫度量与反馈,在度量与反馈环节里也有度量的涉入。
我们做 DevOps 以后效果怎么样,研发效能度量成为了重点。很多企业也有工程效能部门,所以研发效能一直是企业非常关注的核心,包括头部互联网公司也在不断提211愿景、数据挖掘效能洞察等。
这里举两个案例,第一是某大型股份制银行的数字化研发大盘,给 DevOps 平台提供了非常完备的数据采集度量定义规范,帮助内部提供精细化研发效能管理。
第二是某头部互联网公司,其研发效能度量平台给研发效能数字化建设提供非常重要的支撑。
虽然很多企业非常关注研发效能度量,但具体落地还需要实践方法论。2021年,由中国信息通信研究院牵头发起制定研发效能度量标准,这个标准分为面向企业和面向工具两部分。
第一是建模,即如何构筑研发效能度量体系,建模在业界比较认可的、可执行的。第二是面向工具能力,大家知道做体系化建设工具支撑必不可少,因此,我们在工具上提出了更多的规范要求。
2021年底完成了首批试评估工作,包括百度、平安银行、中兴通讯、建信金科、联想、中原银行、中国联通等。
第三个热点是业务研发运营一体化——BizDevOps。
首先,从宏观政策层面来看,中国银保监会与人民银行发文《关于银行业保险业数字化转型的指导意见》明确提出”业技融合”;人民银行发布《金融科技规划(2022-2025)》明确提出”业务研发运营一体化(BizDevOps),将内容写到金融服务智慧再造章节,可见它的重要性和必要性。
我们想实现的核心目标是一切业务数据化,一切数据业务化。同时在落地业务研发运营一体化时一定要重视人才培养、平台、工具安全,要将这些能力融入到业务价值链里,助力企业真正实现业绩融合。
为了更好指导行业实践,由中国信通院牵头,目前将近 60 家企业积极参与到 BizDevOps 标准编写中。
其中有国有六大行、上交所、国家电网、中国人民银行清算总中心、顶级头部互联网公司,何勉老师对 BizDevOps 成熟度模型也有很多指导,相关专家团队提供了非常有价值、建设性的意见,这个标准含金量和质量是非常高的。
标准主要分为五部分:
智能化运维(AIOps)能力成熟度模型从2018年开始立项,怎样实践智能运维,我们也做了相关探讨,目前立项了两部分标准。
智能运维围绕质量、成本、效率、安全等众多场景,建立运维能力的相关要求。
第一是建立应对场景,将场景进行了深度梳理。
第二是建立系统工具标准,在支撑智能运维能力过程中系统和工具应该具备什么核心能力,在系统和工具标准里面都有所输出。这部分涵盖了国内所有做智能运维的研究机构和厂商,基本均在这个标准中有所输出。
FinOps 是将财务、业务跟 IT 融合在一起的变革。这个标准不是只为了帮大家省钱,而是为了解决 CFO 的困惑。每年在申请预算时都有诸多痛点,解释不清楚钱到底用在哪儿,FinOps 就是成本优化非常好的支撑。
FinOps 从组织变革、团队协作、能力建设三方面指导企业开展IT资源精细化管理,让资金用起来更加合理化。
目前有两部分标准,第一部分是云资源运营,云资源相当于企业内部非常重要的资源,包括预算额度、成本分摊、成本归集都在标准中有所规范。
第二个部分是IT基础设施,即 IT基础设施资源能力的成熟度模型,这方面也积极邀请广大企业进行共建共研。
目前,FinOps 取得了诸多成果。2020年,在工信部财务司指导下成立了 FinOps 产业推进方阵,希望与大家一起共建共研,共同推动 FinOps 的发展。
另外,我们与 FinOps 发起方 Linux Foundation 签订了战略合作协议。在 2021年9月持续举办了 FinOps 主题沙龙,截至去年超过 50 家企业在方阵中。
如何指导企业在构建新时代下稳定、高效、精细、安全大运维体系?大运维体系分为“554”:
不管是互联网企业还是金融电信行业,随着信息系统规模提升和迭代次数的不断增加,系统稳定性面临诸多风险。有些风险是因为用户需求倒逼,有些是政策要求推动的。
在新环境下,我们认为系统稳定性实现主要有两大难点:
第一、技术难点,系统规模增大以后,底层资源节点会增多,每个节点出现的故障概率增大,网络通信过程占比逐渐变大,技术实现非常困难。
第二、管理难点,环节变多了以后,多个部门之间的沟通成本非常大,而且业界也缺少稳定性相关指导,导致我们无据可依。
从国家层面来看,中华人民共和国国务院令(第745号),里面明确指出要保障关键信息基础设施安全稳定运行。安全稳定不管在国家层面还是企业层面都非常重视。
中国信通院牵头三大运营商运行了行程卡,疫情期间大家都有使用。行程卡从 2022年2月上线一直到2022年底下线,累计查询量450亿次,单日查询量维持3亿次以上。行程卡会根据各地疫情散点爆发的情况进行波动,在全国疫情非常重要和关键的节点起到非常大的作用。
结合前面的重点,信通院重新更新了研发运营稳定性工程(SRE)。按阶段分两部分,第一研发过程稳定性保障,第二技术运营稳定性保障,在稳定性保障方面有很多实践,包括《混沌工程实践指南》《信息保障稳定性能力建设指南(1,0)》,里面都对方法论有一些持续性输出。
研发过程稳定性保障注重三大环节,
技术运营稳定性保障,包括故障预防、故障观测、故障处置、优化改进,
研发运营系统稳定性核心目标实现可用性、可拓展性、可靠性、可维护性。邀请大家进入到里面与我们一起共建共研。