前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >中国信通院云大所牛晓玲:XOps + SRE,如何赋能企业迈进高质量发展新格局?

中国信通院云大所牛晓玲:XOps + SRE,如何赋能企业迈进高质量发展新格局?

作者头像
DevOps时代
发布2023-08-22 08:59:23
1.4K0
发布2023-08-22 08:59:23
举报
文章被收录于专栏:DevOps时代的专栏
本文根据演讲者在 GOPS 2023·深圳站演讲整理而成,如有图文不妥,请以视频为准。更多精彩,请关注高效运维公众号。

牛晓玲,中国信通院云大所审计与治理部副主任,DevOps 标准工作组组长,DevOps国际标准编辑人。

一、XOps 体系介绍

这两年出现特别多的 Ops,众多 Ops 之间有怎样的关系,如何用体系化的架构说清楚?企业面对的IT对象不一样,Ops 出现的层级也不一样,为此,我们将诸多 Ops 之间的关系进行了梳理。

从下而上可以看到:

1、基础设施层,面向网络、IT等,相应出现了 NetOps、ITOps

2、软件生命周期层的 DevOps、DevSecOps、AIOps

3、在企业内部面向数据研发生命周期的 DataOps

4、机器学习,随着大模型的出现,MLOps 也是非常火爆。不管是数据还是机器学习,都需要有一些 Ops

5、BizDevOps,与业务进行更好的结合

6、成本运营—— FinOps

7、战略与规划 ArchOps,因为架构受到企业非常高度的关注,怎样满足中国式现代化道路的架构,需要大家集中智慧进行输出

右侧是的气泡大小代表 Ops 在相关时间和实践出现的领域,每个 Ops 的成熟度也不一样。最早最成熟的是 DevOps,而后根据 DevOps 衍生出其他 Ops。

1.1、研发运营一体化(DevOps)

中国信息通信研究院每年会进行 DevOps 线上调查,根据调查报告,我们发现目前 DevOps 已经进入大规模全面应用阶段

数字化转型的火爆,究竟企业如何落地数字化转型?这需要非常有利的抓手。通过研究发现,DevOps 和企业数字化转型实质是非常匹配的,主要有三方面。

  • 、企业效率提升,DevOps 讲求协作、自动化、持续优化等融合能力。
  • 、客户体验升级,DevOps 讲求小步快跑,不断提升客户体验升级,不断挖掘客户需求和痛点。
  • 、企业业务创新,DevOps 相当于一种组织级赋能,DevOps 为组织级提供工具平台、配置、基础设施等,并希望将这种能力赋能给企业,为企业创新发展提供非常好的土壤。

根据我们研究发现,目前国内已有接近一半企业向大规模全面阶段发展,今年将继续发布研究报告,诚邀广大企业参与。

上图是《研发运营一体化(DevOps)能力成熟度模型》标准框架,目前标准已从8个部分扩展到11个部分。国际上也立项了首个 DevOps 国际标准,由我牵头并制定完成。

根据我们评估数据显示,截至2022年12月已有65家超过216个项目参与了 DevOps 评估,证明了我们在落地实践 DevOps 路线是正确的。

1.2、研发效能度量

另外需要关注的重点是研发效能度量。在《研发运营一体化(DevOps) 能力成熟度模型》持续交付里有一个模块叫度量与反馈,在度量与反馈环节里也有度量的涉入。

我们做 DevOps 以后效果怎么样,研发效能度量成为了重点。很多企业也有工程效能部门,所以研发效能一直是企业非常关注的核心,包括头部互联网公司也在不断提211愿景、数据挖掘效能洞察等。

这里举两个案例,第一是某大型股份制银行的数字化研发大盘,给 DevOps 平台提供了非常完备的数据采集度量定义规范,帮助内部提供精细化研发效能管理。

第二是某头部互联网公司,其研发效能度量平台给研发效能数字化建设提供非常重要的支撑。

虽然很多企业非常关注研发效能度量,但具体落地还需要实践方法论。2021年,由中国信息通信研究院牵头发起制定研发效能度量标准,这个标准分为面向企业和面向工具两部分。

第一是建模,即如何构筑研发效能度量体系,建模在业界比较认可的、可执行的。第二是面向工具能力,大家知道做体系化建设工具支撑必不可少,因此,我们在工具上提出了更多的规范要求。

2021年底完成了首批试评估工作,包括百度、平安银行、中兴通讯、建信金科、联想、中原银行、中国联通等。

1.3、BizDevOps

第三个热点是业务研发运营一体化——BizDevOps。

首先,从宏观政策层面来看,中国银保监会与人民银行发文《关于银行业保险业数字化转型的指导意见》明确提出”业技融合”;人民银行发布《金融科技规划(2022-2025)》明确提出”业务研发运营一体化(BizDevOps),将内容写到金融服务智慧再造章节,可见它的重要性和必要性。

我们想实现的核心目标是一切业务数据化,一切数据业务化。同时在落地业务研发运营一体化时一定要重视人才培养、平台、工具安全,要将这些能力融入到业务价值链里,助力企业真正实现业绩融合。

为了更好指导行业实践,由中国信通院牵头,目前将近 60 家企业积极参与到 BizDevOps 标准编写中。

其中有国有六大行、上交所、国家电网、中国人民银行清算总中心、顶级头部互联网公司,何勉老师对 BizDevOps 成熟度模型也有很多指导,相关专家团队提供了非常有价值、建设性的意见,这个标准含金量和质量是非常高的。

标准主要分为五部分:

  • 、业务价值管理,重视业务规划、设计和实践;
  • 、应用及服务开发,这方面我们更重视对架构的规划的、开发可视化和安全可信的发布;
  • 、业务运营,如何做好运营治理、运营数据驱动及运营周期管理;
  • 、人员和文化转型方面,我们知道业务研发运营一体化非常重要的是人员转型,如果只是IT人员转型还不够,业务人员也要根据步伐进行转型。人员及文化转型里面也有一些模块,比如组织变革与文化、人才供给、培养与技能实践及工作模式;
  • 、系统和工具,贯穿上面所有支撑的业务价值、业务开发及业务运营的所有能力,比如价值管理、业务流程管理、协同能力、低代码平台等,都嵌入在工具链里面才能实现真正的业技融合。

1.4、智能化运维(AIOps)

智能化运维(AIOps)能力成熟度模型从2018年开始立项,怎样实践智能运维,我们也做了相关探讨,目前立项了两部分标准

智能运维围绕质量、成本、效率、安全等众多场景,建立运维能力的相关要求。

第一是建立应对场景,将场景进行了深度梳理。

第二是建立系统工具标准,在支撑智能运维能力过程中系统和工具应该具备什么核心能力,在系统和工具标准里面都有所输出。这部分涵盖了国内所有做智能运维的研究机构和厂商,基本均在这个标准中有所输出。

1.5、IT资源财务运营(FinOps)

FinOps 是将财务、业务跟 IT 融合在一起的变革。这个标准不是只为了帮大家省钱,而是为了解决 CFO 的困惑。每年在申请预算时都有诸多痛点,解释不清楚钱到底用在哪儿,FinOps 就是成本优化非常好的支撑。

FinOps 从组织变革、团队协作、能力建设三方面指导企业开展IT资源精细化管理,让资金用起来更加合理化。

目前有两部分标准,第一部分是云资源运营,云资源相当于企业内部非常重要的资源,包括预算额度、成本分摊、成本归集都在标准中有所规范。

第二个部分是IT基础设施,即 IT基础设施资源能力的成熟度模型,这方面也积极邀请广大企业进行共建共研。

目前,FinOps 取得了诸多成果。2020年,在工信部财务司指导下成立了 FinOps 产业推进方阵,希望与大家一起共建共研,共同推动 FinOps 的发展。

另外,我们与 FinOps 发起方 Linux Foundation 签订了战略合作协议。在 2021年9月持续举办了 FinOps 主题沙龙,截至去年超过 50 家企业在方阵中。

二、SRE 体系介绍

如何指导企业在构建新时代下稳定、高效、精细、安全大运维体系?大运维体系分为“554”:

  • 五大维度:需求、设计、开发、测试、运维
  • 基础保障:运维目标、组织、团队、服务和工具
  • 四大实践:稳定性、高效能、精细化、安全运维

不管是互联网企业还是金融电信行业,随着信息系统规模提升和迭代次数的不断增加,系统稳定性面临诸多风险。有些风险是因为用户需求倒逼,有些是政策要求推动的。

2.1、信息系统稳定性面临的新环境和新挑战

在新环境下,我们认为系统稳定性实现主要有两大难点

第一、技术难点,系统规模增大以后,底层资源节点会增多,每个节点出现的故障概率增大,网络通信过程占比逐渐变大,技术实现非常困难。

第二、管理难点,环节变多了以后,多个部门之间的沟通成本非常大,而且业界也缺少稳定性相关指导,导致我们无据可依。

从国家层面来看,中华人民共和国国务院令(第745号),里面明确指出要保障关键信息基础设施安全稳定运行。安全稳定不管在国家层面还是企业层面都非常重视。

中国信通院牵头三大运营商运行了行程卡,疫情期间大家都有使用。行程卡从 2022年2月上线一直到2022年底下线,累计查询量450亿次,单日查询量维持3亿次以上。行程卡会根据各地疫情散点爆发的情况进行波动,在全国疫情非常重要和关键的节点起到非常大的作用。

2.2、研发运营系统稳定性工程(SRE)

结合前面的重点,信通院重新更新了研发运营稳定性工程(SRE)。按阶段分两部分,第一研发过程稳定性保障,第二技术运营稳定性保障,在稳定性保障方面有很多实践,包括《混沌工程实践指南》《信息保障稳定性能力建设指南(1,0)》,里面都对方法论有一些持续性输出。

研发过程稳定性保障注重三大环节,

  • 一、设计与开发:稳定性准入、架构设计评审能力
  • 二、质量保障:测试管理、系统质量
  • 三、部署发布对于部署策略设计、部署过程管理、部署质量管理、变更管理都有很多要求。

技术运营稳定性保障,包括故障预防、故障观测、故障处置、优化改进,

  • 故障预防有健康巡检、应急预案准备、性能容量检测、混沌工程,把故障植入看系统稳定性怎么样,
  • 故障观测有运维数据治理、运维数据观测告警管控,
  • 故障处置:对于故障过程如何发现、如何响应、如何定位、如何止损,
  • 优化改进方面对于故障复盘分析都有相应的要求。

研发运营系统稳定性核心目标实现可用性、可拓展性、可靠性、可维护性。邀请大家进入到里面与我们一起共建共研。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-05-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DevOps时代 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、XOps 体系介绍
    • 1.1、研发运营一体化(DevOps)
      • 1.2、研发效能度量
        • 1.3、BizDevOps
          • 1.4、智能化运维(AIOps)
            • 1.5、IT资源财务运营(FinOps)
            • 二、SRE 体系介绍
              • 2.1、信息系统稳定性面临的新环境和新挑战
                • 2.2、研发运营系统稳定性工程(SRE)
                相关产品与服务
                CODING DevOps
                CODING DevOps 一站式研发管理平台,包括代码托管、项目管理、测试管理、持续集成、制品库等多款产品和服务,涵盖软件开发从构想到交付的一切所需,使研发团队在云端高效协同,实践敏捷开发与 DevOps,提升软件交付质量与速度。
                领券
                问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档