Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >重磅!腾讯云参与编写《2022分布式系统稳定性建设指南》发布

重磅!腾讯云参与编写《2022分布式系统稳定性建设指南》发布

原创
作者头像
怡然自得
修改于 2022-06-21 07:40:57
修改于 2022-06-21 07:40:57
1.4K0
举报

腾讯云持续专注于云产品的稳定运营,以混沌工程为抓手不断提升云产品服务质量。通过对于云产品分布式节点做定时随机故障注入,从多方面验证与确保系统高可用。将内部混沌工程经验沉淀,提炼出一款云产品:腾讯云混沌演练平台。主旨是为云上的用户提供安全、有效的混沌工程产品,通过自定义编排进行复杂故障场景的模拟。腾讯云在混沌实施保障分布式系统稳定性的实践基础上提炼经验分享,参与由中国信息通信研究院牵头编写的《分布式系统稳定性建设指南》已于日前发布

随着分布式架构成为主流的系统架构设计方案,业务系统的迭代速度越来越快,后端系统架构越来越复杂,单一节点问题可能被无限放大,大规模分布式系统的稳定性保障能力越来越成为业界关注的重点。与此同时,伴随着技术角色分工越来越细、技术专业化程度越来越深,分布式系统的架构特性为其稳定性建设中的架构设计、组织设计等也带来了新的挑战。很多企业缺乏解决分布式架构下的系统稳定性、服务高可用建设相关问题的经验,成为一大痛点。

如何全局、精准、高效地进行分布式系统的稳定性建设工作?为此,中国信息通信研究院在以“云赋新生,精益求精”为主题的首届“精益软件工程大会”上,发布了《分布式系统稳定性建设指南》蓝皮书(以下简称《指南》)。《指南》由中国信通院云计算大数据研究所牵头,联合来自混沌工程实验室的36家企业共同完成(完整名单请参考文末附件)。作为一份总体性的稳定性建设指南,《指南》在业界首次从全局角度出发对分布式系统稳定性建设工作进行拆解和分析,务实、有效地输出有价值的观点,能够比较全面地帮助中国企业在分布式系统建设、配套组织、运营机制设计层面进行指导落地,实现国内软件发展向更高目标迈进。

分布式系统稳定性建设指南
分布式系统稳定性建设指南

指南核心观点

                                                       “降发生”和“降影响”

                                                              稳定性建设以结果为导向

在技术变更、业务挑战加剧以及良好政策引导的背景下,系统稳定性能力建设成为企业等机构组织提升业务连续性能力的核心关注点。《指南》在明确提出分布式系统稳定性建设总体视图的同时,给出了通过评价指标实现量化的稳定性建设目标——“降发生”和“降影响”。

分布式系统稳定性建设总体视图(来源:中国信息通信研究院)
分布式系统稳定性建设总体视图(来源:中国信息通信研究院)

系统稳定性是对产品能力的基本要求,保障产品的稳定性,就需要开展稳定性能力建设。稳定性能力建设是一个系统化工程,从硬件到软件,从人员到机制,内容涉及组织内多部门协作、稳定性流程规范制定、体系化技术实现、稳定性文化建设等一系列工作集合。

在贯穿软件生命周期全过程的稳定性工作中,从故障的视角来看,稳定性建设的最终目标是“降发生”和“降影响”。

“降发生”,即降低故障发生的概率。支持应用建设“三高能力”,即高可用、高性能、高质量,从方案设计阶段即采用面向失败的理念来设计系统架构,并通过一系列技术手段验证系统“三高能力”是否符合预期。

“降影响”,即降低故障发生后的影响范围。要实现该目标,系统需要具备早感知、快定位、急止损、优改进四大能力。其中,由于故障感知最基础和重要的原则就是完善监控告警,因此可以通过可视化的监控告警能力,感知系统的异常变化,从而尽早发现甚至预测系统故障,实现早感知。

为了实现量化评价,《指南》根据企业规模和发展阶段从三个维度提出稳定性评价指标,分别是业务可用程度、用户影响程度以及资金损失程度。

                                                      “从业务中来,到业务中去”

                                                               建设模式和路径凸显实用性

“从业务来,到业务去”无疑是稳定性保障设计的关键原则。否则,再先进的技术也可能只是空中楼阁,脱离实际业务需求的技术往往于业务产生不了最大实用性价值。只有在服务业务保障业务持续可用过程中沉淀下来的技术才是最有价值的技术。正因为如此,《指南》从软件生命周期、运行周期逐步分解稳定性保障的要点及相关建设思路,供从业者根据自身实际情况选择、规划。

在稳定性建设目标的指导下,《指南》提出系统稳定性建设思路的四大建设模式:良好的系统架构和实现、完备的容量规划设计、优秀的运维方案设计以及规范的安全设计。《指南》给出了会影响稳定性的架构设计要点,在提升核心业务稳定性的同时带来成本节约的容量设计要素,满足持续迭代发布以及线上运维诉求的变更可控、系统可观、演练到位的运维方案设计要点等。

分布式系统稳定性建设路径的确立,需要在完成稳定性建设需求分析、稳定性建设实现分析的基础上,确立一系列具体的建设活动来进行推进和落地,从全局视角利用故障预防工具、故障止损工具等稳定性建设工具来构建各项关键能力。

值得注意的是,稳定性保障能力建设是项体系化工程,庞大而复杂,非一朝一夕可以完成。故障总会发生,“没有任何一项技术或者平台能够绝对规避风险”,因此需要通过不断补全完善体系中需要的能力来最大限度降低故障发生概率或者提升故障应对速度。对于稳定性保障从业者而言,《指南》建议结合业务发展不同阶段所面临的关键风险形势进行规划,拟定合适的建设优先级及实施路径。

                                                       “把脉特色行业”

                                                            稳定性建设实现定制化

不同行业, 在推进分布式稳定性建设过程中会呈现出不同的特点。《指南》分析了互联网业、银行业、证券业、通信业、云服务业、零售业、能源业七大行业的不同特点,从其面临的稳定性挑战出发,一一给出了定制化的解决方法,从而为不同行业的分布式系统稳定性能力建设提供有价值的参考。

以互联网业为例,其受益于云原生DevOpsKubernetes、微服务、服务网格等技术红利,实现了运营效率和用户价值的交付效率的双提升。但是,复杂的架构也为系统稳定性保障带来了新的挑战:微服务间调用关系错综复杂,给服务性能瓶颈分析、快速定位影响评估范围和根因分析等方面带来了诸多挑战;在复杂的分布式系统中,不仅无法阻止故障的发生,而且由于分布式系统日益庞大,也很难评估单个故障对整个系统的影响;此外,容量评估不准确也对稳定性保障有着较大影响。

如何针对互联网业的痛点打造定制化系统稳定性解决方案?《指南》在架构设计方案中提出:所有的架构都是不完美的,因此在做业务架构设计时都必须要考虑服务稳定性保障,如负载均衡、多点容灾、集群化服务、数据多活等能力,建设可观测性能力、混沌工程平台、全链路压测能力并建立故障应急机制。

                                                           多措并举

                                                          推动稳定性建设迈入新

当前,分布式系统稳定性建设迎来快速发展的窗口期,需要在人才、生态、标准多个领域发力,采取多重措施来提升总体发展水平,推动。

由于尚处于起步阶段,因此分布式系统稳定性建设需要在人才、生态和标准三大领域及早布局。国内IT系统稳定性保障服务领域蕴藏巨大商机。因此需要重视行业标准研究、建设工作,围绕系统稳定性保障相关技术完善标准体系。

分布式系统稳定性建设将开辟全新的赛道,市场参与者顺应时代发展需求有望大有可为。第一,稳定性建设能力发展不均,传统行业需求蓄势待发,正逐步丰富系统稳定性建设赛道的商机。第二,企业架构阻碍稳定性建设,组织观念正逐步进化,建设稳定性保障组织的重要性凸显。第三,过度依赖开源致“懒”,倡导创新采纳开源技术,推进开源协作模式在行业中的应用,提高对开源技术的应用水平和自主可控能力。

附件

编写单位列表:

  • 中国信息通信研究院云计算与大数据研究所
  • 深圳市腾讯计算机系统有限公司
  • 阿里云计算有限公司
  • 华为云计算技术有限公司
  • 北京百度网讯科技有限公司
  • 北京银行
  • 杭州笨马网络技术有限公司
  • 思特沃克软件技术(北京)有限公司
  • 中国农业银行
  • 南京争锋信息科技有限公司
  • 中国科学院计算技术研究所
  • 中信银行
  • 华泰证券股份有限公司
  • 中国工商银行
  • 上海浦东发展银行
  • 蚂蚁科技集团股份有限公司
  • 中移(杭州)信息技术有限公司
  • 建信金融科技有限责任公司
  • 北京火山引擎科技有限公司
  • 浩鲸云计算科技股份有限公司
  • 中电金信软件有限公司
  • 四川省农村信用社联合社
  • 北京同创永益科技发展有限公司
  • 中电云数智科技有限公司
  • 安信证券股份有限公司
  • 北京永辉科技有限公司
  • 京东科技信息技术有限公司
  • 南方电网数字电网研究院有限公司
  • 阳光保险集团股份有限公司
  • 上海钧正网络科技有限公司
  • 北京云杉世纪网络科技有限公司
  • 深圳市金证科技股份有限公司
  • 中国银行
  • 中国移动信息技术中心
  • 招商银行
  • 中移(苏州)软件技术有限公司
  • 天翼云科技有限公司

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
作者已关闭评论
暂无评论
推荐阅读
编辑精选文章
换一批
官方解读丨《分布式系统稳定性建设指南》蓝皮书
作者 | 中国信息通信研究院 随着分布式架构成为主流的系统架构设计方案,业务系统的迭代速度越来越快,后端系统架构越来越复杂,单一节点问题可能被无限放大,大规模分布式系统的稳定性保障能力越来越成为业界关注的重点。与此同时,伴随着技术角色分工越来越细、技术专业化程度越来越深,分布式系统的架构特性为其稳定性建设中的架构设计、组织设计等也带来了新的挑战。很多企业缺乏解决分布式架构下的系统稳定性、服务高可用建设相关问题的经验。 如何全局、精准、高效地进行分布式系统的稳定性建设工作?为此,中国信息通信研究院在以“云赋新
深度学习与Python
2023/03/29
1.2K0
官方解读丨《分布式系统稳定性建设指南》蓝皮书
信通院牵头数列科技参与主编的《信息系统稳定性保障能力建设指南》正式发布
中国信息通信研究院分布式系统稳定性实验室正式发布了《信息系统稳定性保障能力建设指南》(下称《指南》)。数列科技应邀作为主要编写单位,深度参与了《指南》的编写制定;同时,数列提供稳定性保障服务的国家电网、浙江大学等,也被征集收录至系统稳定性最佳实践案例中。
数列科技
2022/04/02
6070
稳定性生产总结
在降发生中的措施是做到三点:系统高可用、 高性能、 高质量,三高问题确实是一个很热的话题,里面涉及很多点。
纵情向前的强仔
2024/04/15
2340
“稳保计划”——首届云系统稳定性大会在京召开
4月26日,由中国信息通信研究院(以下简称“中国信通院”)主办的“稳保计划”首届云系统稳定性大会在京召开。
科技云报道
2022/04/29
4200
“稳保计划”——首届云系统稳定性大会在京召开
换个角度聊系统稳定性建设
对于任何系统来说,系统稳定性都是最基本的一个要求,只不过每个项目都有其发展周期,每个周期都有其主要的发展目标,比如业务爆发初期我们要求业务快速迭代,业务发展中期我们可能更多的是要求精细化运营、精细化治理,业务发展后期我们主要围绕于降本增效做事情,但是系统稳定性基本是贯穿整个项目发展周期。而且我们未来是要做SaaS产品的,稳定性更是SaaS的基石。
春哥大魔王
2020/12/08
1.5K0
换个角度聊系统稳定性建设
【分布式系统稳定性设计入门】如果不想总是半夜爬起来抢修生产事故……《发布!》第2版解读 v0.2
真英雄最终都不会在半夜里爬起来抢修生产事故,因为他们会聪明地使用分布式系统稳定性设计,以及混沌工程,避免将自己陷入如此凄惨的境地。
程序员吾真本
2020/05/27
4760
中国信通院云大所牛晓玲:XOps + SRE,如何赋能企业迈进高质量发展新格局?
牛晓玲,中国信通院云大所审计与治理部副主任,DevOps 标准工作组组长,DevOps国际标准编辑人。
DevOps时代
2023/08/22
1.7K0
中国信通院云大所牛晓玲:XOps + SRE,如何赋能企业迈进高质量发展新格局?
首届云系统稳定性大会在京召开,腾讯云混沌工程应用案例成功入选中国信通院“2021年混沌工程先锋实践者”优秀案例
4月26日,由中国信息通信研究院(以下简称“中国信通院”)主办的“稳保计划”首届云系统稳定性大会在京召开。会上,中国信通院公布了“稳保计划”云系统稳定性领域的最新评估结果、混沌工程先锋实践者优秀案例评选结果,展示了稳定性保障计划的工作成果,公开了首批“稳定性守护者”成员,并全方位解读了云稳定性保障标准体系。
怡然自得
2022/04/29
6470
首届云系统稳定性大会在京召开,腾讯云混沌工程应用案例成功入选中国信通院“2021年混沌工程先锋实践者”优秀案例
「石油化工行业」数字化转型如何赋能生产管控?-上篇
近来,整个科技行业、互联网界都在流行数字化转型。那么到底什么是数字化转型?为什么要做数字化转型?数字化转型能带来哪些收益以及如何进行数字化转型........
谐云
2022/04/18
6930
【深度好文】如何基于谷歌SRE理论,建设企业IT应用系统稳定性能力?
在当今数字化转型步伐不断加快的时代,IT应用系统的稳定运行成为了企业的业务正常运转的重要基础,因此,运维管理体系的构建也从围绕着数据中心转向围绕着应用系统方向,首个专门面向应用运维的理论体系——SRE,由Google发布后,受到了越来越多的企业的青睐,很多国内企业已经纷纷效仿Google建立SRE团队,旨在为各个业务应用系统提供更好的稳定性保障能力,为业务保驾护航。
嘉为蓝鲸
2021/09/06
1.9K0
【深度好文】如何基于谷歌SRE理论,建设企业IT应用系统稳定性能力?
《2023中国数据智能产业图谱2.0版》重磅发布
本次“数据猿2023年度三大媒体策划活动——《2023中国数据智能产业图谱2.0版》”的发布,是数据猿在2022年1.0版本的基础上,迭代升级的2023开年的第一个版本。本年度下一次版本迭代将于2023年12月底发布2023年3.0版,敬请期待,欢迎报名。
数据猿
2023/11/14
5580
《2023中国数据智能产业图谱2.0版》重磅发布
被动防御→积极防御,系统稳定性保障思路启发
随着数据化和信息化浪潮的深入,系统的架构在不断地演变,实现了从“单线程”到“多线程、多组件”再到“分布式、微服务”的一个跨越。目前国内外中大型企业基本都采用的是分布式系统架构,复杂程度高。​机器是异构的,不同的机器厂商,会出现配置不同、运算、存储性能不同、网络延迟、带宽不同的情况。业务系统是分布式的,中间件也是分布式,网络也会有各种各样的节点,我们没办法去保证每一个节点它都是绝对可用的。这里面的任何一环出现问题,都可能引发系统故障。
数列科技
2022/03/18
8020
混沌工程在云原生中间件稳定性治理中的实践分享
导语 由中国信息通信研究院举办的首届“精益软件工程大会”已于今日6月16日开幕。 关于精益软件工程大会 云赋新生,精益求精 随着云计算的蓬勃发展以及数字化转型的推进,各行业头部企业都已经开始云上软件开发实践,并形成了良好的带头和示范作用。云计算提升了软件开发运维效率,云测试打破了效能瓶颈进而提升软件质量,以混沌工程为代表的技术理念保障了云上系统稳定性。新一代软件工程将从开发效能升级、软件质量提升、系统稳定性保障三个维度全面革新。 在此背景下,中国信息通信研究院将举办首届“精益软件工程大会”。大会以“云赋
腾讯云中间件团队
2022/06/17
8690
混沌工程在云原生中间件稳定性治理中的实践分享
优也Thingswise iDOS入选上海市服务业发展引导资金第一批拟支持项目|腾讯SaaS加速器·学员动态
来源|腾讯SaaS加速器二期项目-优也 ---- 2021年6月18日,上海发改委上海产业政策服务中心公布上海市服务业发展引导资金第一批拟支持项目,其中包括优也(腾讯SaaS加速器二期成员)《面向流程工业开发智能应用的Thingswise工业互联网平台》。目前第一批拟支持项目已进入公示阶段。 为推动本市现代服务业快速发展,进一步巩固提升服务经济为主的产业结构,根据《上海市人民政府关于印发上海市服务业发展引导资金使用和管理办法的通知》(沪府规〔2018〕5号)精神,市发展改革委、市经济信息化委、市商务
腾讯SaaS加速器
2021/06/23
1.5K0
思考:如何保证服务稳定性?
最近一直在忙618大促的全链路压测&稳定性保障相关工作,结果618还未开始,生产环境就出了几次生产故障,且大多都是和系统稳定性、性能相关的bad case。生产全链路压测终于告一段落,抽出时间将个人收集的稳定性相关资料整理review了一遍,顺带从不同的维度,谈谈稳定性相关的“务虚”认知和思考。。。
老_张
2020/06/29
4.8K0
Google、顺丰、网易数帆、微盟等技术专家,为你分享稳定性保障实践 | ArchSummit
架构稳定性保障是指通过一系列的技术手段和方法,保证系统在各种异常情况下能够正常运行,不出现故障或者尽快恢复。架构稳定性保障涉及到多个方面,例如架构设计、容量评估、异常处理、监控报警、故障演练等。一些常见的架构稳定性保障方案包括: 消除单点故障,通过分布式部署、主从备份、服务注册发现等技术手段,避免单个节点或服务的故障导致整个系统不可用; 保证数据一致性,通过事务、分布式事务中间件、消息队列、对账机制等技术手段,确保分布式系统中的数据在不同节点和服务之间保持一致或最终一致; 强弱依赖梳理和降级,通过分析服务之
深度学习与Python
2023/04/21
4400
Google、顺丰、网易数帆、微盟等技术专家,为你分享稳定性保障实践 | ArchSummit
分布式系统大势所趋,银行运维如何与时俱进?
之前我们分析了银行等金融机构的运维组织架构现状,讨论运维组织敏捷化转型的背景,最后解释了什么是敏捷型的运维组织以及如何打造敏捷型的运维组织。本文我们重点来关注架构实施层面:金融业分布式系统运维实践。
嘉为蓝鲸
2022/07/27
8320
分布式系统大势所趋,银行运维如何与时俱进?
喜报|CKafka荣获可信云消息队列服务稳定性先进级认证
CKafka荣获最高级认证 今天,由中国信通院和混沌工程实验室联合举办的混沌工程技术沙龙--金融行业精品专场在北京召开。本次技术沙龙上发布了金融级产品稳定性测评成果,在分布式系统稳定性评估体系的获奖名单中,腾讯云消息队列CKafka通过首批消息队列服务稳定性认证,荣获最高级别“先进级”认证,这项认证肯定了CKafka在数据安全性、系统稳定性上的产品能力和技术实力。 根据混沌测试报告显示,CKafka已通过单项故障注入测试(服务器宕机、服务发现故障、服务暂停、网络故障、CPU负载高、内存负载高)和综
腾讯云中间件团队
2021/12/08
1.4K0
重磅 | 腾讯云入选信通院“混沌工程先锋实践者"优秀案例
4月26日,由中国信息通信研究院(以下简称“中国信通院”)主办的“稳保计划”首届云系统稳定性大会在京召开。会上,中国信通院公布了“稳保计划”云系统稳定性领域的最新评估结果、混沌工程先锋实践者优秀案例评选结果,展示了稳定性保障计划的工作成果,公开了首批“稳定性守护者”成员,并全方位解读了云稳定性保障标准体系。 腾讯云混沌工程对于云计算应用案例成功入选“2021混沌工程先锋实践者” 腾讯云混沌演练平台(CFG)提供便捷、灵活、安全的混沌工程故障演习服务,除自动化故障注入外,还提供了观测指标,安全护栏等核心功能
腾讯云原生
2022/05/05
1.2K1
重磅 | 腾讯云入选信通院“混沌工程先锋实践者"优秀案例
深度解读:分布式系统韧性架构压舱石OpenChaos
Key Takeaways 1. 本文首先以现今分布式系统的复杂性和稳定性的需求引出混沌工程概念,并阐述了 OpenChaos 在传统混沌工程之上所做的优化与创新。 2. 第二部分介绍了 OpenChaos 的架构,详细讲解了它的可靠性模型和弹性模型的工作原理,并以两个实战案例展示了 OpenChaos 在实际应用场景中可以发挥的效果。 3. 最后一部分展望未来,提出了 OpenChaos 后续的发展方向。
深度学习与Python
2022/06/11
4750
深度解读:分布式系统韧性架构压舱石OpenChaos
推荐阅读
官方解读丨《分布式系统稳定性建设指南》蓝皮书
1.2K0
信通院牵头数列科技参与主编的《信息系统稳定性保障能力建设指南》正式发布
6070
稳定性生产总结
2340
“稳保计划”——首届云系统稳定性大会在京召开
4200
换个角度聊系统稳定性建设
1.5K0
【分布式系统稳定性设计入门】如果不想总是半夜爬起来抢修生产事故……《发布!》第2版解读 v0.2
4760
中国信通院云大所牛晓玲:XOps + SRE,如何赋能企业迈进高质量发展新格局?
1.7K0
首届云系统稳定性大会在京召开,腾讯云混沌工程应用案例成功入选中国信通院“2021年混沌工程先锋实践者”优秀案例
6470
「石油化工行业」数字化转型如何赋能生产管控?-上篇
6930
【深度好文】如何基于谷歌SRE理论,建设企业IT应用系统稳定性能力?
1.9K0
《2023中国数据智能产业图谱2.0版》重磅发布
5580
被动防御→积极防御,系统稳定性保障思路启发
8020
混沌工程在云原生中间件稳定性治理中的实践分享
8690
优也Thingswise iDOS入选上海市服务业发展引导资金第一批拟支持项目|腾讯SaaS加速器·学员动态
1.5K0
思考:如何保证服务稳定性?
4.8K0
Google、顺丰、网易数帆、微盟等技术专家,为你分享稳定性保障实践 | ArchSummit
4400
分布式系统大势所趋,银行运维如何与时俱进?
8320
喜报|CKafka荣获可信云消息队列服务稳定性先进级认证
1.4K0
重磅 | 腾讯云入选信通院“混沌工程先锋实践者"优秀案例
1.2K1
深度解读:分布式系统韧性架构压舱石OpenChaos
4750
相关推荐
官方解读丨《分布式系统稳定性建设指南》蓝皮书
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档