前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >混沌工程工具:混沌工程实施过程及持久价值(7)

混沌工程工具:混沌工程实施过程及持久价值(7)

原创
作者头像
AIOPS
修改于 2023-10-10 07:12:16
修改于 2023-10-10 07:12:16
7971
举报
文章被收录于专栏:高可用高可用

背景

通过前面对混沌工程工具的详细分析,我们已经对如何进行故障注入有了更明晰的了解。然而,本文将详细介绍混沌工程的具体实施过程,以便提供全面的指导。

混沌工程工具系列传送门:

1、 混沌工程工具:Chaos-mesh与Chaosblade技术实现与原理分析(1)

2、 混沌工程工具:chaos-mesh注入项原理分析(2)

3、 混沌工程工具:chaosblade在服务器上注入项原理分析(3)

4、 混沌工程工具:业务代码注入原理(4)

5、 混沌工程工具:Chaosblade Java业务代码注入原理(5)

6、 混沌工程工具:混沌工程实施过程及持久价值(7)

7、 混沌工程工具:混沌工程定位及原则梳理(8)

8、 混沌工程工具:一个混沌工程设计的例子(9)

混沌工程实施过程

实施过程

一次完整的实验包括实施前准备、实施中管控和实施后复盘提炼,下面是我认为的要点及阶段的目标

阶段

要点

目标

实施前

1、 完成实验点高可用建设 2、 完成实验方案中实验准备工作:稳态可观测性、演练方法、爆炸半径、快速结束实验能力及假说不成立的处理 3、 依据爆炸半径原则,选择合适时间点进行实验 4、 人员协调,落实演练主持人员、执行人员、记录人员

完成实施实验的所有前置条件

实施中

1、 记录好开始时间、稳态指标、结束时间等 2、 应急处理突破稳态的实验,如处理不合格则终止实验 3、 记录好假说失败时的现场日志 4、 记录好对有限条件的冲击,比如实验是否对金融监管造成冲击

可详细还原实验过程

实施后

1、 提炼过程中发现的系统问题,实验结果,输出商业价值 2、 共享混沌工程方案设计、实施记录、结果信息 3、 根据混沌工程原则,进行混沌工程改进

形成可持续的混沌工程文化

实施后详细动作

商业价值评估

我们做系统建设,最终的目标就是取得商业上的成功。那推广混沌的最好方式就是,把混沌的收益和商业价值挂钩。如何评估可以考虑下面信息。

分类

子类

评估内容

稳定性分析

定性分析

比较注入故障时的系统指标和稳态指标的差异

定量分析

➢ 系统性能指标:P=E/E0,E 为实验组性能指标,E0为稳态时性能指标 ➢ 系统恢复率:R = ER/E,ER为移除扰动后系统性能指标,E为 系统稳态性能指标

系统缺陷

各维度原因

➢ 对系统弱点进行分析 ➢ 对故障应对过程中的不足进行分析 ➢ 对系统的故障承受能力分析 ➢ 对监控告警的有效性进行分析 ➢ 对模块间的依赖关系进行分析

商业价值

参与人反应

参与前后调研问卷对比

执行实验结果

从稳定性分析/系统缺陷体现,最好结合已有故障的影响,针对实验遇到问题作出预估的业务侧影响。

缺陷改善

➢ 已发现问题都修复 ➢ 新开发程序都没有发现已知问题

业务结果

长期观察系统运行情况,建立混沌工程与故障时长、频次、恢复速度的关联关系主要依据是故障真的发生时,系统因为做过实验而逃过一劫

开放信息

参与混沌实验活动的仅是部分部门、部分人员,如何让混沌的实施过程,完整的在组织内展示,就需要把实验过程中的信息,做开放公示。具体就是以Wiki的形式呈现系统的实验设计方案、方案执行细节、监控图示、执行过程以及执行结果等相关资料,旨在鼓励更多人积极参与,共享知识。

输出报告

我们详细记录实验的全过程,包括商业价值的收获、开放实验的进展情况以及未来改进方向,并以报告的形式向大家提供详尽的信息、也便于在公司内做价值呈现,获得更广泛的支持。最终提升混沌工程的覆盖度、影响力

混沌工程的持久价值

确保灾备计划的有效性性。通过持续的实验设计、执行以及后续总结等方面的建设,以及根据演练结果不断改进演练方案、做好系统建设,我们能够确保客户可以自主并持续地进行实验。这有助于确保容灾计划的长期有效性。

我正在参与2023腾讯技术创作特训营第二期有奖征文,瓜分万元奖池和键盘手表

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
1 条评论
热度
最新
tql
tql
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
混沌工程权威指南(中)
Gremlin是领先的托管混沌工程平台,提供SaaS服务,专注提升系统可靠性。它支持资源耗尽、网络延迟、状态攻击等多种故障注入,适用于云、容器和混合环境。GameDay功能便于团队协作演练,集成Datadog、Prometheus等观测工具,确保实验安全。其仪表板提供可靠性评分,量化系统韧性。通过精细控制“爆炸半径”,Gremlin降低实验风险,广泛用于金融、零售行业。虽需商业许可,30天免费试用无需信用卡,适合快速上手。Python SDK(Alpha阶段)增强定制化能力,是企业级混沌工程的首选工具。
FunTester
2025/05/19
950
混沌工程权威指南(中)
混沌工程工具:混沌工程定位及原则梳理(8)
很多人都会把混沌工程和测试区分不清楚,我从执行时机、执行后是否对系统产生新认知,做了一张图如下。
AIOPS
2023/10/07
7860
混沌工程工具:一个混沌工程设计的例子(9)
前面几篇文章,从两个开源程序chaos-mesh、chaosblade入手,分析混沌工程的原理;然后讲混沌工程实施的完整过程及混沌原则梳理,本文主要是记录之前的知识,用一个例子说明混沌工程是怎么设计的。
AIOPS
2023/10/08
8460
混沌工程和故障演练
混沌工程是近年来新出现的概念,主要用于稳定性方面的研究,英文全称为chaos engineering,由网飞公司最先提出。因为最开始混沌工程称作chaos monkey,形容就像有一只猴子在系统中捣乱一样,以至于到现在每次提到混沌工程都会用一只捣乱的猴子来比喻。
FunTester
2023/08/04
7540
混沌工程和故障演练
去哪儿网基于ChaosBlade的混沌工程实践
微服务架构已经在去哪儿网(Qunar)实施多年,微服务应用数量达到数千之多,随着服务之间的调用链路越来越复杂,故障频频发生,给公司带来巨大的经济损失,稳定性建设工作就成为了一项重要的工作。从 2010 年 Netflix 提出通过 Chaos Engineering 的方式提升系统稳定性之后,到今天 Chaos Engineering 已经被证明是一种有效的发现系统弱点,建立对系统抵御生产环境中失控条件的能力以及信心的有效手段。从 2019 年底去哪儿网也结合自身的技术体系开始进行混沌工程相关的探索,下面就来介绍下我们的实践经验。
heidsoft
2021/08/26
1.2K0
去哪儿网基于ChaosBlade的混沌工程实践
混沌工程(Chaos Engineering) 到底是什么?
2014年,Netflix团队创建了一种新的角色,叫作混沌工程师(Chaos Enigneer),并开始向工程社区推广。项目目标、业务场景、人员结构、实施方式的不同导致了对于稳定状态行为的定义不太标准。
一个会写诗的程序员
2020/04/30
20.6K0
混沌工程(Chaos Engineering) 到底是什么?
混沌工程工具:chaos-mesh在服务器上注入项原理分析(2)
上篇文章,总体上分析了chaosmesh和chaosblade两个工具的对比和原理,本文继续分析chaosmesh的原理;几个常用的项dnsChaos、stressChaos、NetworkChaos和IOChaos注入项的原理。
AIOPS
2023/10/02
1.2K0
混沌工程工具:Chaos-mesh与Chaosblade技术实现与原理分析(1)
随着云计算的广泛普及和云原生实践,越来越多的公司开始将目光投向云上的稳定性治理。混沌工程的概念最早来自Netflix,并且在NF取得成功,证明了混沌工程在云计算中扮演关键角色,通过有计划地引入故障和不稳定性,确保系统的健壮性和可靠性,使组织能够充分利用云计算的优势,并实现高质量的应用交付。
AIOPS
2023/10/01
4.2K0
ChaosBlade:从零开始的混沌工程(一)
随着微服务的盛行以及容器技术的普及,借助 Kubernetes 的容器编排能力,部署一套分布式系统的难度也越来越低。但随之而来的是越来越复杂的系统,以及越来越难的系统可靠性测试,有时仅仅是一个接口的故障,就可能导致整个系统的雪崩。在雪崩中,找到那个最初故障的接口也十分困难,因为到处都在报错。
郭旭东
2020/12/30
1.3K0
ChaosBlade:从零开始的混沌工程(一)
如何让混沌工程实验降本增效
“混沌工程实验性价比太低了。测试、研发和运维三个部门都投入了大量人力物力,在准生产环境做了不少故障注入实验。但发现的问题还是比较少。”在一次混沌工程实践回顾会上,一位测试人员如是说。
程序员吾真本
2021/12/16
3840
【云顾问-混沌】混沌工程GameDay
GameDay在混沌工程中可以理解为一次有计划的演练实践活动,可以持续一天,也可以持续几个小时,也可以持续几天,持续时间根据具体的目标而定。GameDay活动旨在对系统如何应对现实世界中的混乱状况进行演习。通常来讲,实施混沌GameDay的团队需要探索下面几个问题:
冷淡然
2023/11/01
6390
【云顾问-混沌】混沌工程GameDay
Chaos Mesh® 在腾讯——腾讯互娱混沌工程实践
本篇文章整理自腾讯互娱高级工程师吴召军在 PingCAP Infra Meetup 上的演讲实录,欢迎点击【阅读原文】查看视频回放,后台回复 “135” 即可获取本期 PPT 链接。
PingCAP
2021/05/19
1.5K0
混沌工程权威指南(上)
混沌工程是一门通过主动注入故障来测试分布式系统弹性的学科,旨在研究系统行为并优化设计,避免用户在使用软件时遭遇意外中断。它与站点可靠性工程(SRE)结合,后者量化“不可能事件”的影响,为系统可靠性提供依据。以下从混沌工程的演变、实施步骤、优势及实践原则等方面,探讨这门技术的核心价值。
FunTester
2025/05/17
910
混沌工程权威指南(上)
微信支付混沌工程实践
本文从业务角度介绍微信支付实践混沌工程落地的思考,通过多分区的架构来控制最小爆炸半径,在高价值的基础组件和微信支付核心业务场景上探索,并基于高可用原则、历史故障分析推导故障原子的开发,是一篇全面的混沌工程建设实践。
腾讯云开发者
2024/03/19
5240
微信支付混沌工程实践
混沌工程稳态假说
混沌工程旨在帮助建立对系统在面对各种复杂的故障状况下的信心,帮助发现系统薄弱点。一种操作方法是直接引入各种混乱状况,比如破坏网络、引入延迟等,然后看看哪里会崩溃。然而混沌工程是一种科学的稳定性建设方案,目的是发现系统薄弱点,而非简单的测试工程。
冷淡然
2023/11/01
3510
混沌工程稳态假说
混沌工程:通过试错的方法来提升稳定性
2008 年 Netflix 在整体微服务化和数据中心迁移至 AWS 云的背景下,开始了在生产环境进行系统弹性的测试。最早为大家熟知的是 Chaos Monkey,一个在生产环境中随机选择并关闭服务节点的工具。它的名字来源于其工作的方式:如同一只野生、武装的猴子,释放到在数据中心,来造成严重的破坏。
butterfly100
2021/07/16
1.2K0
混沌工程:通过试错的方法来提升稳定性
混沌工程工具:chaosblade在服务器上注入项原理分析(3)
前面文章,分析了chaos-mesh在服务器上注入项的原理,本文继续分析chaosblade在服务器上注入项原理,实际他们的思路还是比较一致的,只是实现的路径不太一样。
AIOPS
2023/10/03
1.2K1
ChaosBlade:混沌工程
ChaosBlade 项目覆盖基础资源、应用服务、容器服务等混沌实验场景。在实验工具设计之初就考虑了场景模型统一,便于场景扩展和沉淀,也为平台托管实验工具实现统一场景调用提供模型依据。ChaosBlade 项目中所有的实验场景均遵循此实验模型设计,下面通过实验模型的推导、介绍、意义和具体的应用来详细介绍此模型。
heidsoft
2021/08/26
1.2K0
ChaosBlade:混沌工程
混沌工程在工商银行的探索实践 | Q推荐
混沌工程是一种提高技术架构弹性能力的复杂技术手段,旨在将故障扼杀在襁褓之中,也就是在故障造成中断之前将它们识别出来。通过主动制造故障,测试系统在各种压力下的行为,识别并修复故障问题,避免造成严重后果。
深度学习与Python
2021/06/08
1K0
混沌工程在工商银行的探索实践 | Q推荐
混沌工程介绍与实践
在分布式系统架构下,服务间的依赖日益复杂,很难评估单个服务故障对整个系统的影响,并且请求链路长,监控告警的不完善导致发现问题、定位问题难度增大,同时业务和技术迭代快,如何持续保障系统的稳定性和高可用性受到很大的挑战。我们知道发生故障的那一刻不是由你来选择的,而是那一刻来选择你,你能做的就是为之做好准备。所以构建稳定性系统很重要的一环是混沌工程,在可控范围或环境下,通过故障注入,来持续提升系统的稳定性和高可用能力。
CNCF
2021/05/27
1.7K0
混沌工程介绍与实践
相关推荐
混沌工程权威指南(中)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档