前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >SRE方法论之减少琐事

SRE方法论之减少琐事

原创
作者头像
不思jo
修改于 2023-08-29 00:53:37
修改于 2023-08-29 00:53:37
2820
举报
文章被收录于专栏:SRESRE

我们先回顾一下SRE的定义:SRE就是用软件工程的思维和方法论,通过设计、构建自动化工具完成以前由运维工程师手动操作的任务。所以,SRE要把更多的时间花费在长期项目研发上而非日常运维中的琐事。

一、什么是琐事

琐事就是运维服务中手动性的,重复性的,可以被自动化的,战术性的,没有持久价值的工作。而且,琐事与服务呈线性关系的增长。琐事具有以下特点:

手动性:例如收到磁盘目录满告警,运维人员手动清理日志。

重复性:如果某件事是第一次做,甚至第二次做,都不算琐事。琐事就是不停反复做的工作,如果你正在解决一个新出现的问题或者寻求一种新的解决办法,不算琐事。清理磁盘目录不太可能是一次性的,因此我们需要反复去处理它。

可以被自动化:如果软件程序可以和运维人员一样能够很好地完成某个任务,或者通过某种设计变更来彻底消除运维人员手动、重复的处理某项工作。

战术性的:琐事是突然出现的、应对式的工作,而非策略驱动和主动安排的。比如处理日常告警,我们可能永远无法完全消除这种类型的工作,但我们必须继续努力减少它。

没有持久价值:如果在你完成某项任务之后,服务状态没有改变,这项任务就很可能是琐事。如果这项任务会给服务带来永久性的改进,它就不是琐事。

与服务同步线性增长:如果在工作中所涉及的任务与服务的大小、流量或用户数量呈线性增长关系,那这项任务可能属于琐事。

二、为什么要减少琐事

对运维团队来说,琐事不可避免。运维不可避免地需要处理部署、升级、重启、告警处理等工作,这其中又包含很多上面所说的琐事,如果不加以控制,琐事会变得越来越多,以至于迅速占据我们每个人100%的时间!每日疲于奔命忙于救火,就无法将更多的力量投入到扩大服务规模的工程工作上去,或者是进行下一代的服务的架构设计。

图片来源于网络
图片来源于网络

三、SRE怎么减少琐事

SRE中的E是Engineering。中文可以翻译为“工程工作”,SRE就是通过工程工作来减少琐事。

工程工作通常是有创新性和创造性的,着重通过设计来解决问题,解决方案越通用越好。例如,编写自动化脚本,创造工具或框架,增加可扩展性和可靠性的服务功能,或修改基础设施代码以使其更稳健。工程工作有助于使该团队或是整个SRE组织在维持同等人员配备的情况下接手更大或者更多的服务。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
从70万字SRE神作提炼出的7千字精华文章
最近在做一些运维架构转型的工作,某些思想其实是借鉴了SRE的理念,就和DevOps一样,SRE已经不是一个新鲜的词汇了,尤其是在互联网的行业,无论从组织架构,还是工作属性,都是将SRE,融入其中,成为了软件生命周期中重要的一环。
bisal
2020/04/30
1.6K0
从70万字SRE神作提炼出的7千字精华文章
《Google SRE》读后感
这是16年国庆时的一篇读书笔记,最近线上故障频繁,重新读了下这篇读书笔记,觉得《Google SRE》非常棒,遂从简书再搬家到博客园,希望大家受益。
嘉为蓝鲸
2018/12/21
2.9K0
关于SRE方法论的一些笔记
「 傍晚时分,你坐在屋檐下,看着天慢慢地黑下去,心里寂寞而凄凉,感到自己的生命被剥夺了。当时我是个年轻人,但我害怕这样生活下去,衰老下去。在我看来,这是比死亡更可怕的事。--------王小波」
山河已无恙
2023/01/30
5020
SRE方法论之监控设计
《SRE:Google运维解密》中提出,监控系统的四个黄金指标是:延迟(Latency)、流量(Traffic)、错误(Errors)、饱和度(Saturation)。
不思jo
2023/11/17
7880
Google SRE 读书笔记 扒一扒SRE用的那些工具
最近花了一点时间阅读了《SRE Goolge运维解密》这本书,对于书的内容大家可以看看豆瓣上的介绍。总体而言,这本书是首次比较系统的披露Google内部SRE运作的一些指导思想、实践以及相关的问题,对于我们运维乃至开发人员都有一定的借鉴意义。
大江小浪
2018/07/24
1.1K0
Google SRE 读书笔记 扒一扒SRE用的那些工具
《SRE google 运维解密》读书笔记 (一)
新财年换了领导,管理风格也有一些区别。在团队内增加了一个 SRE 的职位。这一财年我将会承担一部分 SRE 的工作。
用户2060079
2022/05/25
1.6K0
谷歌SRE与运维工作的思考
运维部门要保障产品业务稳定性,开发部门要想随时随地快速上线新功能,而线上的故障往往是由新的变更导致的——不管是新发布了版本,还是修改配置,或者是改变了用户某些行为导致流量负载产生变化,传统意义上这两个部门在本质目标上是相对的。所以运维部门往往会要求开发部门对变更或发布做控制,并且规定要走一些繁琐的流程;而开发部门会想法设法绕过这些繁琐步骤,以支持新功能更快上线。
小小科
2020/07/17
1.7K0
《SRE实战手册》学习笔记之SRE落地实践
前面介绍了SRE的基础,包括SLI和SLO以及Error Budget(错误预算)。其中:
老_张
2022/04/01
2.8K0
《SRE实战手册》学习笔记之SRE落地实践
运维KPI如何考核
一直喜欢养绿萝,这种植物你只要十几天不浇水,就会枯萎。。。等到某天你又把它浇水了,你会发现,立刻就会生机盎然。。。
SRE运维实践
2019/07/08
4.2K0
DevOps和SRE还没搞清楚,平台工程又出现了,它会取代DevOps吗?
DevOps、SRE和平台工程的概念在不同时期出现,并由不同的个人和组织开发。 图片
DevOps在路上
2023/04/26
2750
DevOps和SRE还没搞清楚,平台工程又出现了,它会取代DevOps吗?
《SRE实战手册》学习笔记之认识SRE
措施:积极采用微服务、容器及其他分布式技术产品,并积极引入DevOps之类的先进理念;
老_张
2022/04/01
1.5K0
《SRE实战手册》学习笔记之认识SRE
银行运维SRE转型:挑战与应对策略
摘要:本文探讨了银行运维团队实施SRE(站点可靠性工程)转型的路径,涵盖了从组织架构、制度流程到工具的全面实施方案。银行面临着由传统单体架构向分布式架构转型的挑战,SRE通过引入自动化、可观测性和持续改进机制,帮助银行提升系统可靠性、稳定性以及业务连续性。文章还探讨了实施过程中可能面临的文化、技术和人才挑战,并提出了具体的应对策略。
嘉为蓝鲸
2025/02/08
2380
SRE-面试问答模拟-开放问答话题
SRE(Site Reliability Engineering)和可观测性是运维工作中的关键理念,这些问题涵盖了不同层次的运维实践和理念。以下是对部分问题的简要回答:
行者深蓝
2024/09/07
2470
SRE方法论之拥抱风险
系统不可能100%可靠,人都不可能100%健康,更何况我们人类创造的系统?所以,任何软件系统都不应该一味地追求 100%可靠。事实证明,可靠性超过一定值后,再提高可靠性对于一项服务来说,结果可能会更差而不是更好!极端的可靠性会带来成本的大幅提升:比如过分追求稳定性限制了新功能的开发速度和产品交付速度,并且很大程度地增加了投资成本和运维成本。
不思jo
2023/05/18
2470
SRE方法论之拥抱风险
SRE转型:不同团队规模下的银行SRE团队组建策略
摘要:本文分析了银行在不同规模团队下的SRE转型策略。小型团队应优先解决核心系统的稳定性挑战;中型团队通过SLO/SLI管理及跨团队协作初步实践SRE方法;大型团队则推动运维平台智能化。进一步明确了基础架构SRE、工具SRE、业务SRE的具体职责,以灵活适配团队规模和技术水平,逐步实现技术驱动与文化协作的可靠性提升。通过技术与文化的双重进化,银行能够实现可靠性与创新的动态平衡,持续提升业务价值。
嘉为蓝鲸
2025/02/13
1140
SRE转型:不同团队规模下的银行SRE团队组建策略
2025年,SRE在企业中可以做哪些事
在当今时代,AI 浪潮正以汹涌之势席卷各行各业,深刻地改变着我们的生活与工作模式。从医疗领域的智能诊断,到金融行业的风险预测,AI 的身影无处不在,它为各个行业带来了前所未有的机遇与变革。
没有故事的陈师傅
2025/01/16
2450
2025年,SRE在企业中可以做哪些事
银行SRE转型:如何突破传统运维困境,打造高效团队
摘要:银行SRE团队的建设是应对数字化转型挑战的关键策略。本篇文章详细分析了传统运维与SRE的差异,并通过分阶段的转型路径说明了如何从规划到核心能力建设,再到全覆盖推广,逐步构建高效的SRE团队。在这一过程中,SRE团队不仅是技术升级的执行者,更是组织变革的推动者,为银行的长期可靠性和创新能力提供保障。
嘉为蓝鲸
2025/02/08
1670
SRE之道:创造软件系统来维护系统运行
大家都知道, 计算机软件系统离开人通常是无法自主运行的。那么,究竟应该如何去运维一个日趋复杂的大型分布式计算系统呢?雇佣系统管理员(sysadmin)运维复杂的计算机系统,是行业内一直以来的普遍做法。而Google 的做法是——SRE。
博文视点Broadview
2020/06/11
8340
得物容器SRE探索与实践
关于什么是SRE,以及在业务上有哪些具体的输出,网上资料众多但都只是对基本概念做描述。那容器SRE究竟要怎么结合业务,得物容器SRE又有哪些最佳实践,本文就得物容器SRE的一些事情向大家做介绍。
得物技术
2023/03/22
6730
得物容器SRE探索与实践
SRE是什么,与传统运维有什么不同?
SRE,Site Reliability Engineering,中文翻译为站点可靠性工程师,这个词诞生于谷歌内部。将这个词语展开来说:首先,SRE的关注点在于可靠性;其次,SRE中的"S"指的是google.com网站(站点)。简单的从这个词来看,SRE就是负责维护google.com运行可靠性的工程师,当然随着时间的推移,SRE的维护对象不再局限于单一的网站服务,也包括非网站类的基础设施和系统。从以上解释来看,这不就是我们平常说的运维工程师嘛!那么SRE与我们传统认知的运维工程师有什么不同呢?
不思jo
2023/03/27
2.1K0
SRE是什么,与传统运维有什么不同?
推荐阅读
相关推荐
从70万字SRE神作提炼出的7千字精华文章
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档