Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >SRE是什么,与传统运维有什么不同?

SRE是什么,与传统运维有什么不同?

原创
作者头像
不思jo
发布于 2023-03-27 00:44:51
发布于 2023-03-27 00:44:51
2.1K0
举报
文章被收录于专栏:SRESRE

SRE,Site Reliability Engineering,中文翻译为站点可靠性工程师,这个词诞生于谷歌内部。将这个词语展开来说:首先,SRE的关注点在于可靠性;其次,SRE中的"S"指的是google.com网站(站点)。简单的从这个词来看,SRE就是负责维护google.com运行可靠性的工程师,当然随着时间的推移,SRE的维护对象不再局限于单一的网站服务,也包括非网站类的基础设施和系统。从以上解释来看,这不就是我们平常说的运维工程师嘛!那么SRE与我们传统认知的运维工程师有什么不同呢?

传统运维模式

传统运维模式的普遍做法是招聘运维工程师来运维计算机系统。运维工程师负责将现成的软件组件部署在生产环境中,主要工作在于应对系统中产生的各种需要人工干预的事件,以及来自业务部门的变更需求。随着系统变得越来越复杂,组件越来越多,用户流量不断上升,相关的事件和变更需求也会越来越多。于是公司需要招聘更多的运维工程师来应对日益增多的事件。可以看出,传统运维工程师的日常工作与研发工程师相差甚远,他们通常分属两个不同的团队:开发(Dev)和运维(Ops)。

优势

很多第三方工具厂商及系统集成厂商都有现成的工具和软件解决方案帮助一个相对初级的运维团队应对简单的系统维护操作,避免重新发明轮子。

劣势

  • 直接成本。传统的运维工程师大部分依赖人工操作来处理系统维护事件以及变更的实施。随着系统复杂度的增加,部署规模的扩大,团队的大小基本与系统负载成线性相关,共同增长。
  • 间接成本。从本质上来说,由于研发团队和运维团队背景各异,技术能力与工具使用习惯差距巨大,工作目标也截然不同。两个团队对产品的可靠程度要求理解不同,具体执行中对某项操作的危险程度评估与可能的技术防范措施也有截然不同的理解。这些细节上的分歧累积起来,最后逐渐演变成目标与方向上的分歧并形成内部沟通问题,这就是所谓的开发与运维之间的“混乱之墙”。
混乱之墙
混乱之墙

混乱之墙

传统的研发团队和运维团队分歧的焦点主要在软件新版本、新配置的变更的发布速度上。研发部门最关注的是如何能够更快速地构建和发布新功能,而运维部门更关注的是如何能在他们值班期间避免发生故障,因为绝大部分生产故障都是由于部署某项变更导致的,不管是部署新版本,还是修改配置,甚至有时只是因为改变了用户的某些行为。

这两个团队的目标从本质上来说是互相矛盾的。极端的说,研发团队想要“随时随地发布新功能,没有任何阻拦”,而运维团队则想要“一旦一个东西在生产环境中正常工作了,就不要再进行任何改动”。

SRE模式

针对以上传统运维模式带来的问题,SRE模式从Google内部诞生:通过招聘软件工程师开发软件系统来维护系统运行以替代传统运维模式中的人工操作。换句话说,SRE就是在用软件工程的思维和方法论,通过设计、构建自动化工具完成以前由运维工程师手动操作的任务

SRE和DevOps的关系

DevOps旨在打破IT组织中开发、运维、测试和安全各自为政的局面,它不是一个平台,不是一个岗位,也不是什么组织团体和角色,它是一种基于人与技术互动以改善关系和结果的指导原则和文化运动。SRE可以是一个工作岗位,也是我们探索的一系列工作的实践方式,如果认为DevOps是一种理念和工作方法,那么就可以认为SRE实现了DevOps中所描述的部分理念,换句话说,SRE是DevOps文化的具体实践

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
《Google SRE》读后感
这是16年国庆时的一篇读书笔记,最近线上故障频繁,重新读了下这篇读书笔记,觉得《Google SRE》非常棒,遂从简书再搬家到博客园,希望大家受益。
嘉为蓝鲸
2018/12/21
2.9K0
银行SRE转型:如何突破传统运维困境,打造高效团队
摘要:银行SRE团队的建设是应对数字化转型挑战的关键策略。本篇文章详细分析了传统运维与SRE的差异,并通过分阶段的转型路径说明了如何从规划到核心能力建设,再到全覆盖推广,逐步构建高效的SRE团队。在这一过程中,SRE团队不仅是技术升级的执行者,更是组织变革的推动者,为银行的长期可靠性和创新能力提供保障。
嘉为蓝鲸
2025/02/08
1590
关于SRE方法论的一些笔记
「 傍晚时分,你坐在屋檐下,看着天慢慢地黑下去,心里寂寞而凄凉,感到自己的生命被剥夺了。当时我是个年轻人,但我害怕这样生活下去,衰老下去。在我看来,这是比死亡更可怕的事。--------王小波」
山河已无恙
2023/01/30
4970
什么是 SRE?它和 DevOps 是怎么关联的?
虽然 站点可靠性工程师(site reliability engineer)(SRE)角色在近几年变得流行起来,但是很多人 —— 甚至是软件行业里的 —— 还不知道 SRE 是什么或者 SRE 都干些什么。为了搞清楚这些问题,这篇文章解释了 SRE 的含义,还有 SRE 怎样关联 DevOps,以及在工程师团队规模不大的组织里 SRE 该如何工作。
用户1880875
2021/09/23
2.3K0
谷歌SRE与运维工作的思考
运维部门要保障产品业务稳定性,开发部门要想随时随地快速上线新功能,而线上的故障往往是由新的变更导致的——不管是新发布了版本,还是修改配置,或者是改变了用户某些行为导致流量负载产生变化,传统意义上这两个部门在本质目标上是相对的。所以运维部门往往会要求开发部门对变更或发布做控制,并且规定要走一些繁琐的流程;而开发部门会想法设法绕过这些繁琐步骤,以支持新功能更快上线。
小小科
2020/07/17
1.7K0
让大模型告诉我DevOps工程师和SRE工程师有什么区别
我最近几年在DevOps团队做一些工作,发现很多人(包括同事)把SRE和DevOps完全混为一谈,我心里知道这两个岗位是不一样的,但是不能描述的很清楚。
panzhixiang
2024/10/30
1360
DevOps和SRE还没搞清楚,平台工程又出现了,它会取代DevOps吗?
DevOps、SRE和平台工程的概念在不同时期出现,并由不同的个人和组织开发。 图片
DevOps在路上
2023/04/26
2720
DevOps和SRE还没搞清楚,平台工程又出现了,它会取代DevOps吗?
他山之石——运维平台哪家强?
下图是我们熟知的软件研发环节,在迭代频率高的研发组织里,一天可能要经历多次如下循环。对于用户群体庞大或者正在经历大幅业务扩张的企业研发组织,除了重点关注应用的快速上线之外,如何保障应用的高可靠、高可用也成为焦点,即服务上线要快,运行要好。
腾讯云 CODING
2019/09/16
2.5K0
他山之石——运维平台哪家强?
运维工程师要失业了?抛开噱头与调侃,闲聊我心中的运维!
“在知乎上,我经常受邀请回答很多类似的问题:运维到底是干什么的?运维工作有没有意思?运维有没有前途?运维是不是要被各种技术取代? 然而本人上知乎以休闲娱乐为主,一般不回答正儿八经的技术或者专业相关的问
数据和云
2018/04/02
2.2K0
运维工程师要失业了?抛开噱头与调侃,闲聊我心中的运维!
SRE方法论之减少琐事
我们先回顾一下SRE的定义:SRE就是用软件工程的思维和方法论,通过设计、构建自动化工具完成以前由运维工程师手动操作的任务。所以,SRE要把更多的时间花费在长期项目研发上而非日常运维中的琐事。
不思jo
2023/08/29
2790
生成式 AI 如何支撑当前的 DevOps 和 SRE 工作体系?
Hello folks,我是 Luga,今天我们来聊一下人工智能生态核心技术—— GAI,即 “生成式人工智能” 。
Luga Lee
2023/11/07
1.3K2
生成式 AI 如何支撑当前的 DevOps 和 SRE 工作体系?
2.2.1 以业务为中心重塑运维岗位能力
本篇是第二章“组织”中“2.2 个体岗位能力”第1节,主要聊聊运维适应性系统建设中,人员岗位能力这个组件要求。
彭华盛
2021/01/05
1.5K0
银行运维SRE转型:挑战与应对策略
摘要:本文探讨了银行运维团队实施SRE(站点可靠性工程)转型的路径,涵盖了从组织架构、制度流程到工具的全面实施方案。银行面临着由传统单体架构向分布式架构转型的挑战,SRE通过引入自动化、可观测性和持续改进机制,帮助银行提升系统可靠性、稳定性以及业务连续性。文章还探讨了实施过程中可能面临的文化、技术和人才挑战,并提出了具体的应对策略。
嘉为蓝鲸
2025/02/08
2170
DevOps和SRE
之前总是把SRE和DevOps混为一谈,总觉得这两个是同一种东西在不同公司的叫法,知道前两天google又放出了《The Site Reliability Workbook》 ,书中对比了SRE和DevOps的异同。今日重新看wikepedia上DevOps的的定义 ,发现两者虽有共同点,但本质上却不同。
xindoo
2021/01/21
7550
《SRE google 运维解密》读书笔记 (一)
新财年换了领导,管理风格也有一些区别。在团队内增加了一个 SRE 的职位。这一财年我将会承担一部分 SRE 的工作。
用户2060079
2022/05/25
1.6K0
SRE与DevOps有什么不同?
SRE和DevOps有什么区别?您可能会说这很大程度上是语义问题,实际上,SRE和DevOps工程师扮演着相同的基本角色。
后场技术
2020/09/03
2.4K0
SRE与DevOps有什么不同?
“扯淡的DevOps,我们开发者根本不想做运维!”
作者 | Scott Carey 编译 | 核子可乐 褚杏娟 “谁构建、谁运行”的口号让开发者们倍感压力,但另一方面,运维团队的日子也不好过。那么,这场席卷全球的开发与运维融合浪潮会不会黯然退场? 根据外媒记者 Scott Carey 的观察,众多开发者纷纷表示“苦 DevOps 久矣”。我们将 Carey 记录的文章在不改变愿意的基础上进行了编译,以飨读者。本文谨代表作者个人观点,不代表 InfoQ 立场。面对争议问题,希望大家理智讨论。 “在大多数情况下,开发人员并不想处理运维问题。”亚马逊
深度学习与Python
2023/03/29
4280
“扯淡的DevOps,我们开发者根本不想做运维!”
SRE vs. DevOps? 成功的平台工程需要两者兼备
对比它们的差异,各自的作用,它们如何造福业务,并解释为什么组织需要同时拥有这两者以取得成功。
云云众生s
2024/03/27
1810
我所理解的SRE、PE和应用运维(上)
SRE这个概念我个人印象中应该14年下半年左右听到的,当时只知道是Google对运维岗位定义,巨牛逼的一个岗位,在网上查到SRE是叫网站稳定工程师,只要是保障稳定为主,其他就没有更深的意识了。15年开始逐渐有更多在Google工作或接触过这个岗位的专家在介绍这个概念,大家有了更进一步的认识,但是很多的细节,大家仍然是不了解的。今年年初,Google SRE这本书的英文电子版引入到了国内,再后来9月份有了中文版译本,SRE在今年彻底火爆。
赵成
2018/08/09
4.2K1
SRE本质就是一个懂运维的资深开发
SRE 到底是什么?这是一个最早由 Google 提出的概念,我的理解是,用软件解决运维问题。标准化、自动化、可扩展、高可用是主要的工作内容。这个岗位被提出的时候,想解决的问题是打破开发人员想要快速迭代,与运维人员想要保持稳定,拒绝频繁更新之间的矛盾。
iginkgo18
2022/03/14
5.7K1
相关推荐
《Google SRE》读后感
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档