首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏五分钟学SRE

    5分钟SRE-Iptables

    iptables不是一个真正的防火墙,是位于用户空间的一个命令行工具,用户通过iptables这个代理将用户的安全设定执行到对应的“安全框架”-netfilter,netfilter位于内核空间,他才是防火墙的真正安全框架

    55930编辑于 2023-11-17
  • 来自专栏老张的求知思考世界

    SRE实战手册》学习笔记之认识SRE

    ; 最佳实践:业内稳定性领域的最佳实践是Google SRE; 1、SRE包含哪些工作事项 稳定性规范制定,监控、压测、服务治理、大促稳定性保障、故障应急管理、组织架构建设; 2、SRE常见的问题与困惑 3、我们所看到的SRE 理念:SRE 到底是什么? 5、DevOps和SRE的区别 DevOps核心是做全栈交付,SRE核心是稳定性保障,关注业务所有活动,两者共性是:都使用软件工程解决问题。 如何理解SRE 1、SRE的定义 定义:SRE是一整套稳定性保障的最佳实践体系! ; 其他的角度:SRE传统运维的升级版,把运维自动化做好就行; 3、如何理解SRE SRE稳定性保障规划图: SRE是一整套稳定性保障的最佳实践体系,需要高效的跨团队组织协作才能完成。

    1.8K10编辑于 2022-04-01
  • 来自专栏老张的求知思考世界

    SRE实战手册》学习笔记之切入SRE

    极客时间上赵成老师的《SRE实战手册》是线上稳定性保障领域很好的一门技术课程。 这篇文章是学习笔记的第二篇,理解SRE之后,就要找到切入点来落地。 理解SRE中的指标和目标 SRE强调稳定性,一般是看整体的系统情况,也就是常说的"3个9"、"4个9"这样可量化的数字。 这个“确定成功请求条件,设定达成占比目标”的过程,在SRE中就是设定稳定性衡量标准的SLI和SLO的过程。 这么做是为了确保SRE精力能够更多地关注在核心业务上; 2.2强依赖之间的核心应用,SLO要一致。 混沌工程是 SRE 稳定性体系建设的高级阶段,一定是 SRE 体系在服务治理、容量压测、链路跟踪、监控告警、运维自动化等相对基础和必需的部分非常完善的情况下才能考虑。

    2.1K10编辑于 2022-04-01
  • 来自专栏XINDOO的专栏

    DevOps和SRE

      之前总是把SRE和DevOps混为一谈,总觉得这两个是同一种东西在不同公司的叫法,知道前两天google又放出了《The Site Reliability Workbook》 ,书中对比了SRE和DevOps 无论是实践还是理论,SRE和DevOps都得用数据说话。 - 在管理生产服务的过程中总是免不了出问题,SRE和DevOps都实行不问责的事故处理方式。 - 归根到底,DevOps或SRE是一种全局工作,两者都希望通过某种特定的方式使得分散的部分组织协同的更好。 速度是SRE和DevOps都想要的结果。    或者,换句话说,SRE相信与DevOps相同的东西,但原因略有不同。 作为一个具体的职业,SRE对他们产生的影响高度敏感,反而对信息壁垒不太关注。 SRE支持持续集成和持续交付不是因为商业需求,而是因为持续集成和持续交付涉及到运维。 换句话说,SRE和DevOps相信同样的事,但不是因为同样的原因。

    92320发布于 2021-01-21
  • 来自专栏云云众生s

    SRE与AI

    当思考Site Reliability Engineering(SRE)以及使软件可靠的一般概念时,很容易看到AI可以发挥重要作用。 以系统监控和服务指标(SLO)为例,这是SRE领域两个常见难题。概念上它们很简单。系统监控就是观察系统输出以确保正常运行。

    48610编辑于 2024-03-28
  • 来自专栏老张的求知思考世界

    SRE实战手册》学习笔记之SRE落地实践

    这篇文章,主要说明如何通过应对故障来落地SRE。 ,优先恢复业务优先; 3)如果问题疑难或影响范围大,SRE可以要求更高级别的角色介入如 SRE主管或总监。 典型案例:互联网的SRE组织架构 在SRE体系中,高效的故障应对和管理工作,需要整个技术团队共同参与和投入。 总结:SRE = PE + 工具平台开发 + 稳定性平台开发! 业内经验:高效的SRE组织协作机制 SRE落地经验:以赛带练。 1、什么是以赛带练? 落地SRE要尽可能早的参与到项目中,而非等到线上出问题才考虑引入SRE机制! SRE 更多的要成为稳定性的监督者和推进者,而不是各种问题的救火队员!

    3.3K10编辑于 2022-04-01
  • 来自专栏SRE运维实践

    云原生SRE

    2 为什么需要云原生SRE? 所有的这些,也就促成了云原生SRE的诞生,云原生SRE属于平台级运维,属于数据化运维,如果这些SRE有脑子的话,那么可以摇身一变,变成智能化运维。 ? 高端的产品必然有高端的食材,这就是云原生SRE的舞台。 3 云原生SRE的核心能力 数据化运维,对于各种微服务来说,前端的数据,中间的数据,后端的数据,存储的数据,各种各样的数据,各种各样的APM,收集数据,存储数据,分析数据,利用数据,数据服务化

    1.6K30发布于 2020-12-22
  • 来自专栏运维开发故事

    SRE食用指南

    作者:乔克 博客:www.jokerbai.com SRE,多么美妙的一个词,它就像黑暗中的一盏明灯,为运维指出了前进的路。 但是,国内大部分企业的运维人员对 SRE 都不感冒,觉得它就是理论的巨人,根本无法落地实践。 SRE 是谷歌提出的理念,旨在做到以应用为中心,以稳定为前提,做到自动化、智能化、平台化,需要工程师的技术能力拉满: 会产品 会开发 会测试 会运维 会架构 ‍ 大家一看到这,就直接把 SRE 拉黑了, 在我看来,SRE 并非一定特指某个人,而是一群人,如果一个公司只招一个 SRE,要么公司不知道 SRE 是什么,要么公司是傻逼中的战斗机。 ‍ 目前国内玩 SRE 玩的比较好的都是大厂,比如百度、蚂蚁、腾讯等,他们的团队规模都很大,这么大团队,如果每个人都会上面的技能,那会是什么场面?

    37930编辑于 2022-12-06
  • 来自专栏让技术和时代并行

    SRE最佳实践

    什么是站点可靠性工程(SRE)? 站点可靠性工程(SRE)的概念起源于谷歌。这个想法与DevOps的原则密切相关。它是It运营的一种方法。SRE团队使用软件来管理系统、解决问题和自动化操作任务。 为什么SRE很重要?好的SRE团队需要具备哪些条件? SRE就像是软件工程和IT操作之间的桥梁,填补了它们之间的空白。在几乎所有地方,SRE都在为生产系统中的故障做准备时发挥作用。 SRE的主要目标是提高性能和运行效率。 所以,SRE不仅仅是负责编码的行动人员。另外,SRE是开发团队中拥有不同技能集的成员,特别是在部署、配置管理、监视、度量等方面。 既然我们知道了为什么SRE很重要,那么让我们继续讨论在拥抱SRE文化时必须遵循的SRE最佳实践。 SRE最佳实践 在实现SRE时,您可能需要一些时间来改进您的策略和定制实践,以满足您的操作需求。 引用 https://sre.google/sre-book/service-best-practices/ https://opensource.com/article/18/10/sre-startup

    1.8K20编辑于 2023-03-18
  • SRE 转型关键:SRE 与 DevOps 团队如何高效协作

    本文来自腾讯蓝鲸智云社区用户: CanWay直达原文:【SRE转型】银行SRE和DevOps团队的协作摘要:本文通过深入分析SRE和DevOps在银行中的角色与职责,详细阐述了它们在核心协作点上的紧密配合 理解SRE与DevOps的具体职责和核心作用是实现跨团队协作的基础。1)SRE团队的主要职责SRE起源于Google,其核心目的是通过工程化手段提升服务的可靠性与可用性。 SRE团队通常由具备深厚技术背景的工程师组成,主要职责包括:1.可靠性工程与SLO管理:可靠性是SRE的核心职责之一。 3)SRE与DevOps的共同目标尽管SRE和DevOps在职能上有所不同,但两者有着共同的目标:提升系统的可靠性、可用性和敏捷性。 SRE负责:在故障发生后,SRE团队负责快速响应并进行问题根因分析,提供改进建议,避免类似问题再次发生。

    12610编辑于 2026-01-30
  • 来自专栏SRE运维进阶之路

    SRE 学习路线

    SRE 工作职责 要制定学习路线,首先我们要搞情况 SRE 的工作职责。 SRE(Site Reliability Engineering)站点可靠性工程是一种结合软件工程和运维运营原则的角色和方法论,旨在在系统、服务或产品的设计、开发、部署和运维过程中,采取一系列措施来确保其持续稳定运行 SRE/稳定性保障具体措施包括但不限于: 高可用性: 确保系统能够在大部分时间内持续提供服务,即使在出现故障或意外情况下也能够快速恢复。常见的高可用性措施包括冗余设计、故障转移、负载均衡和容错机制。 SRE 稳定性保障体系 SRE 主要工作是保障稳定性,稳定性就是不出故障,围绕着故障周期,整理出 SRE 稳定性保障体系。 SRE RoadMap 根据工作职责和稳定性保障体系,整理出学习路线。

    67421编辑于 2024-04-23
  • 来自专栏SRE转型

    深度剖析:银行 SRE 转型中 SRE 与 DevOps 团队的协作

    直达原文:【SRE转型】银行SRE和DevOps团队的协作摘要:本文通过深入分析SRE和DevOps在银行中的角色与职责,详细阐述了它们在核心协作点上的紧密配合,尤其是在自动化流程、SLO与CI/CD的结合 理解SRE与DevOps的具体职责和核心作用是实现跨团队协作的基础。1)SRE团队的主要职责SRE起源于Google,其核心目的是通过工程化手段提升服务的可靠性与可用性。 SRE团队通常由具备深厚技术背景的工程师组成,主要职责包括:1.可靠性工程与SLO管理:可靠性是SRE的核心职责之一。 3)SRE与DevOps的共同目标尽管SRE和DevOps在职能上有所不同,但两者有着共同的目标:提升系统的可靠性、可用性和敏捷性。 SRE负责:在故障发生后,SRE团队负责快速响应并进行问题根因分析,提供改进建议,避免类似问题再次发生。

    24500编辑于 2025-03-18
  • 来自专栏锅总

    锅总浅析SRE

    SRE与传统运维的区别 理念不同:SRE强调用软件工程的方法来解决运维问题,而传统运维更多依赖手工操作和经验。 自动化程度:SRE更注重自动化,尽量减少人为干预;传统运维则可能依赖较多的手工操作。 SRE已经在Google等大型互联网公司得到了广泛应用,并逐渐成为行业的最佳实践。 SRE常用工具 SRE(站点可靠性工程)在日常工作中会使用各种工具来提升系统的可靠性、可维护性和自动化程度。 SRE需具备关键能力 SRE(站点可靠性工程)需要具备一系列关键能力,以确保系统的可靠性、性能和可扩展性。以下是一些SRE需具备的关键能力: 1. 以下是一些典型地区的SRE薪资范围概述: 美国 在美国,SRE的薪资相对较高,特别是在科技公司集中的地区如旧金山湾区、西雅图和纽约。 初级SRE:年薪大约在 到120,000 之间。 中级SRE:年薪大约在 到150,000 之间。 高级SRE:年薪大约在 到200,000 以上。

    97110编辑于 2024-08-05
  • 来自专栏SRE转型

    SRE转型:银行 SRE 转型与 SLO 管理的深度融合

    直达原文:【SRE转型】从理念到实践:银行 SRE 转型与 SLO 管理的深度融合摘要:本文探讨了银行在SRE转型中如何通过SLO管理提升系统可靠性与业务连续性。 随着技术环境、业务需求和用户体验的变化,SRE团队需要不断优化SLO管理体系。 SRE团队需要定期与开发、业务、合规等团队沟通,确保目标的一致性,并及时调整应对策略。 业务对接专员能够帮助SRE团队准确理解业务需求,同时也能帮助业务团队理解SLO目标的重要性。 基于数据驱动的决策:通过实时收集和分析SLI数据,SRE团队可以根据实际情况调整SLO目标。例如,当某个业务系统出现性能瓶颈时,SRE团队可以通过调整SLO来合理分配资源,确保高优先级的服务得到保障。

    31310编辑于 2025-02-13
  • 来自专栏云计算与大数据

    SRE的能力建设

    sre关注点与能力建设

    1.2K10发布于 2019-12-03
  • 来自专栏乌龟哥哥默认学习专栏

    SRE 运维解密

    读《SRE Google运维解密》是我首次比较系统地了解和学习Google内部SRE运作的指导思想、实践以及相关问题,最近又花了一些时间,仔细阅读了关于SRE的第二本书籍《SRE生存指南》。 SRE首先是一套方法论,它从传统运维中与稳定性相关的工作内容提炼出来进行升华,构建了SRE的方法论体系。 SRE团队。 从这个框架内容,我个人认为SRE运维所遵守几个基本原则:1)以业务连续性为目标SRE的根本出发点和目标就是业务连续性。 因此SRE运维体系是一个将自动化和工具化提高到战略高度的运维体系模型,正如书中所言:“SRE的诞生是因为软件工程师触及了运维。

    78200编辑于 2023-09-29
  • 来自专栏嘉为动态

    《Google SRE》读后感

    SRE是个全能手,DevOps的实践者 SRE全称:Site Reliability Engineering,翻译过来就是:站点可靠性工程师。 SRE的工作是Develop+Operate的结合,SRE是DevOps的实践者,他们的工作内容和职责和传统运维工程师差不多:发布、部署、监控、排障,目标一致。 监控是SRE眼睛的延伸。 监控系统应当解决两个问题:现象(什么东西出故障了?),原因(为什么出故障?) 反思 and 总结 这两个优点对于SRE很是重要,反思使得SRE从失败中学习教训,总结使SRE从时间中获得经验,个人和团队需要学习和践行这种精神,但是对事不对人。 追本溯源、怀疑一切 SRE是天生怀疑论者,怀疑一切,眼见为实,追本溯源是本性,感觉自己的性格还蛮适合的~ 09.

    3.1K40发布于 2018-12-21
  • 来自专栏小狼的世界

    Google SRE 读书笔记 扒一扒SRE用的那些工具

    写在前面 最近花了一点时间阅读了《SRE Goolge运维解密》这本书,对于书的内容大家可以看看豆瓣上的介绍。 总体而言,这本书是首次比较系统的披露Google内部SRE运作的一些指导思想、实践以及相关的问题,对于我们运维乃至开发人员都有一定的借鉴意义。 书中的一些思想也令我印象深刻,例如SRE工程师要保证投入50%的时间在项目上、错误预算、命运之轮、事故总结等等,对于从业者有很大的启发。 全书各章节及小评 章节及名称 感想 1 介绍 2 Google 生产环境:SRE视角 3 拥抱风险 4 服务质量目标 5 减少琐事 6 分布式系统的监控 7 Google 的自动化系统演进 加入on-call 29 处理中断性任务 30 通过嵌入SRE的方式帮助团队从运维过载中恢复 31 SRE与其它团队的沟通与协作 32 SRE参与模式的演进历史 33 其他行业的实践经验 34

    1.3K20发布于 2018-07-24
  • 来自专栏云服务与SRE架构师社区

    SRE和DevOps的关系:把SRE看作是DevOps接口的实现

    那么SRE和DevOps之间是什么关系呢? (当然,这并不意味着在任意组织中进行SRE没有必要进行文化重塑。) SRE由以下具体原则定义。 2.1. 运维是一个关于软件的问题 SRE的基本原则是做好运维是一个关于软件的问题。 SRE既没有也不能保证大部分服务,尽管SRE的原则仍然包括告知整个Google如何管理服务(注12)。SRE团队与产品开发团队合作的所有权模式最终其实是一个共享模型。 2.7. 量化对DevOps和SRE两者的工作方式都至关重要。对于SRE,SLO在确定改进服务所采取的行动方面占主导地位。 然而,当产品成功时,产品开发团队为SRE团队人员的扩充提供了高水平的人才库。通过这种方式,产品开发与SRE团队的成功息息相关,就像SRE的成功与产品开发团队密切相关一样。

    1.6K10发布于 2019-07-31
  • 来自专栏SRE转型

    SRE转型:不同团队规模下的银行SRE团队组建策略

    原文链接:【SRE转型】不同团队规模下的银行SRE团队组建策略摘要:本文分析了银行在不同规模团队下的SRE转型策略。 进一步明确了基础架构SRE、工具SRE、业务SRE的具体职责,以灵活适配团队规模和技术水平,逐步实现技术驱动与文化协作的可靠性提升。 本文将深入探讨不同规模团队的SRE组建策略,分析基础架构SRE、工具SRE、业务SRE的定位。02.不同规模银行IT团队的SRE组建策略在银行SRE转型过程中,团队规模是规划组建策略的重要因素之一。 组建策略:职能团队初步细分 :根据职能划分为基础架构SRE(Infrastructure SRE)、工具SRE(Tools SRE)和业务SRE(Product SRE)。 03.不同SRE的定位与职责基础架构SRE、工具SRE和业务SRE在职责分工上各有侧重,但都共同致力于提升系统的总体可靠性与稳定性。以下将从三个方面详细说明各类型SRE团队的具体定位与职责 。

    36400编辑于 2025-02-13
领券