Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >MTTR无用,CIRT万岁[DevOps]

MTTR无用,CIRT万岁[DevOps]

作者头像
yyx
修改于 2019-12-30 02:39:21
修改于 2019-12-30 02:39:21
8400
举报

通过关注对业务有影响的事件,CIRT是衡量运营绩效的更准确方法。

图片来源:Internet Archive Book Images. Modified by Opensource.com. CC BY-SA 4.0
图片来源:Internet Archive Book Images. Modified by Opensource.com. CC BY-SA 4.0

IT操作社区的游戏正在发生变化,这意味着过去的规则变得越来越不合理。组织需要在正确的上下文中提供准确,可理解且可操作的指标,以衡量运营绩效并推动关键业务转型。

使用现代工具的客户越多,管理的事件类型越多,将所有这些不同的事件粉碎到一个存储桶中以计算代表操作性能的平均解决时间的意义就越小。做了很长时间。

历史和指标

历史表明,在分析信号以防止错误和误解时,上下文是关键。例如,在1980年代,瑞典建立了一个系统来分析水听器信号,以提醒他们注意瑞典当地水域中的俄罗斯潜艇。瑞典人使用了他们认为代表了一类俄罗斯潜艇的声学签名,但实际上是鲱鱼在面对潜在掠食者时释放出的气泡。对度量标准的这种误解加剧了国家之间的紧张关系,几乎导致了战争。

平均解决时间(MTTR)是运营经理用来获得实现目标的洞察力的主要运营绩效指标。 这是一项基于系统可靠性工程的古老措施。 MTTR已在许多行业中采用,包括制造,设施维护以及最近的IT运营,它代表从解决给定时间段内创建事件起的平均时间。

通过将解决所有事件所需的时间(从事件创建到解决的时间)除以事件总数,可以计算出MTTR。

MTTR就是它所说的:这是所有事件的平均值。 MTTR将高紧急事件和低紧急事件混在一起。 它还会重复计算每个单独的,未分组的事件,并导致解决时间有偏差。 包括在相同上下文中的手动解决的事件和自动解决的事件。 它将创建后几天(或几个月)内提交的事件混在一起,甚至完全忽略掉。 最后,MTTR包含每个微小的瞬态突发事件(在120秒内自动关闭的事件),这些突发事件要么是嘈杂的非问题,要么是由机器快速解决的。

MTTR接收所有事件,无论其类型如何,将其放入单个存储桶中,将它们混在一起,然后计算整个事件集中的“平均”解决时间。这种过于简单的方法会导致嘈杂,错误和误导性的操作执行指示。

一种衡量绩效的新方法

关键事件响应时间(CIRT)是一种新的,更加准确的评估运营绩效的方法。 CIRT通过使用以下技术来消除来自传入信号的噪声来关注最有可能影响业务的事件:

真正的影响业务(或潜在影响)的事件很少具有低紧急性,因此请排除所有低紧急性事件。

真正的影响业务的事件很少(如果有的话)通过监视工具自动解决,而无需人工干预,因此请排除未由人类解决的事件。

在120秒内解决的短暂,突发和瞬态事件极不可能是真正影响业务的事件,因此请排除它们。

长时间不被注意,被记录或忽略(未确认,未解决)的事件很少对业务有影响;排除他们。注意:此阈值可以是特定于客户的统计数字(例如,均值上方两个标准差),以避免使用任意数字。

由单独的警报生成的单个,未分组的事件不代表较大的业务影响事件。因此,请以非常保守的阈值(例如两分钟)模拟事件分组,以计算响应时间。

应用这些假设对响应时间有什么影响?简而言之,效果非常非常大!

通过关注关键的,对业务有影响的事件期间的操作性能,解决时间分布会缩小并向左大大偏移,因为现在它正在处理类似类型的事件,而不是所有事件。

由于MTTR会计算更长的人为偏差响应时间,因此它不能很好地指示运营绩效。另一方面,CIRT是针对对业务最重要的事件的有意措施。

与CIRT一起明智使用的另一项关键措施是已确认和解决的事件百分比。这很重要,因为可以验证CIRT(或该问题的MTTA / MTTR)是否值得使用。例如,如果MTTR结果很低,例如10分钟,听起来不错,但如果仅解决了42%的事件,则该MTTR值得怀疑。

总之,CIRT和已确认和已解决的事件百分比构成了一组有价值的指标,这些指标可以更好地了解自己的运营方式。衡量绩效是提高绩效的第一步,因此,这些新措施对于实现组织可衡量的持续改进周期至关重要。

本文系外文翻译,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系外文翻译,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
构建高效的容量保障体系
之前写过性能测试体系建设、质量保障机制构建的文章(见文末超链接),最近重读有一些新的感触。
老_张
2023/03/01
6280
构建高效的容量保障体系
13个提高生产率的DevOps指标
DevOps通过一系列追求敏捷心态的实践来提高软件交付速度和质量。当您提到DevOps时,首先想到的术语是持续集成,持续交付和部署,协作,自动化和监视。DevOps对不同的团队意味着不同的事情。一些团队全都致力于自动化,而其他团队则手动做事,仍然认为他们在做DevOps。有些人认为它是一种文化和一种思维定型者。
DevOps云学堂
2022/04/06
5670
13个提高生产率的DevOps指标
3.3.2 应急演练:验证性演习
我们常说的应急演练,通常是先出一个异常事件场景,提前做好参与方的准备工作,按应急预案指挥整个演练过程,IT内多个团队、业务、供应商分工协作,形成整体联动,实现了从问题发现到启动应急响应机制,到故障诊断,现场应急恢复。通过演练过程,检验应急预案是否有效,可用性架构是否可靠,应急处置过程中判断是否准确果断,处理及时有效,内部分工明确,应急操作是否规范等,最终评价演练是否达到预期效果。
彭华盛
2021/04/26
2.3K0
什么是 AIOps?初学者指南
用于 IT 运营的人工智能(或简称 AIOps)仍然是开发人员、SRE 和 DevOps 专业人士的热门话题。鉴于当今跨混合和多云环境的可观测性工作的广泛性,AIOps 的案例尤其重要。与大多数可观测性平台一样,这一切都始于您的遥测数据:指标、日志、跟踪和事件。
点火三周
2022/09/16
4K0
什么是 AIOps?初学者指南
企业级运维监控系统体系化建设指南
监控系统的本质是通过发现故障、解决故障、预防故障来为了保障业务的稳定。而要想在企业内实现监控系统的体系化建设落地,需要从以下三个方面着手建设,分别是监控技术体系、监控指标体系、监控管理体系。
嘉为蓝鲸
2022/09/27
1.5K0
企业级运维监控系统体系化建设指南
开源AI视频监控系统在监狱安全中的应用——实时情绪与行为分析、暴力预警技术详解
由于囚犯群体的情绪波动和复杂的社会互动,监控人员难以在繁忙的工作中全面监测每个潜在的安全隐患。此外,传统的闭路电视(CCTV)系统也无法有效处理这些复杂的情绪与行为动态,导致暴力行为、集体冲突等事件往往在发生之前无法及时预警。
思通数科
2024/12/27
6080
开源AI视频监控系统在监狱安全中的应用——实时情绪与行为分析、暴力预警技术详解
【稳定性】关于缩短MTTR的探索
Tech 导读 当系统出现故障时,需要通过一些指标来衡量故障的严重程度和影响范围,其中MTTR(Mean Time To Repair 名为平均修复时间)是一个非常重要的指标。本文将从监控报警识别、如何快速发现问题、快速止血缓解系统线上问题、利用现有工具智能分析、快速定位解决问题等维度来降低MTTR,最后编写了团队快速缩短MTTR三字经,提升系统稳定性。
京东技术
2023/11/13
6090
【稳定性】关于缩短MTTR的探索
安全服务工程师在应急响应中,应该关注哪些指标?
网络安全的工作中自然逃不开应急响应这一茬,很多大型企业、政府、教育、医疗等单位不定期都会出现一些安全风险问题,这时候需要专业的安全服务工程师对系统网站进行安全事件分析及应急处置,对所发现的安全问题提供处理建议。
雨笋教育
2022/02/14
1.6K0
安全服务工程师在应急响应中,应该关注哪些指标?
如何实现卓越的云计算运营
卓越云计算之旅始于制定与企业的业务目标最相关的指标。选择具有适当规模的适当指标很重要。
静一
2021/09/22
9330
ITSM运营:“运维成本控制密码”事件管理中的资源优化策略
事件管理是IT服务管理(ITSM)中的核心流程,主要负责对所有事件(包括故障、警告和其他IT服务中断等)进行记录、分类、优先级分配、解决和报告。事件管理的目标是确保服务尽快恢复到正常运行状态,减少对用户和业务的影响。在数字化转型加速的今天,如何利用科学的度量指标来持续改进事件流程,提高事件响应和恢复的效率,成为IT运维团队的关键课题。
嘉为蓝鲸
2025/04/09
840
ITSM运营:“运维成本控制密码”事件管理中的资源优化策略
ITSM 运营进阶:借助度量指标与报表体系,解锁管理新境界
直达原文:【ITSM运营】看得清才能管得好:ITSM度量指标和报表体系构建(附下载)
嘉为蓝鲸
2025/03/25
1000
ITSM 运营进阶:借助度量指标与报表体系,解锁管理新境界
vivo统一告警平台设计与实践
一套监控系统检测和告警是密不可分的,检测用来发现异常,告警用来将问题信息发送给相应的人。vivo监控系统1.0时代各个监控系统分别维护一套计算、存储、检测、告警收敛逻辑,这种架构下对底层数据融合非常不利,也就无法实现监控系统更广泛场景的应用,所以需要进行整体规划,重新对整个监控系统架构进行调整,在这样的背景下统一监控的目标被确立。
2020labs小助手
2021/11/22
1.1K0
vivo统一告警平台设计与实践
企业安全团队强大与否,看这八个关键指标
概述 安全人员喜欢用一些比较消极的方法来防御恶意攻击,比如“没有消息就是最好的消息”(此说法源自美国南北战争时期,由于打战死人后,家人都要收到阵亡通知书,所以人们很害怕得到噩耗,相反,如果没有什么消息
FB客服
2018/02/09
1K0
企业安全团队强大与否,看这八个关键指标
智慧城市大数据运营中心 IOC 之 Web GIS 地图应用
IOC(Intelligent Operations Center)——智慧城市智能运营中心就是智慧城市的大脑,是建立在各个智慧应用系统之上的系统。通过对政府各职能部门的业务信息共享与整合,聚焦城市运行监测、分析决策、可视化指挥、应急管理等环节,对人口统计、民生服务、信访举报、产业经济、突发事件等一系列综合指标进行有效监控,并围绕网格化管理、综合执法、环境卫生、园林绿化等重点领域,提升城市运行管理水平和突发事件的处置效率。打造智慧市政、智慧城管、智慧社区等智慧型城市。
HT for Web
2021/04/14
1.5K0
智慧城市大数据运营中心 IOC 之 Web GIS 地图应用
详解衡量DevOps成功的 9 个关键指标
恭喜!您已经建立了 DevOps 实践。现在,完成了艰苦的工作并制定了 DevOps 指标和 DevOps KPI,您可以坐下来放松一下,并见证您的 Dev 和 Ops 团队之间的协作,因为他们可以更快地交付质量更好的软件。
DevOps云学堂
2022/04/06
1.3K0
3亿人次的实战演习,如何做到丝般顺滑?
织云平台团队
2017/07/03
1.9K0
3亿人次的实战演习,如何做到丝般顺滑?
DevOps 作为实时故障处理的图
翻译自 DevOps as a Graph for Real-Time Troubleshooting 。更多链接请查看原文。
云云众生s
2024/03/27
1120
曝光!智慧城市建设全面开花!厦门人笑了!
城市建设,交通先行。以交通设施数字化、运行调度智能化、交通服务一体化、城市运行协同化为目标,深圳国资国企共同打造全域数字交通,提升交通出行效率,改善公众出行体验,助力打造国际新型智慧城市标杆和数字中国城市典范。
万物皆可视
2022/05/06
5110
曝光!智慧城市建设全面开花!厦门人笑了!
hhdb客户端介绍(14)
旨在确保在使用数据库管理工具过程中,遇到系统故障、数据丢失、软件错误或性能严重下降等紧急情况时,能够迅速、有效地恢复到之前稳定或指定的工作状态。为科学应对数据库管理软件突发事件,建立健全数据库管理软件的应急响应机制,有效预防、及时控制和最大限度地消除各类突发事件的危害和影响,制订本应急预案。
恒辉信达
2024/12/17
440
【愚公系列】《网络安全应急管理与技术实践》 029-网络安全应急技术与实践(应急响应体系建立)
应急响应体系建立是指为应对突发事件或紧急情况,组织内部或外部协作单位建立一个完善的管理体系和机制。这个体系包括了一系列的措施和步骤,旨在能够在突发事件发生时,及时、有效地应对、处理和控制,以减少损失,并保障生命安全和财产安全。
愚公搬代码
2024/09/26
3270
推荐阅读
相关推荐
构建高效的容量保障体系
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档