点击标题下「蓝色微信名」可快速关注
看到老杨写的这篇文章《知识篇 | 可靠性与可用性:了解两者的区别》,讲解了系统可用性和可靠性,两者有区别,有联系,相辅相成的关系,原文链接如下,版权归原作者所有,
https://www.atlassian.com/zh/incident-management/kpis/reliability-vs-availability
P.S. 正文中关于MTBF的讲解可以参考《平均故障间隔时间(MTBF)的含义是什么?》。
可靠性(即系统就绪性)根据定义的性能标准以特定的时间间隔衡量性能。可用性(即系统功能)衡量可操作性的百分比。它们共同提供了对业务系统运行状况的洞察信息,还能帮助确定需要改进的地方。
本指南介绍了服务可靠性与可用性、事件管理指标如何帮助衡量它们,以及如何改进这些关键指标。
可靠性是指系统或组件在指定的时间段内持续执行其预期功能而不出现故障的概率。团队必须了解如何衡量和确保可靠性,才能就系统性能做出明智的决策并提高客户满意度。
例如,工资系统必须在每月规定的时间范围内可靠地处理直接存款,而冷藏系统必须检测到停电并顺利地切换到备用发电机。在各行各业中,保持自动化流程的可靠性并通过事件管理KPI跟踪绩效至关重要,因为故障可能会导致严重的财务后果。
可靠性是指系统或组件在给定时间段内在指定条件下执行其预期功能而不出现故障的概率。它衡量系统或组件在出现失灵或故障的情况下保持功能和性能的能力。
可靠性对系统设计和维护至关重要,因为它直接影响系统的整体性能、安全性和成本效益。高可靠性意味着系统或组件将正确且持续地运行,这对于保持客户信心和运营效率是必不可少的。
可以使用标准的事件管理指标来衡量可靠性,例如,
请务必考虑其他因素,如服务级别协议和客户对系统的期望。根据系统出现故障时面临的风险,可靠性标准可能会有所不同。例如,故障是会导致一群报税员下午歇班?还是会使数千名航班旅客滞留在离家很远的地方?
可靠性计算使用数学模型和统计技术来估计系统或组件的可靠性。这些计算通常使用故障率、平均故障间隔时间 (MTBF) 和其他可靠性指标来确定系统或组件的故障概率。
通过分析这些指标,企业可确定潜在的弱点和需要改进的地方。可靠性计算可使用各种方法来执行,包括故障树分析、可靠性方框图和马尔可夫建模。这些技术有助于可视化和量化复杂系统的可靠性,使决策者能够在设计、维护和资源分配方面做出明智的选择。
平均无故障时间 (MTTF) 是指系统或组件出现故障之前的平均时间,而平均故障间隔时间 (MTBF) 是指两次故障之间的平均时间。MTTF通常用于不可修复的系统,而MTBF用于可修复的系统。这两个指标对于可靠性计算都很重要,因为可让深入了解系统或组件故障的频率和可能性。
通过了解这些指标,企业可更好地预测维护需求、计划更换,并提高整体系统可靠性。计算MTTF和MTBF需要收集有关故障事件的数据,并使用统计方法来分别计算平均无故障时间和平均故障间隔时间。
企业可以采取一些措施来提高服务可靠性:
可用性是系统或组件正常运行且可执行其功能的时间(即正常运行时间)百分比。
例如,大型线上零售商必须全天候保持站点可用性以满足客户需求,否则将面临市场份额被竞争对手抢占的风险。可用性考虑了各种条件,例如用户的互联网速度和高峰流量时间。
可用性是指系统或组件在给定时间运行且可用的概率。它衡量系统或组件在需要时执行其预期功能的能力。
可用性通常使用以下公式计算:可用性 = (MTBF / (MTBF + MTTR)),其中MTTR是指平均修复时间。此公式清楚地解释了系统预计运行且可供使用的频率。高可用性对于需要持续运行的系统(如在线服务和关键基础架构)至关重要。通过重点关注MTBF和MTTR,企业可提高系统的可用性并满足用户的期望。
可用性是一个以百分比衡量的指标。它是总耗用时间减去总停机时间除以总耗用时间:
可用性百分比 =(总耗用时间 - 停机时间)/总耗用时间
例如,如果一个在线零售网站因流量过载而每天停机三小时,其可用性评分为87.5%。大型国际零售商的这一标准可能接近99.5%,这使该在线零售商有很大的改进余地。
公司可以通过几种方式提高可用性:
特别是,主动式维护可以帮助企业获得更高的可用性和服务可靠性。进行可靠性、可用性和可维护性 (RAM) 研究可以提供有关维护工作重点的重要洞察信息。
可靠性和可用性经常被误认为是同一回事。实际上,它们不仅不同,而且并不总是一致的。
即使是公司衡量它们的标准也可能有所不同,具体取决于系统及其功能。为了准确了解任何业务系统,应该分别分析可靠性与可用性指标。
用于衡量系统是否在规定的特定时间交付了正确的输出,例如,在正确的日期将工资款项转入正确的帐户。
用于衡量系统的正常运行时间,例如,在必要的保育期内为早产儿提供不间断的氧气监测。
在考虑如何使用可靠性与可用性指标来提高性能时,它们之间的差异变得更加明显。可靠性旨在最大限度地减少系统故障和停机时间,而可用性旨在最大限度地延长运行时间。
衡量杂货店自助结账系统的服务可靠性可能涉及分析客户需要店员协助才能完成交易的频率。衡量可用性可能涉及检查客户是否尝试过自助结账。
可靠性和可用性相辅相成。富有竞争力的企业会努力改善这两个指标以获得最佳结果。例如,如果系统的可用性较高但经常出现可靠性故障,那么无论解决问题的速度有多快,都不太可能满足客户的需求。
改善这两个领域通常需要相似的方法,例如进行例行维护、增加冗余、应急计划和测试。
有几个因素会影响系统的可靠性和可用性:
企业可以通过确立标准的环境阈值和增加冗余、要求组件质量符合ISO标准或实施检查、测试和维护系统各个方面的程序来提高整体服务的可靠性和可用性。
以无人驾驶汽车等新技术为例。服务可靠性标准是接近或达到100%,因为一次故障可能就会导致人身伤害或死亡。
相反,无人驾驶汽车的可用性会影响用户体验。可用性越高或运行时间越长,体验就越好。可用性低可能会导致企业失去市场份额,但不太可能造成人身伤害或死亡。
可靠性和可用性都会影响企业的利润,因为它们会影响客户满意度。此外,不可用或不可靠的系统会使公司因收入减少、系统损坏、计划外维护成本和生产力降低而蒙受损失。
将工作重点放在提高服务的可靠性和可用性上,可以增强竞争优势、增加市场份额和收入并改善维护成本预算计划。
企业有时必须优先考虑可靠性而不是可用性,反之亦然。当时间线较短或投资资金有限时,可能必须进行真正的取舍。
就无人驾驶汽车而言,企业可能会投入更多的时间和精力来提高可靠性,即使这会对可用性产生负面影响。但是,在不太关键的情况下,例如线上零售,企业可能会专注于提高可用性,因为"始终开放"是电子商务和实体竞争对手之间的主要区别之一。
可靠性计算对于系统设计和维护至关重要。理解可靠性、可用性和故障率的概念后,决策者便可在系统设计、维护和维修方面做出明智的决策。
可靠性计算可帮助最大限度地减少停机时间、降低维护成本,并提高整体系统性能。通过实施强大的可靠性和可用性策略,企业可提高其运营效率、保持客户满意度,并在其行业中获得竞争优势。