系统可靠性和可用性

bisal

发布于 2025-08-18 15:17:53

4590

文章被收录于专栏：bisal的个人杂货铺bisal的个人杂货铺

点击标题下「蓝色微信名」可快速关注

看到老杨写的这篇文章《知识篇 | 可靠性与可用性：了解两者的区别》，讲解了系统可用性和可靠性，两者有区别，有联系，相辅相成的关系，原文链接如下，版权归原作者所有，

https://www.atlassian.com/zh/incident-management/kpis/reliability-vs-availability

P.S. 正文中关于MTBF的讲解可以参考《平均故障间隔时间（MTBF）的含义是什么？》。

可靠性（即系统就绪性）根据定义的性能标准以特定的时间间隔衡量性能。可用性（即系统功能）衡量可操作性的百分比。它们共同提供了对业务系统运行状况的洞察信息，还能帮助确定需要改进的地方。

本指南介绍了服务可靠性与可用性、事件管理指标如何帮助衡量它们，以及如何改进这些关键指标。

什么是系统可靠性？

可靠性是指系统或组件在指定的时间段内持续执行其预期功能而不出现故障的概率。团队必须了解如何衡量和确保可靠性，才能就系统性能做出明智的决策并提高客户满意度。

例如，工资系统必须在每月规定的时间范围内可靠地处理直接存款，而冷藏系统必须检测到停电并顺利地切换到备用发电机。在各行各业中，保持自动化流程的可靠性并通过事件管理KPI跟踪绩效至关重要，因为故障可能会导致严重的财务后果。

可靠性的定义

可靠性是指系统或组件在给定时间段内在指定条件下执行其预期功能而不出现故障的概率。它衡量系统或组件在出现失灵或故障的情况下保持功能和性能的能力。

可靠性对系统设计和维护至关重要，因为它直接影响系统的整体性能、安全性和成本效益。高可靠性意味着系统或组件将正确且持续地运行，这对于保持客户信心和运营效率是必不可少的。

如何测量和计算故障率以确保可靠性？

可以使用标准的事件管理指标来衡量可靠性，例如，

平均故障间隔时间MTBF 的计算方法是用总操作时间除以故障次数。此指标对于了解两次故障之间的平均持续时间至关重要。
故障率：故障率的计算方法是用故障次数除以总服务时间。诸如 MIL-HNDBK-217 之类的手册可能会造成不准确，因为假设故障率恒定，这可能会导致对组件可靠性的误导性预测，特别是随着组件的老化。

请务必考虑其他因素，如服务级别协议和客户对系统的期望。根据系统出现故障时面临的风险，可靠性标准可能会有所不同。例如，故障是会导致一群报税员下午歇班？还是会使数千名航班旅客滞留在离家很远的地方？

可靠性计算

可靠性计算使用数学模型和统计技术来估计系统或组件的可靠性。这些计算通常使用故障率、平均故障间隔时间 (MTBF) 和其他可靠性指标来确定系统或组件的故障概率。

通过分析这些指标，企业可确定潜在的弱点和需要改进的地方。可靠性计算可使用各种方法来执行，包括故障树分析、可靠性方框图和马尔可夫建模。这些技术有助于可视化和量化复杂系统的可靠性，使决策者能够在设计、维护和资源分配方面做出明智的选择。

平均无故障时间 (MTTF) 和平均故障间隔时间 (MTBF)

平均无故障时间 (MTTF) 是指系统或组件出现故障之前的平均时间，而平均故障间隔时间 (MTBF) 是指两次故障之间的平均时间。MTTF通常用于不可修复的系统，而MTBF用于可修复的系统。这两个指标对于可靠性计算都很重要，因为可让深入了解系统或组件故障的频率和可能性。

通过了解这些指标，企业可更好地预测维护需求、计划更换，并提高整体系统可靠性。计算MTTF和MTBF需要收集有关故障事件的数据，并使用统计方法来分别计算平均无故障时间和平均故障间隔时间。

如何提高可靠性

企业可以采取一些措施来提高服务可靠性：

制定例行维护计划，使系统保持最新和现代化。
实现系统冗余，防止组件故障导致进程停止。
在升级或进行系统变更时进行全面的质量控制和测试，以便团队可以在问题进入生产环境之前予以纠正。
要了解系统的可靠性和性能，可大规模利用全面的数据收集和分析方法。
改善事件通信，缩短响应和恢复时间。

什么是可用性？

可用性是系统或组件正常运行且可执行其功能的时间（即正常运行时间）百分比。

例如，大型线上零售商必须全天候保持站点可用性以满足客户需求，否则将面临市场份额被竞争对手抢占的风险。可用性考虑了各种条件，例如用户的互联网速度和高峰流量时间。

可用性的定义

可用性是指系统或组件在给定时间运行且可用的概率。它衡量系统或组件在需要时执行其预期功能的能力。

可用性通常使用以下公式计算：可用性 = (MTBF / (MTBF + MTTR))，其中MTTR是指平均修复时间。此公式清楚地解释了系统预计运行且可供使用的频率。高可用性对于需要持续运行的系统（如在线服务和关键基础架构）至关重要。通过重点关注MTBF和MTTR，企业可提高系统的可用性并满足用户的期望。

如何衡量可用性

可用性是一个以百分比衡量的指标。它是总耗用时间减去总停机时间除以总耗用时间：

可用性百分比 =（总耗用时间 - 停机时间）/总耗用时间

例如，如果一个在线零售网站因流量过载而每天停机三小时，其可用性评分为87.5%。大型国际零售商的这一标准可能接近99.5%，这使该在线零售商有很大的改进余地。

如何提高可用性

公司可以通过几种方式提高可用性：

实施主动式标准维护计划，确保高可用性。
使用故障转移机制增加系统冗余。
作为事件管理的一部分，创建快速修复流程。

特别是，主动式维护可以帮助企业获得更高的可用性和服务可靠性。进行可靠性、可用性和可维护性 (RAM) 研究可以提供有关维护工作重点的重要洞察信息。

可靠性与可用性

可靠性和可用性经常被误认为是同一回事。实际上，它们不仅不同，而且并不总是一致的。

即使是公司衡量它们的标准也可能有所不同，具体取决于系统及其功能。为了准确了解任何业务系统，应该分别分析可靠性与可用性指标。

可靠性

用于衡量系统是否在规定的特定时间交付了正确的输出，例如，在正确的日期将工资款项转入正确的帐户。

可用性

用于衡量系统的正常运行时间，例如，在必要的保育期内为早产儿提供不间断的氧气监测。

不同之处

在考虑如何使用可靠性与可用性指标来提高性能时，它们之间的差异变得更加明显。可靠性旨在最大限度地减少系统故障和停机时间，而可用性旨在最大限度地延长运行时间。

衡量杂货店自助结账系统的服务可靠性可能涉及分析客户需要店员协助才能完成交易的频率。衡量可用性可能涉及检查客户是否尝试过自助结账。

相似之处

可靠性和可用性相辅相成。富有竞争力的企业会努力改善这两个指标以获得最佳结果。例如，如果系统的可用性较高但经常出现可靠性故障，那么无论解决问题的速度有多快，都不太可能满足客户的需求。

改善这两个领域通常需要相似的方法，例如进行例行维护、增加冗余、应急计划和测试。

影响可靠性和可用性的因素

有几个因素会影响系统的可靠性和可用性：

环境这可能包括物联网组件（如暴露在恶劣天气下的压力表），或周期性的用户模式（如零售网站在特定日期的高流量）。将均值和标准偏差应用于各种参数，以评估故障概率并增强安全系数方法。
组件质量示例包括第三方集成或硬件。在理解计算结果的可变性和结构分析中的故障概率方面，标准偏差的重要性怎么强调都不为过。
运营这可能包括检查和维护的频率或对现代化软件的投资。

企业可以通过确立标准的环境阈值和增加冗余、要求组件质量符合ISO标准或实施检查、测试和维护系统各个方面的程序来提高整体服务的可靠性和可用性。