开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

普罗米修斯:如何用probe_http_duration_seconds从黑盒导出器创建一个SLI/SLO？

普罗米修斯（Prometheus）是一款开源的监控和警报系统，用于记录和分析应用程序的时间序列数据。它支持通过黑盒导出器（Blackbox Exporter）来监控网络服务的可用性和性能。

要使用probe_http_duration_seconds从黑盒导出器创建一个服务级别指标（Service Level Indicator，SLI）和服务级别目标（Service Level Objective，SLO），可以按照以下步骤进行操作：

配置黑盒导出器：首先，需要在黑盒导出器的配置文件中定义一个HTTP探测任务，用于监控目标服务的响应时间。配置文件通常是一个YAML文件，可以指定目标URL、请求方法、期望的响应码等信息。具体的配置示例可以参考黑盒导出器的官方文档。
启动黑盒导出器：根据黑盒导出器的安装方式，启动导出器进程，并加载配置文件。导出器将会周期性地执行配置文件中定义的HTTP探测任务，并将结果暴露给普罗米修斯。
配置普罗米修斯：在普罗米修斯的配置文件中，添加一个用于抓取黑盒导出器暴露的指标数据的作业。可以使用prometheus.yml文件进行配置，指定目标地址、抓取间隔等信息。
重启普罗米修斯：根据普罗米修斯的安装方式，重启普罗米修斯进程，使其加载新的配置文件。
查询和可视化：使用普罗米修斯提供的查询语言PromQL，可以查询和分析从黑盒导出器获取的指标数据。可以创建自定义的查询语句，计算SLI和SLO，并使用普罗米修斯的可视化工具（如Grafana）进行展示和监控。

在腾讯云中，可以使用腾讯云监控服务（Cloud Monitor）来实现类似的监控和警报功能。腾讯云监控提供了丰富的指标和报警策略，可以监控云上资源的性能和可用性。具体的产品介绍和文档可以参考腾讯云监控的官方网站：https://cloud.tencent.com/product/monitoring

请注意，以上答案仅供参考，具体的实施步骤和推荐的产品可能因实际情况而异。在实际应用中，建议根据具体需求和环境选择合适的工具和服务。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

指导思想：服务质量目标

之后，任何一个符合标准定义模板的服务就可以不需要再次自己定义 SLI 了，例如：汇总间隔：每 1 分钟汇总一次汇总范围：集群中的全部任务度量频率：每 10 秒一次包含哪些请求：从黑盒监控任务发来的...HTTP GET 请求数据如何获取：通过监控系统获取服务器端信息得到数据访问延迟：从收到请求到最后一个字节被发出 2、目标 SLO 指的是服务的某个 SLI 的目标值或目标范围。...有目标才有执行的动力在实际的实践过程中，应该从用户真正所关心的方面入手，可以先想出想要的目标，然后再反向推导出目标对应的具体的指标。...因此错误预算本质上也是一个 SLO ，是用来保证达到其它 SLO 的 SLO 。其对应的 SLI 可以是：达不到 SLO 的现象的发生频率。...从可行性和风险性方面来考虑目标的选择的话，书中给了我们一些建议：不要仅以目前的状态为基础选择目标保持简单避免绝对值 SLO 越少越好不要追求完美一个好的 SLO 除了对开发团队来说是有效的、可行的激励机制

7931 0

「译文」使用 Prometheus 和 Grafana 实现 SLO

本文的其余部分将重点介绍创建 Prometheus 规则以根据特定指标 (SLI) 的阈值捕获“SLO 超时”。...定义 SLO 目标和指标阈值让我们定义一个简单的目标： •SLO : 99%，来自以下内容： •SLI： •错误率低于 1% •90 百分位数（90th percentile）的请求的延迟低于 200ms...PromQL[15] 是一个非常强大的语言，但截至 2018 年 10 月，它还不支持嵌套子查询的范围（详见普罗米修斯问题 1227[16]），我们需要一个功能，能够计算time ratio的error...作为如何执行此操作的示例，以下记录规则集是从我们的 bitnami-labs/kubernetes-grafana-dashboards[18] 存储库构建的，以捕获上述内容time ratio： •创建一个新...:pctl90rate5m，为简单起见未在上面显示），最后创建一个布尔指标来记录我们的 SLO 违例： record: kubernetes::job:slo_kube_api_ok expr: |

1.4K2 0

从日志和指标构建更好的SLO

因此，SLI 是服务级别的度量（如延迟、正常运行时间等），它是好事件与总事件的比率，范围在 0% 到 100% 之间。...Elastic 允许您根据日志消息中的特定字段创建 SLO，这些字段不必是指标。一个简单的例子是一个多层应用程序，其中包括一个 Web 服务器层（nginx）、一个处理层和一个数据库层。...任何小于 500 的状态码都确保服务正常运行，任何错误（如 404）都是用户或客户端错误，而非服务器错误。...我们可以创建一个 SLO，而不是创建警报，查询如下：我们选择使用事件次数作为预算方法，以保持简单。一旦定义，我们可以看到我们的 SLO 在七天时间框架内的表现。...您可以直接从应用程序（通过 OTel 库）和收集器发送 OpenTelemetry 数据。我们在 K8S 集群（AWS EKS）上启动了 OpenTelemetry 演示，并开启了购物车服务功能标志。

1972 1

SLA、SLO与SLI的区别

为内部服务实施 SLO 可确保整个基础设施以最佳水平运行。这有助于提高整体组织效率。不要创建不必要的 SLO：创建过多的 SLO 可能适得其反。专注于服务的关键方面，并建立一组可管理的目标。...SLI 最佳实践克服与 SLI 相关的挑战涉及遵循最佳实践，以提高其准确性和相关性：创建精确且可衡量的 SLI：SLI 应精心设计，反映对用户最重要的服务的特定方面。...集体影响集成后，SLA、SLO 和 SLI 形成一个全面的服务卓越框架。SLA 提供合同基础，SLO 设定性能目标，SLI 提供衡量成功的有形指标。...在这里，我们深入探讨了一个概述 SLI、SLO 和 SLA 的示例，并使用了实际场景。 SLI：服务级别指标 SLI 用作衡量 API 性能和可靠性的指标。...使用智能重试——根据检查运行的频率，从我们提供的三个重试策略中选择一个。集成到您的现有工作流 Checkly 使您能够监控您的 SLA，方法是让您密切监控服务并检查它们在全球 20 多个位置的性能。

4371 0

通过Prometheus来做SLISLO监控展示

什么是SLI/SLO SLI，全名Service Level Indicator，是服务等级指标的简称，它是衡定系统稳定性的指标。...如何选择SLI 在系统中，常见的指标有很多种，比如：系统层面：CPU使用率、内存使用率、磁盘使用率等应用服务器层面：端口存活状态、JVM的状态等应用运行层面：状态码、时延、QPS等中间件层面：QPS...Operator主要是通过SLO来查看和创建新的指标。...然后就需要创建对应的服务指标了，如下所示创建一个示例。...目前业界有两种衡量系统可用性的方式，一个是时间维度，一个是请求维度。时间维度就是从故障出发对系统的稳定性进行评估。请求维度是从成功请求占比的角度出发，对系统稳定性进行评估。

1.7K2 0

在大规模 Kubernetes 集群上实现高 SLO 的方法

有些人可能会对 SLI/SLO/SLA 有困惑，可以先来看下三者的关系： SLI 定义一个指标，来描述一个服务有多好算达到好的标准。比如 Pod 在 1min 内交付。...我们通常从迟延、可用性、吞吐率及成功率这些角度来制定 SLI。 SLO 定义了一个小目标，来衡量一个 SLI 指标在一段时间内达到好的标准的比例。比如说，99% 的 Pod 在 1min 内交付。...当然创建的时间需要把 PostStartHook 执行时间排除。对于 Pod 的删除，成功的标准为：在规定时间内，Pod 从 ETCD 内删除。...自顶向下而看，顶层组件主要面向各种指标数据，如集群健康状态、pod 创建、删除、升级成功率，残留 pods 数量、不健康节点数量等指标。其中 Display Board 就是我们常说的监控大盘。...Pod 创建/升级失败，用户可以通过重试来解决，但 pod 删除失败，虽然有着 K8s 面向终态的理念，组件会不断重试，但终究也会存在脏数据，如 pod 在 etcd 上删除，但是节点上还残留着脏数据。

1.3K3 0

使用Prometheus和Linkerd建立Kubernetes服务水平目标（SLO）的指南

/ 有了服务网格，SLO就容易多了在本教程中，你将学习如何使用Prometheus（一个开源时间序列数据库）和Linkerd（一个开源超轻服务网格）在Kubernetes上轻松创建服务运行状况SLO。...但对于常见的服务运行状况度量，如成功率和延迟，至少可以通过提取服务网格数据轻松构建服务运行状况SLO。）让我们用一个演示用例来动手吧。...这是我们的SLO。我们可以将这个语句分解为三个基本组件：一个服务水平指示器（SLI），这是我们的度量；目标，也就是我们的门槛；还有时间窗口。...在这种情况下： SLI：服务成功率目标：80% 时间窗口：7天这个SLO意味着在7天滚动周期内20%的请求可能会失败，而我们并不认为这是一个问题。...如果没有这些部分，你的SLO将只是一个空数字。在Buoyant，我们是SLO的巨大信徒，尤其是Kubernetes。这也是我们创建Dive的部分原因，它允许你通过点击一个按钮来设置SLO。

9582 0

从指标到洞察力的普罗米修斯

从官方文档参考到的内容如下所示：图片可以看到普罗米修斯在多维度指标监控告警等方面拥有强大的支持，下面就进入正题，从普罗米修斯的架构到入门案例来看下如何使用普罗米修斯进行服务指标监控。...对于 Web 服务器，它可能是请求时间，对于数据库，它可能是活动连接数或活动查询数等。Collector（收集器）收集器是代表一组指标的导出器的一部分。...Exporter（导出器）导出器是与您要从中获取指标的应用程序一起运行的二进制文件。导出器公开 普罗米修斯 指标，通常是将以非 普罗米修斯 格式公开的指标转换为 普罗米修斯 支持的格式。...更改任何标签值，包括添加或删除标签，都将创建一个新的时间序列。...入门示例普罗米修的安装这里演示环境为Centos7系统下载登录服务器后，直接输入如下命令,从官方仓库下载压缩文件到本地，并解压。

1.3K2 0

从指标到洞察力的普罗米修斯监控

下面就进入正题，从普罗米修斯的架构到入门案例来看下如何使用普罗米修斯进行服务指标监控。...对于 Web 服务器，它可能是请求时间，对于数据库，它可能是活动连接数或活动查询数等。 Collector（收集器）收集器是代表一组指标的导出器的一部分。...Exporter（导出器）导出器是与您要从中获取指标的应用程序一起运行的二进制文件。导出器公开 普罗米修斯 指标，通常是将以非 普罗米修斯 格式公开的指标转换为 普罗米修斯 支持的格式。...更改任何标签值，包括添加或删除标签，都将创建一个新的时间序列。...下载登录服务器后，直接输入如下命令,从官方仓库下载压缩文件到本地，并解压。

1.7K3 0

如何构建万级Kubernetes集群场景下的etcd监控平台？

我们在每个地区部署了 Prometheus-Operator, 针对不同业务类型创建了不同的 Prometheus 实例，每新增一个 Kubernetes/etcd 集群的时候，我们会通过 API 创建...下面以 etcd 集群的创建和分配为例，为你简单介绍下 etcd 平台的原理：通过 kubectl 或者可视化 Web 系统创建 etcd 集群，本质上是提交一个 EtcdCluster 自定义资源...这里，我们支持多种评优策略，比如按最小连接数，它会通过 Kubernetes 的 API 从 Prometheus 中获取集群的连接数，优先将最小连接数的集群，返回给业务使用，也就是刚刚创建的集群，马上就会被分配出去...面向 SLO建设数据运营体系引入SLO 如何抽象一个SLO：SLO 即服务水平目标，主要面向内部，用于衡量服务质量。确定 SLO 前，首先要确定 SLI（服务水平指标）。...节点磁盘IO在一定程度上会体现在读操作的错误率和延时，对 SLI 进一步分层为 etcd 可用性和读写可用性。结合 Prometheus 实时计算能力，etcd SLO 计算公式可初步确定。

1.2K5 0

《Google SRE》读后感

前三个是对服务进行监控，后一个是对服务器进行监控，当然也可以包含容器的状态监控，比如线程池、GC等。...反思 and 总结这两个优点对于SRE很是重要，反思使得SRE从失败中学习教训，总结使SRE从时间中获得经验，个人和团队需要学习和践行这种精神，但是对事不对人。...为了解决风险和变化的矛盾，google提出了SLI-->SLO-->SLA的机制。...SLI——服务质量指标，如：延时、吞吐量、错误率、可用性等； SLO——服务质量目标，服务的某个SLI的目标值，或者目标范围。...比如：SLI<=目标值，min=； SLA——服务质量协议（Agreement），服务（SRE）和用户（开发、产品）之间的一个明确的、或者不明确的协议，描述了在达到或者没有达到SLO之后的后果。

2.5K4 0

Opentelemetry——Observability Primer

可观测性是指我们可以从外部，在不了解其内部工作原理的情况下，可以向系统提出（诊断）问题（的特性）。...遥测（数据）是指从系统发出来的行为数据。数据的形式可以是Traces、Metrics和Logs。...一个好的 SLI 是从用户的角度来衡量您的服务。一个SLI示例是网页加载的速度。...SLO，即服务水平目标，是向组织/其他团队传达可靠性的方式。这是通过将一个或多个 SLI 附加到业务价值上来实现的。...分布式跟踪（通常称为Trace）记录了在多服务器架构上，如微服务和无服务器应用程序，（由应用程序或最终用户发出的）请求传播的路径。

910 0

腾讯TencentOS 十年云原生的迭代演进之路

VMF Scheduler VMF (VM First) 调度器，是 TencentOS 针对安全容器场景(和虚拟机场景)专门设计的内核调度器解决方案(重新实现了一个全新的内核调度器)。...SLI (Service Level Indicator) 是用于观测 Service level 的指标，比如 Latency、吞吐、错误率等； SLO 是基于 SLI 指定的目标；从云原生的角度看...，云原生 SLI 可以(狭义的)理解为针对容器的可用于观测 Service level 的指标，即容器视角的的一些关键指标，这也是定义容器 SLO 的基础。...TencentOS 设计了云原生 SLI，通过在内核中实时的搜集和计算(低开销方式)，提供充分的、专业的、不同维度的 SLI 指标，供上层( K8s )使用，用户可基于此定个相应的 SLO。...总体效果提供容器级别级别的细粒度的 SLI 指标 K8s 或其他模块(如 Quality Monitor )可以基于相关指标做精细化运营 Cgroupfs 云原生场景中，基于 Namespace、Cgroup

1.8K2 0

好大夫在线在解构服务风险治理方面的实践

经过反复的对比，选择从延迟风险入手，也是为了达到公司预期“全站秒开”的大目标。借助 MDD(Metrics-Driven Development) 指导思想，确定 SLI，设定 SLO。...并围绕 SLO 去识别风险，解决风险。故此选择 SLI：接口延迟 -p99。并设定了 SLO：后端服务 p99<100ms，前端服务 p99<600ms。...由于网络开销成本较高，另外一个风险就是循环依赖。由于我们走的 http 协议，网络成本比较高，如果一次请求 50ms，循环 10 次就是 500ms。从而变成了大杀器。...第二大忌：中间件 100% 可用很多开发工程师对中间件的认知停留黑盒层面，要么盲目地认为中间件 100% 高可用，要么认为中间件异常和我无关。...提升第三方依赖高可用另外一个手段就是冗余备份，支持灾备切换。这部分只要意识到，做好几个关键指标的监控如延迟和成功率，基本上都能避免。

3732 0

浅谈SDN架构下的运维

而SDN是从全城动态交通状况，根据每辆车的需求（如时间最短、费用最省、不走高速等）来安排调度每辆车如何到达目的地，从全局视角调度，也保证了每辆车的最优线路。...SDN控制器提供单点控制，其中信息安全策略和规则可以在整个组织中分发。此外，SDN控制器还提供了一个附加点，可以放置安全策略来解决特定的软件和应用程序漏洞。...在介绍告警之前谈一下运维人员需要关心的SLO和SLI,其次会简要分析监控，分析，变更和排障。运维服务质量设计在传统的网络运维中，网络工程师们都关注SLA,但作为运维的人都会关注SLO和SLI。...SLI是经过仔细定义的测量指标，它根据不同系统特点确定要测量什么，SLI的确定是一个非常复杂的过程。...当需要对外提供服务时，SLA是非常重要的一个服务质量信号，需要产品和法务部门的同时介入。本段参考深度剖析什么是 SLI、SLO和SLA？

1.3K2 0

03 . Prometheus监控容器和HTTP探针应用及服务发现

value是一个float格式的数据，timestamp的类型为int64（从1970-01-01 00:00:00以来的毫秒数），timestamp为可选默认为当前时间。...CAdvisor是一个简单易用的工具，相比于使用Docker命令行工具，用户不用再登录到服务器中即可以可视化图表的形式查看主机上所有容器的运行状态。...而从完整的监控逻辑的角度，除了大量的应用白盒监控以外，还应该添加适当的黑盒监控。...一个完善的监控目标是要能够从白盒的角度发现潜在问题，能够在黑盒的角度快速发现已经发生的问题。 ?...（如http_2xx）定义一个采集任务，并且直接将任务的采集目标定义为我们需要探测的站点，在采集样本数据之前通过relabel_configs对采集任务进行动态配置

1.8K5 1

SRE最佳实践

正如为应用程序开发漂亮外观的工程师必须知道如何从数据存储中获取数据一样，SRE并不仅仅负责这些领域。整个团队一起工作以交付易于更新、管理和监视的产品。...为了计算误差预算，我们必须使用SLI方程: SLI = [Good events / Valid events] x 100 现在百分比用SLI表示，一旦您为每个SLI定义了目标，误差预算是剩下的，那就是您的服务水平目标...(SLO)，最多100。...服务水平指标(SLIs):对所提供的服务水平的某些方面仔细定义的定量度量，如吞吐量、延迟。它还包括: 用户可以直接测量和观察。这可以代表用户的体验。简单地说，讨论了您将要度量的具体内容。...服务水平目标:由SLI测量的服务水平的目标值或值的范围。它还包括: 从用户的角度定义服务应该如何执行(通过SLI度量)。简而言之，服务应该有多好?需要改进服务的阈值。

1.1K2 0

Prometheus监控学习笔记之全面学习Prometheus

而指标node_cpu所获取到的样本数据却不同，它是一个持续增大的值，因为其反应的是CPU的累积使用时间，从理论上讲只要系统不关机，这个值是会无限变大的。...4.1 Counter：只增不减的计数器 Counter是一个简单但有强大的工具，例如我们可以在应用程序中记录某些事件发生的次数，通过以时序的形式存储这些数据，我们可以轻松的了解该事件产生速率的变化。...而从完整的监控逻辑的角度，除了大量的应用白盒监控以外，还应该添加适当的黑盒监控。...一个完善的监控目标是要能够从白盒的角度发现潜在问题，能够在黑盒的角度快速发现已经发生的问题。 ?...probe_http_duration_seconds{phase="connect"} 0.055551141 probe_http_duration_seconds{phase="processing

2.9K4 1

网络探测：Blackbox Exporter

Blackbox Exporter 是 Prometheus 社区提供的官方黑盒监控解决方案,其允许用户通过: http\HTTPS\DNS\TCP\ICMP的方式对网络进行探测....对于具有多个值的标头，如果*至少一个*匹配，则失败。...#DNS解析时间,单位 s probe_dns_lookup_time_seconds 0.039431355 #探测从开始到结束的时间,单位 s,请求这个页面响应时间 probe_duration_seconds...probe_http_duration_seconds{phase="resolve"} 0.040037612 #响应时间 probe_http_duration_seconds{phase="tls...（如http_2xx）定义一个采集任务，并且直接将任务的采集目标定义为我们需要探测的站点。

2.6K3 0

Grafana 中文入门教程 | 构建你的第一个仪表盘

这个就是你真正监测的数据来源了，Prometheus-exporter 这个服务，会查询你的本地电脑的信息，比如内存还有多少、CPU 负载之类，然后将数据导出至普罗米修斯数据库。...在真实世界中，你的目的是监控你自己的服务，比如你的 Web 服务器，你的数据库之类。那么你就需要在你自己的服务器中把数据发送给普罗米修斯数据库。...我们在 docker-compose.yml 中设置的普罗米修斯服务器的名字就叫 prometheus，因此这里需要用前者。 ?...包括如何用 Prometheus 查询数据 普罗米修斯本身也是个非常大的话题，我们会在之后的博客中继续讨论。...这时候，用一个大屏幕展示一下，庆祝一下双十一又过了千亿吧 6. 总结这篇文章里我们从头到尾介绍了如何用 Grafana 生成仪表盘，如何配置和连接数据源，以及如何导入和创建一个仪表盘。

100.4K18 28

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭