默认情况下,用户可以通过Prometheus的Web界面查看这些告警规则以及告警的触发状态。...group 下.每个 group 中我们可以定义多个告警规则(rule).一条告警规则主要由以下几部分组成:
alert: 告警规则的名称
expr: 基于 PromQL 表达式告警触发条件,用于计算是否有时间序列满足该条件...比如,一个机房内运行着 100 台物理机,当这个机房的网络出现问题,很有可能全部机器都不能正常监控了,那么如果每个机器网络不可达都发送消息,那么我们可能 会同时收到 100 条短信,那这个时候就不是报警短信了...2.1.3 沉默
沉默就是在特定的时间内不要发送警报信息,比如我们公司就设置了 23 点-08 点不发送任何告警信息,因为我们公司的业务是从 9 点-20 点才会有人用.
2.2, 安装部署
docker..., route 告警路由
根据标签匹配,确定当前告警应该如何处理;我们可以把路由想成一个倒立的数,每个警报都从树的根(基本路由或基本节点)进入.除了基本节点意外,每个路由都有匹配的标准,这些标准应该匹配所有的警报