Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >08 Mar 2022 用于监控pod的alerts

08 Mar 2022 用于监控pod的alerts

作者头像
俊采
发布于 2023-10-17 02:29:04
发布于 2023-10-17 02:29:04
43200
代码可运行
举报
文章被收录于专栏:LEo的网络日志LEo的网络日志
运行总次数:0
代码可运行

最近需要使用prometheus监控kubernetes环境下的一些pod状态,定义了一些alert,分享一下:

  • PodRestartingTooMuch:pod重启次数过多,重启次数大于10
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
sum(kube_pod_container_status_restarts_total{namespace="your_service_ns"}) by (cluster, namespace, pod, container) > 10
  • PodFrequentlyRestarting:pod频繁重启,1分钟之内重启了3次
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
increase(kube_pod_container_status_restarts_total{namespace="your_service_ns"}[1m]) > 3
  • PodContainerTerminated:pod出于退出状态,比如因为OOM、错误退出和不能正常运行
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
kube_pod_container_status_terminated_reason{reason=~"OOMKilled|Error|ContainerCannotRun", namespace="your_service_ns"} > 0
  • PodNotReady:pod未处于ready状态,15分钟之内pod没有ready
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
min_over_time(sum by (cluster, namespace, pod, container) (kube_pod_status_phase{phase=~"Pending|Unknown|Failed",namespace="your_service_ns"})[15m:1m]) > 0
  • DeploymentReplicasMismatch:deployment未按预期replicas运行
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
kube_deployment_status_replicas_available{namespace="your_service_ns"} != kube_deployment_spec_replicas{namespace="your_service_ns"}
  • StatefulSetReplicasMismatch:statefulset未按预期replicas运行
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
kube_statefulset_status_replicas_available{namespace="your_service_ns"} != kube_statefulset_replicas{namespace="your_service_ns"}

LEo at 00:12

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Kube-Prometheus集群安装教程
更多个性化告警规则配置可参考阿里云告警配置,这里插入友方超链接会被屏蔽,有需要的小伙伴可以在文章底下私信我。
dufu
2024/07/23
1310
​搭建监控系统
Prometheus 是一套开源的系统监控、报警、时间序列数据库的组合,最初有 SoundCloud 开发的,后来随着越来越多公司使用,于是便独立成开源项目。Alertmanager 主要用于接收 Prometheus 发送的告警信息,它支持丰富的告警通知渠道,例如邮件、微信、钉钉、Slack 等常用沟通工具,而且很容易做到告警信息进行去重,降噪,分组等,是一款很好用的告警通知系统。
小陈运维
2022/12/20
4.1K0
​搭建监控系统
生气!能省 50% 成本,为啥你不早点让我用 HPA
原文 https://www.chenshaowen.com/blog/how-to-set-hpa-for-kubernetes-app.html
陈少文
2023/06/09
4820
生气!能省 50% 成本,为啥你不早点让我用 HPA
Kubernetes之Pod, Replicaset, Deployment, Label, Service
Pod是一组紧密关联的容器集合,它们共享PID、IPC、Network和UTS namespace,是Kubernetes调度的基本单位。Pod的设计理念是支持多个容器在一个Pod中共享网络和文件系统,可以通过进程间通信和文件共享这种简单高效的方式组合完成服务.
jwangkun
2021/12/23
3000
Kubernetes之Pod、 Replicaset、 Service、Deployment和Label
deploy控制RS,RS控制Pod,这一整套,向外提供稳定可靠的Service。
菲宇
2019/06/12
1.1K0
Kubernetes之Pod、 Replicaset、 Service、Deployment和Label
Prometheus Operator 常用指标
Prometheus Operator 安装完成后会有很多默认的监控指标,一不注意就大量的报警产生,所以我们非常有必要了解下这些常用的监控指标,有部分指标很有可能对于我们自己的业务可有可无,所以可以适当的进行修改,这里我们就来对常用的几个指标进行简单的说明。
我是阳明
2020/07/24
8K0
Prometheus Operator 常用指标
开箱即用的 Prometheus 告警规则集
在配置系统监控的时候,是不是即使绞尽脑汁监控的也还是不够全面,或者不知如何获取想要的指标。
CNCF
2021/05/27
3K0
开箱即用的 Prometheus 告警规则集
云原生|Hi,Pod,你被控制了!
了解了Pod的基础知识之后,对于实验来说可以通过kubectl run或者apply一个yaml来创建Pod,但是对于生产环境中构建一个CNF来说,有些Pod需要多个副本,有的运行完就不再需要了,有些需要定期执行某些任务,有些需要在不同的node上只创建一个Pod,这样通过一个一个的创建Pod是不仅费时费力且不便于维护,因此需要一个概念来根据不同需求创建对应的Pod并确保在任何时候都有对应要求的副本在运行,这个概念便是Pod的控制器。
琉璃康康
2023/11/27
2050
云原生|Hi,Pod,你被控制了!
干货满满,从一个案例学习k8s基本架构
Kubernetes(简称K8S,K和S之间有8个字母)是用于自动部署,扩展和管理容器化应用程序的开源系统。它将组成应用程序的容器组合成逻辑单元,以便于管理和服务发现。Kubernetes 源自Google15年的生产环境的运维经验,同时凝聚了社区的最佳创意和实践。
Java程序猿阿谷
2021/03/02
9930
干货满满,从一个案例学习k8s基本架构
Kubernetes 生产环境管理经验
有时 删除pv/pvc时会有问题,这个使用得加2个命令参数--grace-period=0 --force
kubernetes中文社区
2019/06/24
3.3K0
Kubernetes相关组件监控指标采集
线上部署了kuberneter集群环境,需要在zabbix上对相关组件运行情况进行监控。kuberneter组件监控指标分为固定指标数据采集和动态指标数据采集。其中,固定指标数据在终端命令行可以通过metrics接口获取, 在zabbix里"自动发现";动态指标数据通过python脚本获获取,并返回JSON 字符串格式,在zabbix里添加模板或配置主机的自动发现策略。
洗尽了浮华
2019/05/25
2.6K0
kubernetes监控-prometheus(十六)
通过各种exporter采集不同维度的监控指标,并通过Prometheus支持的数据格式暴露出来,Prometheus定期pull数据并用Grafana展示,异常情况使用AlertManager告警。
yuezhimi
2020/09/30
8240
kubernetes监控-prometheus(十六)
Grafana Prometheus Altermanager
Prometheus 是一套开源的系统监控、报警、时间序列数据库的组合,最初有 SoundCloud 开发的,后来随着越来越多公司使用,于是便独立成开源项目。Alertmanager 主要用于接收 Prometheus 发送的告警信息,它支持丰富的告警通知渠道,例如邮件、微信、钉钉、Slack 等常用沟通工具,而且很容易做到告警信息进行去重,降噪,分组等,是一款很好用的告警通知系统。
小陈运维
2022/11/12
9920
Kubernetes全栈架构师(资源调度上)--学习笔记
Replication Controller(复制控制器,RC)和ReplicaSet(复制集,RS)是两种简单部署Pod的方式。在生产环境中,主要使用更高级的Deployment等方式进行Pod的管理和部署。
郑子铭
2021/08/01
6910
Kubernetes全栈架构师(资源调度上)--学习笔记
4-Kubernetes入门基础之Pod介绍
前面简单的介绍了Kubernetes基础知识以及单节点和高可以用集群的搭建, 本章将从实操来介绍Kubernetes概念和术语以及控制器,便于各位读者进行学习;
全栈工程师修炼指南
2022/09/29
9920
4-Kubernetes入门基础之Pod介绍
研发工程师玩转Kubernetes——利用Pod反亲和性控制一个Node上只能有一个Pod
在《研发工程师玩转Kubernetes——使用污点(taint)驱逐Pod》、《研发工程师玩转Kubernetes——使用Node特性定向调度Pod》和《研发工程师玩转Kubernetes——Node亲和性requiredDuringSchedulingIgnoredDuringExecution几种边界实验》中,我们介绍了Node的亲和性。后面几节我们将介绍Pod的亲和性和反亲和性。 Pod的亲和性和反亲和性通过Pod的标签来识别,而不是通过Node的标签。比如标题中“利用Pod反亲和性控制一个Node上只能有一个Pod”可以翻译成:只能将Pod调度到不存在该Pod标签的Node上。
方亮
2023/07/31
4500
生产prometheus-operator 监控二进制kubernetes
`operator`是由CoreOS公司开发的,用来扩展kubernetes APi ,特定的应用程序控制器,它用来创建,配置和管理复杂的有状态应用,例如数据库,缓存和监控系统。`Operator`基于Kubernetes的资源和控制器概念之上构建,但同时又包含了应用程序特定的一些专业知识,比如创建一个数据库的`Operator`,则必须对创建的数据库和各种运维方式非常了解,创建`operator`的关键是 `CRD(CustomResourceDefinition/自定义资源定义)`的设计。
张琳兮
2020/09/23
8670
如何在Kubernetes中使用Init Container
Init Container 是一种特殊容器,顾名思义是用来做初始化工作的容器,可以是一个或者多个,如果有多个的话,这些容器会按定义的顺序依次执行,只有所有的Init Container执行完后,主容器才会被启动。
用户1107783
2023/09/22
7130
如何在Kubernetes中使用Init Container
Kubernetes集群监控-详解Prometheus高效监控
Prometheus 最初是 SoundCloud 构建的开源系统监控和报警工具,是一个独立的开源项目,于 2016 年加入了 CNCF 基金会,作为继 Kubernetes 之后的第二个托管项目。Prometheus 相比于其他传统监控工具主要有以下几个特点:
王先森sec
2023/11/11
2.1K0
Kubernetes集群监控-详解Prometheus高效监控
K8s集群部署篇–Kube-DNS(三)
1、部署Cluster DNS 1.1 原理:(看看吧,摘抄网上的↓) 通过前面对Kubernetes的讨论(Kubernetes核心概念总结).我们已经知道,每个Kubernetes service都绑定了一个虚拟IP 地址(ClusterIP),而且Kubernetes最初使用向pod中注入环境变量的方式实现服务发现,但这会带来环境变量泛滥等问题。故需要增加集群DNS服务为每个service映射一个域名。到Kubernetes v1.2版本时,DNS作为一个系统可选插件集成到Kubernetes集群中。
老七Linux
2018/05/31
2.4K0
推荐阅读
相关推荐
Kube-Prometheus集群安装教程
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验