前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >Kubernetes(k8s)-集群监控(Prometheus)

Kubernetes(k8s)-集群监控(Prometheus)

作者头像
运维小路
发布2025-03-24 14:30:03
发布2025-03-24 14:30:03
17500
代码可运行
举报
文章被收录于专栏:运维小路运维小路
运行总次数:0
代码可运行

作者介绍:简历上没有一个精通的运维工程师。下面的思维导图也是预计更新的内容和当前进度(不定时更新)。

我们上一章介绍了Docker基本情况,目前在规模较大的容器集群基本都是Kubernetes,但是Kubernetes涉及的东西和概念确实是太多了,而且随着版本迭代功能在还增加,笔者有些功能也确实没用过,所以只能按照我自己的理解来讲解。

我们在讲解kubectl的命令的时候讲过一个参数top,可以查看我们集群的监控信息,但是这个命令默认无法使用,因为还没有安装监控组件。虽然这个Prometheus组件部署以后这个指令还是不可用。但是我们可以通过这个Prometheus监控来看到这些资源使用情况。

代码语言:javascript
代码运行次数:0
运行
复制
[root@master01 ]# kubectl top node
error: Metrics API not available
[root@master01 ]# 

我们部署任何一个服务,他都有可能出现问题,所以我们不仅需要在架构上保证他的高可用,同时也需要及时监控他的异常,避免出现问题而未及时发现,造成更大的异常从而触发业务故障。

在互联网早期的监控三件套:Nagios、Zabbix和Cacti ,到目前为止还有用的估计也就Zabbix。但是这个监控三件套都是传统监控项目,对目前的容器监控几乎没有对应的规则来适应。所以我们这里监控都不是以上几种。

目前在Kubernetes集群的监控里面Prometheus已经是事实上的标准,所以我们的的监控也是基于他来讲解的。

Prometheus 是一款开源的云原生监控与警报工具,由 SoundCloud 团队开发并于 2016 年加入 CNCF(云原生计算基金会),现已成为 Kubernetes 生态中监控领域的 事实标准。其设计专为动态、分布式环境(如容器化、微服务架构)优化,具备高效的数据采集、存储、查询及告警能力。

一、核心特性

  1. 多维数据模型
    • 基于 指标名称(Metric Name)键值对标签(Labels) 标识时间序列数据,支持灵活的查询和聚合。
    • 示例:http_requests_total{method="POST", status="200"} 表示 HTTP POST 请求且状态码为 200 的计数器。
  2. 高效的查询语言(PromQL)
    • 提供强大的实时查询功能,支持聚合、切片、预测等操作。
    • 示例:统计每秒请求量:rate(http_requests_total[5m])
  3. 拉取(Pull)模型
    • Prometheus 主动从目标服务 拉取指标数据(通过 HTTP 协议),适合动态环境(如 Kubernetes)。
    • 支持通过 Pushgateway 接收短生命周期任务的推送(Push)数据。
  4. 服务发现
    • 自动发现监控目标,支持 Kubernetes、Consul、AWS 等平台,减少手动配置。
  5. 可视化与告警
    • 内置 Web UI 和 Grafana 集成,提供仪表盘。
    • 通过 Alertmanager 实现告警的分组、去重、静默和通知(邮件、Slack 等)。
  6. 存储与扩展性
    • 本地存储采用时间序列数据库(TSDB),支持高效压缩。
    • 可通过远程存储(如 Thanos、Cortex)扩展长期存储和高可用性。

二、架构组件

  1. Prometheus Server
    • 核心服务,负责数据采集、存储、查询和告警规则评估。
    • 从 Exporters 或应用程序暴露的 /metrics 端点拉取数据。
  2. Exporters
    • 将第三方系统(如 MySQL、Node.js、硬件)的指标转换为 Prometheus 格式。
    • 常用 Exporters:Node Exporter(主机监控)、Blackbox Exporter(网络探测)、JMX Exporter(Java 应用)。
  3. Pushgateway
    • 临时存储短暂任务(如批处理作业)推送的指标数据,供 Prometheus 拉取。
  4. Alertmanager
    • 处理 Prometheus 触发的告警,进行分组、抑制、静默,并发送通知。
  5. Client Libraries
    • 提供多种语言(Go、Java、Python 等)的 SDK,用于在应用中直接暴露指标。

三、数据模型

  • 指标(Metric):由名称和标签唯一标识的时间序列,例如 cpu_usage{instance="server1", job="web"}
  • 样本(Sample):时间戳 + 指标值,如 (1625097600, 75.3)
  • 类型
    • Counter:单调递增的计数器(如请求总数)。
    • Gauge:瞬时值(如内存使用量)。
    • HistogramSummary:统计样本分布(如响应时间分位数)。

简单理解Prometheus通过记录各种监控数据在不同时间段的值,然后通过这些值,我们可以获得集群的运行状态,然后设置对应的阈值进行报警。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 运维小路 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、核心特性
  • 二、架构组件
  • 三、数据模型
  • 简单理解Prometheus通过记录各种监控数据在不同时间段的值,然后通过这些值,我们可以获得集群的运行状态,然后设置对应的阈值进行报警。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档