[TOC]
Q: 什么是监控? 描述: 一般的将这类可操作的计算机系统归纳为以下四个特征;
1.告警: 掌握故障的发生时间并通知相应人员(监控的重要目标)。 2.调试: 通过相应人员后需要根据判断错误根源来解决问题。 3.趋势: 展示一段时间内系统相应指标的发生变化趋势(该特征影响架构设计和处理)。 4.管道: 监控系统的数据处理管道用作于定制采集。
Q: 监控采集数据存储量优化解决方案? 描述: 我们知道系统的数据监控采集必不可少都要处理或者存储采集到的数据,但是往往我们只需要针对某一事件的度量值进行存储,而其他值只是作为瞬间或者某一时间段内监控指标进行匹配对比报警,所以我们为了减少系统资源的消耗,采用以下四种方案来尽可能的减少数据存储量。
1.剖析: 在无法提供事件的完整上下文时,可以截取某一段有限时间内的上下文作为剖析对象。(主要用作计算调试) 2.跟踪: 并不是关注所有事件而是采集某项指标的事件。(主要用于某一个指标的异常分析) 3.日志: 它关注的是一组有限的事件并记录每个事件的一些上下文。(通常日志记录的事件记录并非采集式) 4.指标: 它在很大程度上忽略了上下文而是跟踪不同类型事件随时间的聚合。(严格限制指标数量采集特定指标的数据)
Q: 日志分类说明? 描述: 根据不同类型的日志有着不同的用处、耐用性和保留要求,大致分为以下四类。
1.事务日志: 关键业务记录需要永久保存,主要涉及金钱和面向用户的关键性功能。 2.请求日志: 例如HTTP请求和数据库请求主要用于业务的处理优化和访问趋势。 3.应用日志: 即应用进程本身的日志通常是人为处理,主要涉及启动信息、后台运行任务以及其他进程级别的日志。 4.调试日志: 在应用或者程序出现莫名其妙的的Bug开启所有其日志在可靠性和保留性要求较低。
描述: 下面列举出比较常用的开源监控系统Nagios ['negos']、Cacti 英 [ˈkæktaɪ]、Ganglia 英 [ˈgæŋglɪə]、Zabbix、Openfalcon、Prometheus
监控软件发展历史简述:
Round Robin Database
)。Nagios 描述: 它是一款免费的开源 IT 基础设施监控系统,基于CS架构。
WeiyiGeek.Nagios架构
Cacti
描述: 基于php/mysql/snmp及rrdtool
开发的网络流量监测图形分析工具
WeiyiGeek.Catic架构
Ganglia 描述: 用于监控数以千计的节点的基础性能和流量使用情况。
WeiyiGeek.Ganglia架构
Openfalcon
描述: OpenFalcon是一款企业级、高可用、可扩展的开源监控解决方案(企业使用较多)
。
WeiyiGeek.OpenFalcon
Zabbix
描述: Zabbix 是一个企业级的分布式开源监控方案,需要在被监控主机中安装Agent(个人、企业使用较多)
。
Web UI
界面上进行操作,主机监控添加方便。WeiyiGeek.Zabbix架构
Why use Prometheus? 描述: 这里不得不提到老生常谈的东西,人们使用机器方法演变/监控选型;
WeiyiGeek.基础环境
总结说明:
简介: Prometheus 是一个开源的云原生基于指标的监控系统以及告警系统,泛义上包括监控,告警,时序数据库(TSDB),各种指标收集器(Exporter)组成
。现在最常见的Kubernetes容器管理系统中,通常会搭配Prometheus进行监控, 所以它主要用于容器监控和k8s集群监控以及云环境的监控(OpenStack
)。
2016年 Prometheus 加入了云原生计算基金会(Cloud Native Computing Foundation,CNCF
),成为kubernetes之后的第二个托管项目 google SRE 的书内也曾提到跟他们BorgMon监控系统相似的实现是Prometheus。
官网介绍: 从度量到洞察使用领先的开源监控解决方案。
Dimensional data (高维数据) : Prometheus implements a highly dimensional data model. Time series are identified by a metric name and a set of key-value pairs.
Powerful queries (强大的查询) : PromQL allows slicing and dicing of collected time series data in order to generate ad-hoc graphs, tables, and alerts.
Great visualization (UI-视觉效果) : Prometheus has multiple modes for visualizing data: a built-in expression browser, Grafana integration, and a console template language.
Efficient storage (高效的存储) : Prometheus stores time series in memory and on local disk in an efficient custom format. Scaling is achieved by functional sharding and federation.
Simple operation (操作简单) : Each server is independent for reliability, relying only on local storage. Written in Go, all binaries are statically linked and easy to deploy.
Precise alerting (精确报警) : Alerts are defined based on Prometheus’s flexible PromQL and maintain dimensional information. An alertmanager handles notifications and silencing.
Many client libraries (众多客户端库) : Client libraries allow easy instrumentation of services. Over ten languages are supported already and custom libraries are easy to implement.
Many integrations (许多集成监控指标) : Existing exporters allow bridging of third-party data into Prometheus.
Examples: system statistics, as well as Docker, HAProxy, StatsD, and JMX metrics.
优点说明:
缺点说明:
用户/角色/权限控制等等
),需要多配置必须在配置文件中修改。Tips: 保有量最多的三种监控系统(Zabbix、Openfalcon、Promethes
)方式对比;
WeiyiGeek.三者对比
描述: Prometheus 架构由客户端在被监控系统上利用导出器采集指标数据,在服务端配置静态目标或者动态的服务发现,此时Prometheus 根据抓取频率进行数据的拉取(exporter)和推送(pushgateway), 然后将抓取的数据存储到时序数据库(TSDB)之中,再利用Grafana的仪表盘展示Prometheus服务中的数据,同时设定记录规则(PromQL表达式)和告警规则(频率)并发送给alertmanager进行发送报警事件到运维人员手中,最终可能还需要进行数据的持久化默认的是本地存储但可以通过远程读写的API让其他系统也可接入采集存储数据。
Prometheus 架构
Prometheus 监控体系如下图几大部分构成:
Prometheus server
: 主要负责数据采集和存储,提供PromQL查询语言的支持 (默认端口: 9090)exporters
: 监控指标采集器,支持数据库、硬件、消息中间件、http 服务器、jmx 等 (默认端口:)alertmanager
: 用来进行报警、prometheus_cli:命令行工具 (默认端口: 9093)Web UI
: 原生UI功能较为单一,常常采用Grafana
这个跨平台的开源的分析和可视化工具 (默认端口: 3000)PushGateWay
: 跨网段被监控主机指标采集数据转发到网关代理等待Server的Pull。Time Series DataBase
: 时序数据库(TSDB)用于保存时间序列(按时间顺序变化)的数据,每条记录都有完整的时间戳,基于时间的操作都比较方便.Q:采用时序数据库(TSDB)的优点?
1.时间作为他的主轴,数据按顺序到达。
2.大多数操作是插入新数据,偶尔伴随查询,更新数据比较少。
3.时间序列数据累计速度非常快,更高的容纳率、更快的大规模查询以及更好的数据压缩。
4.TSDB 通常还包括一些共通的对时间序列数据分析的功能和操作:数据保留策略、连续查询、灵活的时间聚合等。
Q:什么是微服务架构?
描述: Prometheus 基本工作流程步骤如下:
Prometheus Server
读取配置解析静态监控端点(static_configs)
,以及服务发现规则(xxx_sd_configs)自动收集需要监控的端点(scrape_interval)
监控端点通过HTTP的Pull方式采集监控数据
Node Exporter
,Exporter 返回一个文本响应,每个非注释行包含一条完整的时序数据:Name + Labels + Samples(一个浮点数和一个时间戳构成)
, 数据来源是一些官方的exporter或自定义sdk或接口;
WeiyiGeek.Exporter-Metrics
(relabel_configs)
将其存储在TSDB中并建立倒排索引
周期计算任务(evaluation_interval)
开始执行,根据配置的Rules逐个计算与设置的阈值进行匹配,若结果超过阈值并持续时长超过临界点将进行报警,此时发送Alert到AlertManager独立组件中。
邮件、微信、Slack、PagerDuty、WebHook
等等。
(Instant vector, N条只有一个Sample的时序数据)
,区间向量(Range vector,N条包含M个Sample的时序数据)
,或标量数据 (Scalar, 一个浮点数)
WeiyiGeek.Grafana
描述: metrics name & label 指标名称和标签(key=value)的形式组成的数据模型,其次是Prometheus惯例是使用基本单元如字节(Byte)和秒(s)
;
metrics name : 一般由字母和下划线构成
prometheus_http_requests_total
Lable : 标签就是对一条时间序列不同维度的识别(应用名称=name_监测对像=object_数值类型=int_单位=ok)
。
基础示例:
# 数据模型 : metric @ timestamp => value
http_requests_total{status="200",method="GET"}@1434417560938 => 94355
# 数据格式 : Metric_Name{key="value"}
go_info{instance="localhost:9090", job="prometheus", version="go1.16.2"}
数据类型
描述: Prometheus 常常使用以下核心指标类型 Counter(计数器类型) 、Gauge(仪表盘类型) 、Histogram(直方图类型)、Summary(摘要类型)
;
Counter 英 [ˈkaʊntə(r)]
类型 :该指标的工作方式和计数器一样,只增不减(除非系统发生了重置)。Counter一般用于累计值,例如记录请求次数、任务完成数、错误发生次数,通常来讲许多指标counter本身并没有什么意义,有意义的是counter随时间的变化率如采用rate函数能计算出每秒增长,由 <basename>
_total组成。
Gauge 英 [ɡeɪdʒ]
类型 : 可增可减的指标类,可以用于反应当前应用的状态。比如机器内存,磁盘可用空间大小node_memory_MemAvailable_bytes/node_filesystem_avail_bytes
等等;
Histogram 英 [ˈhɪstəɡræm]
类型 : 客户端计算主要用于表示一段时间范围内对数据进行采样(通常是请求持续时间或响应大小),并能够对其指定区间以及总数进行统计,通常它采集的数据展示为直方图。由 <basename>_bucket, <basename>_sum, <basename>_count
组成;
所有事件产生值的大小的总和: basename_sum
事件发生的总次数: basename_count
事件产生的值分布: basename_bucket
WeiyiGeek.Histogram
Summary 英 [ˈsʌməri]
类型 : 与Histogram类型
相似主要用于表示一段时间内数据采样结果(通常时请求持续时间或响应大小),它直接存储了分位数据,而不是根据统计区间计算出来的, 由< basename>_sum,< basename>_count,<basename>{quantile="<φ>"}
组成;
WeiyiGeek.Summary
Q: Histogram 与 Sumamry 的两者区别?
Histogram 指标: 直接反应了在不同区间内样本的个数,区间通过标签len进行定义,同时对于Histogram的指标,我们还可以
通过histogram_quantile()函数
计算出其值的分位数。 Sumamry 指标: 分位数则是直接在客户端计算完成。因此Summary在通过PromQL进行查询时有更好的性能表现,而Histogram则会消耗更多的资源。反之对于客户端而言Histogram消耗的资源更少。 在选择这两种方式时用户应该按照自己的实际场景进行选择。
描述: 当前2021年4月30日Prometheus Server版本: v2.26.0
下载地址:https://prometheus.io/download/
官方地址: https://prometheus.io/
项目地址:
帮助文档: https://prometheus.io/docs/prometheus/latest/getting_started/
描述: 上面的prometheus组件里常规的安装方式有如下几种;
Using pre-compiled binaries :二进制可执行文件
From source : 源码编译(需要安装gcc 和 g++ 和 Make)
# prometheus_server
$ mkdir -p $GOPATH/src/github.com/prometheus
$ cd $GOPATH/src/github.com/prometheus
$ git clone https://github.com/prometheus/prometheus.git
$ cd prometheus
$ make build
$ ./prometheus -config.file=your_config.yml
# prometheus_alertmanager
$ git clone https://github.com/prometheus/alertmanager.git
$ cd alertmanager
$ make build
$ ./alertmanager -config.file=<your_file>
Using Docker : 依赖于Docker进行安装,注意在Quay.io或Docker Hub上Docker图像的形式提供。
Using configuration management systems : 使用配置管理系统进行安装;
参考地址: https://prometheus.io/docs/prometheus/latest/installation/
描述: 此次为了方便部署和测试我在Docker容器环境中利用 docker-compose的方式部署 prometheus
、 alertmanager
、grafana
进行安装以及准备好文件,以及相应服务的配置文件。
Step 1.准备好持久化数据目录的创建与权限赋予
# (1) 此为NFS共享存储便于后面多台主机的
/nfsdisk-31/monitor# mkdir -vp /nfsdisk-31/monitor/prometheus/{conf,data} grafana/data
# mkdir: created directory '/nfsdisk-31/monitor/prometheus'
# mkdir: created directory 'prometheus/conf'
# mkdir: created directory 'prometheus/data'
# mkdir: created directory 'grafana'
# mkdir: created directory 'grafana/data'
# (2) grafana 服务数据存储目录所属者设置(否则报错:GF_PATHS_DATA='/var/lib/grafana' is not writable.)
chown 472:root -R /nfsdisk-31/monitor/grafana/data
chmod 777 /nfsdisk-31/monitor/prometheus/data
Step 2.配置文件目录
tree -L 3
.
├── docker-compose.yml
├── grafana
│ └── data
└── prometheus
├── conf
│ ├── alertmanager.yaml
│ ├── alert.rules
│ └── prometheus.yml
└── data
Step 3.docker 创建指定网络名称monitor;
docker network create -d bridge monitor
# 527a8953a9d57c64e2d728d817f46ea735b104e6f0f2c342f1c7844eebe8ad87
docker network ls
# NETWORK ID NAME DRIVER SCOPE
# 4fe5982b8449 bridge bridge local
# 484bfd6f8556 host host local
# 527a8953a9d5 monitor bridge local
# 0b83b3436078 none null local
Step 4.Docker-compose 资源清单描述进行prometheus以及grafana容器的创建, 以及相应的配置文件。
tee /nfsdisk-31/monitor/prometheus/conf/docker-compose.yml <<'END'
version: '3.2'
services:
prometheus:
image: prom/prometheus:v2.26.0
container_name: prometheus_server
environment:
TZ: Asia/Shanghai
volumes:
- /nfsdisk-31/monitor/prometheus/conf/prometheus.yml:/etc/prometheus/prometheus.yml
- /nfsdisk-31/monitor/prometheus/conf/alert.rules:/etc/prometheus/alert.rules
- /nfsdisk-31/monitor/prometheus:/prometheus
- /etc/localtime:/etc/localtime
command:
- '--config.file=/etc/prometheus/prometheus.yaml'
- '--storage.tsdb.path=/prometheus/data'
- '--web.enable-admin-api'
- '--web.enable-lifecycle'
ports:
- '30090:9090'
restart: always
networks:
- monitor
pushgateway:
image: prom/pushgateway
container_name: prometheus_pushgateway
environment:
TZ: Asia/Shanghai
volumes:
- /etc/localtime:/etc/localtime
ports:
- '30091:9091'
restart: always
networks:
- monitor
alertmanager:
image: prom/alertmanager:v0.21.0
container_name: prometheus_alertmanager
environment:
TZ: Asia/Shanghai
volumes:
- /nfsdisk-31/monitor/prometheus/conf/alertmanager.yaml:/etc/alertmanager.yaml
- /nfsdisk-31/monitor/prometheus/alertmanager:/alertmanager
- /etc/localtime:/etc/localtime
command:
- '--config.file=/etc/alertmanager.yaml'
- '--storage.path=/alertmanager'
ports:
- '30093:9093'
restart: always
networks:
- monitor
grafana:
image: grafana/grafana:7.5.5
container_name: grafana
user: "472"
environment:
- TZ=Asia/Shanghai
- GF_SECURITY_ADMIN_PASSWORD=weiyigeek
volumes:
- /nfsdisk-31/monitor/grafana/data:/var/lib/grafana
ports:
- '30000:3000'
restart: always
networks:
- monitor
dns:
- 223.6.6.6
- 192.168.12.254
networks:
monitor:
external: true
END
Step 5.prometheus 和 alertmanager 依赖的相关配置文件。
cd /nfsdisk-31/monitor/prometheus/conf/
# prometheus 监控服务
tee prometheus.yml <<'EOF'
global:
# pull 频率
scrape_interval: 120s
# 超时时间
scrape_timeout: 15s
# 外部标签
external_labels:
monitor: 'current-monitor'
scrape_configs:
# 工作组名称
- job_name: 'prometheus'
# 监控的主机地址与端口信息
static_configs:
- targets: ['localhost:9090']
# 报警规则
rule_files:
- 'alert.rules'
EOF
# 报警服务
tee alertmanager.yaml <<'EOF'
# 默认采用哪种方式进行预警
route:
group_by: ['alertname']
receiver: 'default-receiver'
receivers:
- name: 'default-receiver'
#接收者为webhook类型
webhook_configs:
#webhook的接收地址
- url: 'https://qyapi.weixin.qq.com/cgi-bin/webhook/send?key=4e1165c3-55c1-4bc4-8493-ecc5ccda9275'
EOF
# 报警规则
tee alert.rules <<'EOF'
groups:
- name: node-alert
rules:
- alert: service_down
expr: up == 0
for: 3m
- alert: high_load
expr: node_load1 > 1.0
for: 5m
EOF
Step 6.根据需求配置好相关信息之后使用 docker-compose up -d
启动容器,注意进行相应端口的防火墙规则调整通行。
docker-compose ps
# Name Command State Ports
# -----------------------------------------------------------------------------------------------------
# grafana /run.sh Up 0.0.0.0:30000->3000/tcp
# prometheus_alertmanager /bin/alertmanager --config ... Up 0.0.0.0:30093->9093/tcp
# prometheus_server /bin/prometheus --config.f ... Up 0.0.0.0:30090->9090/tcp
Step 7.所有的容器状态都 UP 之后,打开浏览器访问以下服务查看是否正常。
# prometheus 监控主服务 - 提供简陋的管理页面
http://192.168.12.107:30090/
# prometheus Alertmanager 服务 - 提供简陋的管理页面
http://192.168.12.107:30093/
# grafana UI 服务 - 提供数据专业化展示 (默认账户密码: admin/weiyigeek)
http://192.168.12.107:30000/login
点击 - insert metric at cursor
选择框,选额 go_info
,再点击 Execute
按钮查看是否有监控指标输出即安装成功go_info{instance="localhost:9090", job="prometheus", version="go1.16.2"}
。
WeiyiGeek.服务验证
描述: 该组件主要用于机器指标导出。
Step 1.在Github的Release中下载node_exporter
可直接运行的二进制包。
# 1.解压二进制文件
cd /opt
wget https://github.com/prometheus/node_exporter/releases/download/v1.1.2/node_exporter-1.1.2.linux-amd64.tar.gz
tar -xvf node_exporter-1.1.2.linux-amd64.tar.gz
sudo cp -a node_exporter /usr/local/bin/node_exporter
# sudo ln -s /usr/local/node_exporter-1.2.2.linux-amd64/node_exporter /usr/local/bin/node_exporter
# 2.创建配置文件
sudo mkdir /etc/node_exporter/
sudo tee /etc/node_exporter/exporter.conf <<'EOF'
# 官方建议添加环境变量 `/etc/node_exporter/exporter.confr` ,内容如下:
# OPTIONS="--collector.textfile.directory /var/lib/node_exporter/textfile_collector"
EOF
Step 2.创建 /usr/lib/systemd/system/node_exporter.service
systemd unit 文件
# > systemd 可用于监控系统服务,需要在 node_exporter 启动时添加 --collector.systemd 参数开启,默认是关闭的。
sudo tee /usr/lib/systemd/system/node_exporter.service <<'EOF'
[Unit]
Description=Node Exporter Clinet
Documentation=https://prometheus.io/
After=network.target
[Service]
Type=simple
StandardError=journal
ExecStart=/usr/local/bin/node_exporter --web.listen-address=:9100
Restart=on-failure
RestartSec=3s
[Install]
WantedBy=multi-user.target
EOF
# EnvironmentFile=/etc/node_exporter/exporter.conf
sudo chmod 754 /usr/lib/systemd/system/node_exporter.service
Step 3.重载systemd与开机自启node_exporter服务
# 重载&开机自启
sudo systemctl daemon-reload
sudo systemctl enable node_exporter.service
sudo systemctl start node_exporter.service
# 日志查看
sudo systemctl status node_exporter.service
● node_exporter.service - Node Exporter Clinet
Loaded: loaded (/lib/systemd/system/node_exporter.service; disabled; vendor preset: enabled)
Active: active (running) since Fri 2021-04-30 22:49:33 CST; 10s ago
Main PID: 1238901 (node_exporter)
Tasks: 12 (limit: 19111)
Memory: 11.4M
CGroup: /system.slice/node_exporter.service
└─1238901 /usr/local/bin/node_exporter --collector.systemd
Apr 30 22:49:33 weiyigeek-107 node_exporter[1238901]: level=info ts=2021-04-30T14:49:33.154Z caller=node_exporter.go:113 collector=thermal_zone
......
Apr 30 22:49:33 weiyigeek-107 node_exporter[1238901]: level=info ts=2021-04-30T14:49:33.154Z caller=node_exporter.go:113 collector=zfs
Apr 30 22:49:33 weiyigeek-107 node_exporter[1238901]: level=info ts=2021-04-30T14:49:33.154Z caller=node_exporter.go:195 msg="Listening on" address=:9100
Apr 30 22:49:33 weiyigeek-107 node_exporter[1238901]: level=info ts=2021-04-30T14:49:33.155Z caller=tls_config.go:191 msg="TLS is disabled." http2=false
netstat -tlnp | grep "9100"
(Not all processes could be identified, non-owned process info
will not be shown, you would have to be root to see it all.)
tcp6 0 0 :::9100 :::* LISTEN -
Step 4.通过node exporter
的http服务查看该主机的metrics信息
curl -s http://192.168.12.107:9100/metrics | head -n 20
# HELP go_gc_duration_seconds A summary of the pause duration of garbage collection cycles.
# TYPE go_gc_duration_seconds summary
go_gc_duration_seconds{quantile="0"} 2.4814e-05
go_gc_duration_seconds{quantile="0.25"} 5.1128e-05
go_gc_duration_seconds{quantile="0.5"} 9.3675e-05
go_gc_duration_seconds{quantile="0.75"} 0.000131435
go_gc_duration_seconds{quantile="1"} 0.000767665
go_gc_duration_seconds_sum 0.015132517
go_gc_duration_seconds_count 135
# HELP go_goroutines Number of goroutines that currently exist.
# TYPE go_goroutines gauge
go_goroutines 8
# HELP go_info Information about the Go environment.
# TYPE go_info gauge
go_info{version="go1.15.8"} 1
# HELP go_memstats_alloc_bytes Number of bytes allocated and still in use.
# TYPE go_memstats_alloc_bytes gauge
go_memstats_alloc_bytes 3.019424e+06
# HELP go_memstats_alloc_bytes_total Total number of bytes allocated, even if freed.
# TYPE go_memstats_alloc_bytes_total counter
Step 5.配置 prometheus.yml 添加如下Job工作
vi /nfsdisk-31/monitor/prometheus/conf/prometheus.yml
- job_name: 'node-resources'
scrape_interval: 120s
static_configs:
- targets: ['192.168.12.107:9100'] # 指定安装和启动后 node_exporter 的主机
Step 6.重新prometheus
容器进行更新配置,之后访问http://192.168.12.107:30090/targets
页面查看目标是否可以正常监控了(UP上线)。
/nfsdisk-31/monitor# docker-compose restart prometheus
WeiyiGeek.Target-node-resources
Step 7.监控该主机系统相关信息,我们可以在UI首页进行系统空闲磁盘大小查看
# PromQL 表达式: 获取系统空闲磁盘的空间大小(单位 GB)
node_filesystem_free_bytes{fstype!="tmpfs"} / (1024*1024*1024)
# 结果
{device="/dev/mapper/ubuntu--vg-lv--0", fstype="ext4", instance="192.168.12.107:9100", job="node-resources", mountpoint="/"}
76.21196365356445
{device="/dev/sda2", fstype="ext4", instance="192.168.12.107:9100", job="node-resources", mountpoint="/boot"}
0.6655235290527344
{device="192.168.10.30:/nask8sapp", fstype="nfs", instance="192.168.12.107:9100", job="node-resources", mountpoint="/nfsdisk-31"}
2275.9747009277344
WeiyiGeek.PromQL 表达式数据查询
描述: cAdvisor 英 [Kədˈvaɪzə]
使用Go语言开发,利用Linux的cgroups获取容器的资源使用信息, 可以对节点机器上的资源及容器进行实时监控和性能数据采集,包括CPU使用情况、内存使用情况、网络吞吐量及文件系统使用情况,还提供基础查询界面和http接口,方便其他组件如Prometheus进行数据抓取.
cAdvisor原生支持Docker容器,并且对任何其他类型的容器能够开箱即用,它也是基于lmctfy的容器抽象,所以容器本身是分层嵌套的。
优缺点:
项目地址: https://github.com/google/cadvisor/ 学习参考地址: https://docs.huihoo.com/apache/mesos/chrisrc.me/dcos-admin-monitoring-docker.html
cAdvisor 结构图:
WeiyiGeek.cAdvisor 结构图
安装方式:
1) 二进制部署
下载二进制:https://github.com/google/cadvisor/releases/latest
本地运行:./cadvisor -port=8080 &>>/var/log/cadvisor.log
2) 使用docker部署
docker run \
--volume=/var/run:/var/run:rw \
--volume=/sys:/sys:ro \
--volume=/var/lib/docker/:/var/lib/docker:ro \
--volume=/dev/disk/:/dev/disk:ro \
--publish=9100:8080\
--detach=true \
--name=cadvisor \
google/cadvisor:latest
# 8fa36cd105ebce5c9cc334f2bfaae781833ddce396bfb96bd775a18706c9e1f3
# 注意:在Ret Hat,CentOS, Fedora 等发行版上需要传递如下参数,因为 SELinux 加强了安全策略:
--privileged=true
# 可选参数
--volume=/:/rootfs:ro \
3) 启动后访问 http://192.168.12.108:9100/containers
查看 CAvisor 监控页面;
WeiyiGeek.CAvisor-containers
4) 然后访问: http://192.168.12.108:9100/metrics
查看其暴露给 Prometheus 的所有数据;
# HELP cadvisor_version_info A metric with a constant '1' value labeled by kernel version, OS version, docker version, cadvisor version & cadvisor revision.
# TYPE cadvisor_version_info gauge
cadvisor_version_info{cadvisorRevision="8949c822",cadvisorVersion="v0.32.0",dockerVersion="19.03.14",kernelVersion="5.4.0-60-generic",osVersion="Alpine Linux v3.7"} 1
# HELP container_cpu_load_average_10s Value of container cpu load average over the last 10 seconds.
# TYPE container_cpu_load_average_10s gauge
container_cpu_load_average_10s{container_label_annotation_io_kubernetes_container_hash="",container_label_annotation_io_kubernetes_container_ports="",container_label_annotation_io_kubernetes_container_restartCount="",container_label_annotation_io_kubernetes_container_terminationMessagePath="",container_label_annotation_io_kubernetes_container_terminationMessagePolicy="",
.......
5) 我们将cAdvisor配置接入到prometheus
之中,修改后重新启动容器。
vim /nfsdisk-31/monitor/prometheus/conf/prometheus.yml
scrape_configs:
- job_name: 'node-resources'
scrape_interval: 120s
static_configs:
- targets: ['192.168.12.107:9100','192.168.12.108:9100']
# 将 cAdvisor 添加到监控数据采集任务目标当中
# - job_name: cadvisor
# static_configs:
# - targets:
# - 10.10.107.234:9060
# 重启容器
docker restart prometheus_server
# prometheus_server
6) 访问Prometheus后台页面查看target以及查询验证。
WeiyiGeek.cadvisor_version_info
Tips : 在CentOS上运行cAdvisor时,需要添加 --privileged=true
和 --volume=/cgroup:/cgroup:ro
两项配置。
--privileged=true
参数。
/cgroup
下,cAdvisor需要通过--volume=/cgroup:/cgroup:ro
获取容器信息。
Tips : 如果碰到Invalid Bindmount /
错误,可能是由于Docker版本较低所致,可以在启动cAdvisor时不挂载--volume=/:/rootfs:ro
。
Tips :总结正是因为 cadvisor 与 Prometheus 的完美结合,所以它成为了容器监控的第一选择,或者cadvisor + influxdb + grafna
搭配使用。
描述: 在简单的配置好node-export被监控主机以及cAdvisor容器监控之后,将其监控采集的数据接入到Grafana进行展示。
Create a data source
按钮选择 Prometheus
导入 Prometheus
监控数据源(注:由于搭建的版本不同位置名称可能由些许不同) WeiyiGeek.
http://192.168.12.107:30090
, 其余的默认即可 Auth 方式稍后使用 nginx 进行用户访问权限验证处理。Save & test
按钮,测试是否能正常获取的Prometheus
监控数据源WeiyiGeek.Prometheus监控数据源
+
按钮 —> Import dashboard
然后在 Import via grafana.com
输入栏中输入 https://grafana.com/grafana/dashboards/8919
再点击 Load
,之后会自动跳转到该 dashboard 的配置页面。Prometheus Data Source
选择之前配置好的数据源,然后点击 import
即可。WeiyiGeek.import-prometheus-dashboard
Recently viewed dashboards
会有出现我们刚刚导入的 dashboard, 点击进入后会出现以下监控信息。WeiyiGeek.prometheus-dashboard-1
WeiyiGeek.prometheus-dashboard-2
描述: 该存储库将Kubernetes清单、Grafana仪表板和Prometheus规则与文档和脚本结合起来,通过Prometheus使用Prometheus操作符来提供易于操作的端到端Kubernetes集群监控。 Prometheus github 地址: https://github.com/prometheus-operator/kube-prometheus#quickstart Prometheus github 地址: https://github.com/coreos/kube-prometheus
组件说明:
操作流程:
Step 0.拉取 kube-prometheus 在 Github 中的项目文件;
# PS : 设置当前代理为 http://127.0.0.1:1080 或 socket5://127.0.0.1:1080 (此处为了加快拉取速度我采用自己的VPS搭建的梯子)
git config --global http.proxy 'socks5://127.0.0.1:1080'
git config --global https.proxy 'socks5://127.0.0.1:1080'
git clone https://github.com/coreos/kube-prometheus.git
~/K8s/Day10/kube-prometheus$ ls
build.sh DCO example.jsonnet experimental go.sum jsonnet jsonnetfile.lock.json LICENSE manifests OWNERS scripts tests
code-of-conduct.md docs examples go.mod hack jsonnetfile.json kustomization.yaml Makefile NOTICE README.md sync-to-internal-registry.jsonnet test.sh
Step 1.由于GFW的原因我们需要将资源清单中的quay.io仓库以及k8s.gcr.io仓库镜像地址进行换成国内(PS:建议在国外买VPS然后PULL下载后打包回国内
)以及type访问类型
~/K8s/Day10/kube-prometheus/manifests/setup$ grep "quay.io/" *
# prometheus-operator-deployment.yaml: - --prometheus-config-reloader=quay.io/prometheus-operator/prometheus-config-reloader:v0.44.0
# prometheus-operator-deployment.yaml: image: quay.io/prometheus-operator/prometheus-operator:v0.44.0
# prometheus-operator-deployment.yaml: image: quay.io/brancz/kube-rbac-proxy:v0.8.0
~/K8s/Day10/kube-prometheus/manifests/setup$ sed -i "s#quay.io/#quay.mirrors.ustc.edu.cn/#g" *
~/K8s/Day10/kube-prometheus/manifests/$ sed -i "s#quay.io/#quay.mirrors.ustc.edu.cn/#g" *
# 修改访问方式为`type: NodePort`以及NodePort暴露的端口
# ---~/K8s/Day10/kube-prometheus/manifests$ cat alertmanager-service.yaml
apiVersion: v1
kind: Service
metadata:
labels:
alertmanager: main
name: alertmanager-main
namespace: monitoring
spec:
type: NodePort # 修改点1
ports:
- name: web
port: 9093
targetPort: web
nodePort: 30070 # 修改点2
selector:
alertmanager: main
app: alertmanager
sessionAffinity: ClientIP
# ---~/K8s/Day10/kube-prometheus/manifests$ cat prometheus-service.yaml
apiVersion: v1
kind: Service
metadata:
labels:
prometheus: k8s
name: prometheus-k8s
namespace: monitoring
spec:
type: NodePort # 修改点1
ports:
- name: web
port: 9090
targetPort: web
nodePort: 30090 # 修改点2
selector:
app: prometheus
prometheus: k8s
sessionAffinity: ClientIP
# ---~/K8s/Day10/kube-prometheus/manifests$ cat grafana-service.yaml
apiVersion: v1
kind: Service
metadata:
labels:
app: grafana
name: grafana
namespace: monitoring
spec:
ports:
- name: http
port: 3000
targetPort: http
nodePort: 30080 # 修改点2
selector:
app: grafana
type: NodePort # 修改点1
Step 2.使用manifests/setu的清单目录中的配置创建监视堆栈
~/K8s/Day10/kube-prometheus/manifests/setup$ kubectl create -f .
# namespace/monitoring created
# customresourcedefinition.apiextensions.k8s.io/alertmanagerconfigs.monitoring.coreos.com created
# customresourcedefinition.apiextensions.k8s.io/alertmanagers.monitoring.coreos.com created
# customresourcedefinition.apiextensions.k8s.io/podmonitors.monitoring.coreos.com created
# customresourcedefinition.apiextensions.k8s.io/probes.monitoring.coreos.com created
# customresourcedefinition.apiextensions.k8s.io/prometheuses.monitoring.coreos.com created
# customresourcedefinition.apiextensions.k8s.io/prometheusrules.monitoring.coreos.com created
# customresourcedefinition.apiextensions.k8s.io/servicemonitors.monitoring.coreos.com created
# customresourcedefinition.apiextensions.k8s.io/thanosrulers.monitoring.coreos.com created
# clusterrole.rbac.authorization.k8s.io/prometheus-operator created
# clusterrolebinding.rbac.authorization.k8s.io/prometheus-operator created
# deployment.apps/prometheus-operator created
# service/prometheus-operator created
# serviceaccount/prometheus-operator created
~/K8s/Day10/kube-prometheus/manifests/setup$ kubectl get pod -n monitoring -o wide --show-labels
# NAME READY STATUS RESTARTS AGE IP NODE LABELS
# prometheus-operator-5bff4cfb76-dtvjj 2/2 Running 0 50m 10.244.2.59 k8s-node-5 app.kubernetes.io/component=controller,app.kubern etes.io/name=prometheus-operator,app.kubernetes.io/version=v0.44.0,pod-template-hash=5bff4cfb76
Step 3. 完成上一步资源清单的创建后继续进行manifests中grafana、alertmanager、node-exporter资源清单的建立
~/K8s/Day10/kube-prometheus$ kubectl create -f manifests/
# alertmanager.monitoring.coreos.com/main created
# secret/alertmanager-main created
...... # 此处略去
# servicemonitor.monitoring.coreos.com/kubelet created
~/K8s/Day10/kube-prometheus$ kubectl get pod -n monitoring -o wide
# NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES
# alertmanager-main-0 2/2 Running 0 105m 10.244.2.60 k8s-node-5 <none> <none>
# alertmanager-main-1 2/2 Running 0 105m 10.244.1.157 k8s-node-4 <none> <none>
# alertmanager-main-2 2/2 Running 0 105m 10.244.2.61 k8s-node-5 <none> <none>
# grafana-79f4b5649f-6sjg5 1/1 Running 0 105m 10.244.1.159 k8s-node-4 <none> <none>
# kube-state-metrics-58c88f48b7-frqb2 3/3 Running 0 105m 10.244.1.160 k8s-node-4 <none> <none>
# node-exporter-4nmsz 2/2 Running 0 105m 10.10.107.214 k8s-node-4 <none> <none>
# node-exporter-7x6bm 2/2 Running 0 105m 10.10.107.215 k8s-node-5 <none> <none>
# node-exporter-98crd 2/2 Running 0 105m 10.10.107.202 ubuntu <none> <none>
# prometheus-adapter-69b8496df6-7mqcv 1/1 Running 0 105m 10.244.2.63 k8s-node-5 <none> <none>
# prometheus-k8s-0 2/2 Running 1 105m 10.244.1.158 k8s-node-4 <none> <none>
# prometheus-k8s-1 2/2 Running 0 105m 10.244.2.62 k8s-node-5 <none> <none>
# prometheus-operator-5bff4cfb76-dtvjj 2/2 Running 0 5h26m 10.244.2.59 k8s-node-5 <none> <none>
Step 4.查看Services资源清单得到prometheus、grafana、alertmanager
暴露的端口
~/K8s/Day10/kube-prometheus/manifests$ kubectl get svc -n monitoring -o wide
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE SELECTOR
prometheus-adapter ClusterIP 10.100.45.247 <none> 443/TCP 122m name=prometheus-adapter
prometheus-operator ClusterIP None <none> 8443/TCP 5h42m app.kubernetes.io/component=controller,app.kubernetes.io/name=prometheus-operator
kube-state-metrics ClusterIP None <none> 8443/TCP,9443/TCP 122m app.kubernetes.io/name=kube-state-metrics
prometheus-operated ClusterIP None <none> 9090/TCP 122m app=prometheus
alertmanager-operated ClusterIP None <none> 9093/TCP,9094/TCP,9094/UDP 122m app=alertmanager
node-exporter ClusterIP None <none> 9100/TCP 122m app.kubernetes.io/name=node-exporter
alertmanager-main NodePort 10.100.233.132 <none> 9093:30070/TCP 122m alertmanager=main,app=alertmanager
prometheus-k8s NodePort 10.103.33.255 <none> 9090:30090/TCP 122m app=prometheus,prometheus=k8s
grafana NodePort 10.104.211.111 <none> 3000:30080/TCP 122m app=grafana
应用IP端口访问列表:
PS : 下面验证上述服务能否正常访问
Step 5.访问 prometheus Web UI
可以看到其已经与K8S的Api-Server连接成功;
URL: http://10.10.107.202:30090/graph?g0.range_input=1h&g0.expr=sum(rate(container_cpu_usage_seconds_total%7Bimage!%3D%22%22%7D%5B1m%5D))%20by%20(pod_name%2C%20namespace)&g0.tab=0
# Prometheus 自己的指标prometheus 的 WEB 界面上提供了基本的查询 K8S 集群中每个 POD 的 CPU 使用情况,查询条件如下
sum(rate(container_cpu_usage_seconds_total{image!=""}[1m])) by (pod_name, namespace) # PS:内置函数后面细讲
WeiyiGeek.prometheus-Web
PS : 上述的查询有出现数据说明node-exporter往Prometheus中写数据是正常的,接下来查看你我们的grafana组件实现更友好的数据展示
随后在Grafana中添加Prometheus
数据源进行数据的展示: Configuration -> Data Source -> prometheus -> 导入指定 prometheus
;
WeiyiGeek.grafana-import
采用 Grafana 展示的 Prometheus 数据:
WeiyiGeek.Grafana metrics
WeiyiGeek.alertmanager