《TKE学习》TKE服务中的告警服务 (十)

原创

baron

发布于 2019-11-27 16:48:47

1.7K0

文章被收录于专栏：和baron一起学习TKE和baron一起学习TKE

概述

良好的监控环境为腾讯云容器服务高可靠性、高可用性和高性能提供重要保证。您可以方便为不同资源收集不同维度的监控数据，能方便掌握资源的使用状况，轻松定位故障。

腾讯云容器服务提供集群、节点、工作负载、Pod、Container 5个层面的监控数据收集和展示功能。

收集监控数据有助于您建立容器集群性能的正常标准。通过在不同时间、不同负载条件下测量容集群的性能并收集历史监控数据，您可以较为清楚的了解容器集群和服务运行时的正常性能，并能快速根据当前监控数据判断服务运行时是否处于异常状态，及时找出解决问题的方法。例如，您可以监控服务的 CPU 利用率、内存使用率和磁盘 I/O。

操作场景

腾讯云容器服务支持为集群设置集群、节点、Pod 3个维度的告警。为您的集群设置合理的告警，有助于避免和快速发现集群异常，降低业务风险。

TKE实践

在容器服务的控制面板点击告警设置选项，选择新建。

根据需求选择告警维度并设置合适的告警指标，如图：

策略类型共有三个维度：集群、节点、pod。各个维度的指标有一定的不同。

集群告警指标

web页面显示如图：

指标	单位	说明
CPU 利用率	%	集群整体的 CPU 利用率
内存利用率	%	集群整体的内存利用率
CPU 分配率	%	集群所有容器设置的 CPU Request 之和与集群总可分配 CPU 之比
内存分配率	%	集群所有容器设置的内存 Request 之和与集群总可分配内存之比
Apiserver 正常		Apiserver 状态，默认 False 时告警，仅独立集群支持该指标
Etcd 正常		Etcd 状态，默认 False 时告警，仅独立集群支持该指标
Scheduler 正常		Scheduler 状态，默认 False 时告警，仅独立集群支持该指标
Controll Manager 正常		Controll Manager 状态，默认 False 时告警，仅独立集群支持该指标

节点告警指标

web页面显示如图：

指标	单位	说明
CPU 利用率	%	节点内所有 Pod 的 CPU 使用量占节点总量之比
内存利用率	%	节点内所有 Pod 的内存使用量占节点总量之比
节点上 Pod 重启次数	次	节点内所有 Pod 重启次数之和
Node Ready		节点状态，默认 False 时告警

Pod 告警指标

web页面显示如图：

指标	单位	说明
CPU 利用率（占节点）	%	Pod 的 CPU 使用量占节点总量之比
内存利用率（占节点）	%	Pod 的内存使用量占节点总量之比
实际内存利用率（占节点，不包含 Cache）	%	Pod 内所有 Container 的真实内存使用量（不含缓存）占节点总量之比
CPU 利用率（占 Limit）	%	Pod 的CPU使用量和设置的 Limit 值之比
内存利用率（占 Limit）	%	Pod 的内存使用量和设置的 Limit 值之比
实际内存利用率（占 Limit，不包含 Cache）	%	Pod 内所有 Container 的真实内存使用量（不含缓存）和设置的 Limit 值之比
Pod 重启次数	次	Pod 的重启次数
Pod Ready		Pod 的状态，默认 False 时告警
CPU 使用量	核	Pod 的 CPU 使用量
内存使用量	MB	Pod 的内存使用量，含缓存
实际内存使用量	MB	Pod 内所有 Container 的真实内存使用量之和，不含缓存