Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >《TKE学习》TKE服务中的告警服务 (十)

《TKE学习》TKE服务中的告警服务 (十)

原创
作者头像
baron
发布于 2019-11-27 08:48:47
发布于 2019-11-27 08:48:47
1.5K0
举报

概述

良好的监控环境为腾讯云容器服务高可靠性、高可用性和高性能提供重要保证。您可以方便为不同资源收集不同维度的监控数据,能方便掌握资源的使用状况,轻松定位故障。

腾讯云容器服务提供集群、节点、工作负载、Pod、Container 5个层面的监控数据收集和展示功能。

收集监控数据有助于您建立容器集群性能的正常标准。通过在不同时间、不同负载条件下测量容集群的性能并收集历史监控数据,您可以较为清楚的了解容器集群和服务运行时的正常性能,并能快速根据当前监控数据判断服务运行时是否处于异常状态,及时找出解决问题的方法。例如,您可以监控服务的 CPU 利用率、内存使用率和磁盘 I/O。

操作场景

腾讯云容器服务支持为集群设置集群、节点、Pod 3个维度的告警。为您的集群设置合理的告警,有助于避免和快速发现集群异常,降低业务风险。

TKE实践

  • 在容器服务的控制面板点击告警设置选项,选择新建。
Snipaste_2019-11-27_14-15-55.png
Snipaste_2019-11-27_14-15-55.png
  • 根据需求选择告警维度并设置合适的告警指标,如图:
Snipaste_2019-11-27_14-17-12.png
Snipaste_2019-11-27_14-17-12.png

策略类型共有三个维度:集群、节点、pod。各个维度的指标有一定的不同。

集群告警指标

web页面显示如图:

Snipaste_2019-11-27_14-34-08.png
Snipaste_2019-11-27_14-34-08.png

指标

单位

说明

CPU 利用率

%

集群整体的 CPU 利用率

内存利用率

%

集群整体的内存利用率

CPU 分配率

%

集群所有容器设置的 CPU Request 之和与集群总可分配 CPU 之比

内存分配率

%

集群所有容器设置的内存 Request 之和与集群总可分配内存之比

Apiserver 正常

Apiserver 状态,默认 False 时告警,仅独立集群支持该指标

Etcd 正常

Etcd 状态,默认 False 时告警,仅独立集群支持该指标

Scheduler 正常

Scheduler 状态,默认 False 时告警,仅独立集群支持该指标

Controll Manager 正常

Controll Manager 状态,默认 False 时告警,仅独立集群支持该指标

节点告警指标

web页面显示如图:

Snipaste_2019-11-27_14-34-23.png
Snipaste_2019-11-27_14-34-23.png

指标

单位

说明

CPU 利用率

%

节点内所有 Pod 的 CPU 使用量占节点总量之比

内存利用率

%

节点内所有 Pod 的内存使用量占节点总量之比

节点上 Pod 重启次数

节点内所有 Pod 重启次数之和

Node Ready

节点状态,默认 False 时告警

Pod 告警指标

web页面显示如图:

Snipaste_2019-11-27_14-34-36.png
Snipaste_2019-11-27_14-34-36.png

指标

单位

说明

CPU 利用率(占节点)

%

Pod 的 CPU 使用量占节点总量之比

内存利用率(占节点)

%

Pod 的内存使用量占节点总量之比

实际内存利用率(占节点,不包含 Cache)

%

Pod 内所有 Container 的真实内存使用量(不含缓存)占节点总量之比

CPU 利用率(占 Limit)

%

Pod 的CPU使用量和设置的 Limit 值之比

内存利用率(占 Limit)

%

Pod 的内存使用量和设置的 Limit 值之比

实际内存利用率(占 Limit,不包含 Cache)

%

Pod 内所有 Container 的真实内存使用量(不含缓存)和设置的 Limit 值之比

Pod 重启次数

Pod 的重启次数

Pod Ready

Pod 的状态,默认 False 时告警

CPU 使用量

Pod 的 CPU 使用量

内存使用量

MB

Pod 的内存使用量,含缓存

实际内存使用量

MB

Pod 内所有 Container 的真实内存使用量之和,不含缓存

  • 选择告警接受组以及告警渠道,如图:
Snipaste_2019-11-27_14-39-44.png
Snipaste_2019-11-27_14-39-44.png
  • 点击提交完成告警设置。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【容器8月报】降本增效产品化特性重磅发布,多项新功能开放体验中
TKE 集群 【新特性】上线 SecurityGroupPolicy 增强组件,支持为策略匹配的 Pod 绑定安全组,以控制 Pod 的出入站网络流量。 【新特性】对接 CAM OIDC IdP,支持业务 Pod 使用 Service Account Token 访问如 CVM、VPC 等云资源,同时确保身份验证的安全性。 TKE 原生节点 【新特性】上线 Pod 原地升降配能力,支持在不重启 Pod 的情况下直接修改 CPU、内存的 Request/limit 值,适用于流量突发、业务降本场景。 【新特
腾讯云原生
2022/09/09
5381
【容器8月报】降本增效产品化特性重磅发布,多项新功能开放体验中
智能 Request 推荐,K8s 资源利用率提升 252%
王孝威,FinOps 认证从业者,腾讯云容器服务产品经理,热衷于为客户提供高效的 Kubernetes 使用方式,为客户极致降本增效服务。 余宇飞,FinOps 认证从业者,腾讯云专家工程师,从事云原生可观测性、资源管理、降本增效产品的开发。 资源利用率为何都如此之低? 虽然 Kubernetes 可以有效的提升业务编排能力和资源利用率,但如果没有额外的能力支撑,提升的能力十分有限,根据 TKE 团队之前统计的数据:Kubernetes 降本增效标准指南| 容器化计算资源利用率现象剖析,如下图所示:TKE
腾讯云原生
2021/11/26
3.8K1
Kubecost | Kubernetes 开支监控和管理🤑🤑🤑
昨天浏览 Kubectl 插件的时候发现了 Kubecost,一看惊为天人啊,这个功能对于运营团队和 PM 团队领导来说太重要了。直接把监控数据换算成钱,而且明确告诉你钱花在哪个 namespace、哪个应用、哪个标签、哪个 deployment下,明确告诉你那些钱花得值、哪些钱浪费了,有哪些办法可以减少浪费… 真的都是实打实的「降本」功能。
东风微鸣
2022/04/22
1.7K0
Kubecost | Kubernetes 开支监控和管理🤑🤑🤑
TKE操作指南 - wordpress 容器监控讲解(十五)
良好的监控环境为腾讯云容器服务高可靠性、高可用性和高性能提供重要保证。您可以方便为不同资源收集不同维度的监控数据,能方便掌握资源的使用状况,轻松定位故障。 腾讯云容器服务提供集群、节点、工作负载、Pod、Container 5个层面的监控数据收集和展示功能。 收集监控数据有助于您建立容器集群性能的正常标准。通过在不同时间、不同负载条件下测量容集群的性能并收集历史监控数据,您可以较为清楚的了解容器集群和服务运行时的正常性能,并能快速根据当前监控数据判断服务运行时是否处于异常状态,及时找出解决问题的方法。例如,您可以监控服务的 CPU 利用率、内存使用率和磁盘 I/O。
亮哥说TKE
2019/08/08
8860
集群 CPU 利用率均值达 45% ,揭秘小红书规模化混部技术实践
根据 Gartner 预测数据显示:2024 年全球 IT 支出预计将达到 5.1 万亿美元,比 2023 年增长 8 %。然而,该机构的另一项调查数据显示:全球数据中心服务器平均 CPU 利用率普遍低于 20%,存在巨大的资源浪费。据测算,以数百万核 CPU 规模的数据中心为例,每提升 1 个百分点的整体资源利用率,每年将节省数千万元的成本。由此可见,提高资源利用率对于降低企业运营成本具有显著的效果。
架构狂人
2023/11/29
7980
集群 CPU 利用率均值达 45% ,揭秘小红书规模化混部技术实践
TKE操作笔记04
良好的监控环境为腾讯云容器服务高可靠性、高可用性和高性能提供重要保证。您可以方便为不同资源收集不同维度的监控数据,能方便掌握资源的使用状况,轻松定位故障。 腾讯云容器服务提供集群、节点、工作负载、Pod、Container 5个层面的监控数据收集和展示功能。 收集监控数据有助于您建立容器集群性能的正常标准。通过在不同时间、不同负载条件下测量容集群的性能并收集历史监控数据,您可以较为清楚的了解容器集群和服务运行时的正常性能,并能快速根据当前监控数据判断服务运行时是否处于异常状态,及时找出解决问题的方法。例如,您可以监控服务的 CPU 利用率、内存使用率和磁盘 I/O
聂伟星
2020/06/05
7940
kubectl top 命令解析
kubectl top 可以很方便地查看node、pod 的实时资源使用情况:如CPU、内存。这篇文章会介绍其数据链路和实现原理,同时借 kubectl top 阐述 k8s 中的监控体系,窥一斑而知全豹。最后会解释常见的一些问题:
我是阳明
2020/06/15
31.7K0
kubectl top 命令解析
成本最高降低70%,腾讯大规模业务集群的云原生成本优化实践!
唐聪,腾讯云容器技术专家,极客时间专栏《etcd实战课》作者,开源项目kstone和crane内部雏形版 founder,etcd活跃贡献者,主要负责腾讯云大规模k8s和etcd平台稳定性和性能优化、业务集群成本优化、有状态服务容器化等产品研发设计工作。 背景 2021年下半年以来,在新冠疫情和互联网政策的冲击之下,各大互联网公司都在进行降本增效。降本增效的一大核心手段就是优化计算资源成本,本文将以腾讯某内部 Kubernetes/TKE 业务为案例,详细阐述如何从 0到1(成本数据采集与分析、优化措施、行
腾讯云原生
2022/07/01
3K0
成本最高降低70%,腾讯大规模业务集群的云原生成本优化实践!
腾讯云容器服务监控体系详解
本文介绍了腾讯云容器服务中的监控能力,包括指标、视图、统计方式和计算方式等方面的介绍。
腾讯云容器服务团队
2017/06/15
5K0
腾讯云容器服务监控体系详解
Kubernetes 资源分配之 Request 和 Limit 解析
腾讯云容器服务团队
2017/05/09
27.9K5
Kubernetes 资源分配之 Request 和 Limit 解析
Kubernetes 集群需要重点关注的 6 个指标
如今行业中的公司似乎分为两个 Kubernetes 阵营:那些已经大量使用它来处理生产工作负载的公司,以及那些正在将其工作负载迁移到其中的公司。
架构师修行之路
2022/05/23
1.3K0
Kubernetes 集群需要重点关注的 6 个指标
生气!能省 50% 成本,为啥你不早点让我用 HPA
原文 https://www.chenshaowen.com/blog/how-to-set-hpa-for-kubernetes-app.html
陈少文
2023/06/09
4700
生气!能省 50% 成本,为啥你不早点让我用 HPA
Trimaran: 基于实际负载的K8s调度插件
在 K8s 集群治理过程中,常常会因 CPU 、内存等高使用率状况而形成热点,既影响了当前节点上 Pod 的稳定运行,也会导致节点发生故障的几率的激增。
zouyee
2022/11/07
1.9K0
Trimaran: 基于实际负载的K8s调度插件
游戏业务安全实时计算集群:云原生资源优化实践
毛东方,后台开发工程师,负责IEG-业务安全部的后台实时系统Kubernetes相关的开发与运营,目前主要致力于提高集群的资源利用率,减少机器成本。 背景 随着公司业务上云的呼声越来越高,越来越多的团队已经完成业务上云的进程,K8s 集群在公司整体机器成本中的比重越来越大。 本人所在平台的应用部署上云后,在资源管理方面出现了一系列的问题,这些问题或多或少都对成本优化或应用的服务质量造成了一定程度的影响。 a. 应用资源使用设置不合理 云原生的资源管理方式要求应用在部署之前,提前设置好 CPU、内存、磁盘的
腾讯云原生
2022/09/22
1.4K0
游戏业务安全实时计算集群:云原生资源优化实践
《TKE学习》部署容器服务 TKE(二)
首先您需要创建集群。集群是指容器运行所需云资源的集合,包含了若干台云服务器、负载均衡器等腾讯云资源。
baron
2019/11/18
2.5K0
《TKE学习》部署容器服务 TKE(二)
kubernetes 降本增效标准指南| 资源利用率提升工具大全
王孝威,腾讯云容器产品经理,热衷于为客户提供高效的 Kubernetes 使用方式,为客户极致降本增效服务。 晏子怡,腾讯云容器产品经理,在Kubernetes 弹性伸缩、资源高效利用领域有丰富的实战经验。 背景 公有云的发展为业务的稳定性、可拓展性、便利性带来了极大帮助。这种用租代替买、并且提供完善的技术支持和保障的服务,理应为业务带来降本增效的效果。但实际上业务上云并不意味着成本一定减少,还需适配云上业务的应用开发、架构设计、管理运维、合理使用等多方面解决方案,才能真正助力业务的降本增效。在《Ku
腾讯云原生
2021/04/09
3K1
如何治理资源浪费?百度云原生成本优化最佳实践
作者 | 百度云原生团队 根据 Gartner 的调查数据,到 2022 年底,全球企业在云计算基础设施方面的支出约为 3330 亿美元。麦肯锡在调查报告中指出,2020 年,由于缺乏成本优化手段,80% 企业的云资源成本大幅超出预算;同时,45% 的企业由于缺乏优化措施,在直接迁移上云的过程中会超买 55% 的资源,并且在上云的头 18 个月会多花 70% 的费用。 随着全球经济持续下行,企业应该如何做好精细化运营和降本增效,如何优化云资源的分配、使用和管理成为了当下必须要考虑的问题。 本文将会具体介绍百
深度学习与Python
2023/03/29
1.6K0
如何治理资源浪费?百度云原生成本优化最佳实践
DCOS之监控技术选型(中)
今天我们本节介绍DCOS监控模块的技术选型,主要介绍DCOS监控选型等,接下来,请阅读:DCOS之监控技术选型
zouyee
2021/02/01
6110
最佳实践 | 作业帮云原生成本优化实践
董晓聪,作业帮基础架构负责人,主要负责架构研发、运维、DBA、安全等工作。基于开源的力量,和云厂商一起完成作业帮技术体系的云原生重塑。 项目背景 作业帮教育科技(北京)有限公司成立于2015年,一直致力于用科技手段助力教育普惠,运用人工智能、大数据等前沿技术,为学生提供更高效的学习解决方案。随着业务需求的发展,作业帮的 IT 系统面临巨大挑战,现有基础平台架构已经无法满足快速增长的业务需求。业务对快速迭代、急速弹性、调用链追踪、统一的监控日志平台、提升计算资源利用率等需求迫在眉睫。 2019年下半年,作业
腾讯云原生
2021/11/24
9700
在腾讯云容器服务 TKE 中利用 HPA 实现业务的弹性伸缩
jokey,腾讯云容器产品工程师,热衷于云原生领域。目前主要负责腾讯云TKE 的售中、售后的技术支持,根据客户需求输出合理技术方案与最佳实践。 概述 Kubernetes Pod 水平自动扩缩(Horizontal Pod Autoscaler,以下简称 HPA)可以基于 CPU 利用率、内存利用率和其他自定义的度量指标自动扩缩 Pod 的副本数量,以使得工作负载服务的整体度量水平与用户所设定的目标值匹配。本文将介绍和使用腾讯云容器服务 TKE 的 HPA 功能实现 Pod 自动水平扩缩容。 使用场景 H
腾讯云原生
2020/12/03
2.8K0
推荐阅读
相关推荐
【容器8月报】降本增效产品化特性重磅发布,多项新功能开放体验中
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档