容器服务监控组件版本说明

monitor-agent 版本迭代记录
变更时间
版本号
变更内容
限制和影响
2025-09-26
v1.3.21
新增 pod 基本信息指标上报。
优化组件配置，规避升级中可能存在的风险。
此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2025-08-06
v1.3.20
升级第三方库，修复已知安全问题。
此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2025-07-02
v1.3.19
优化内存使用。
修复在部分节点上启动失败的问题。
此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2025-06-06
v1.3.18
修复磁盘指标上报错误的问题。
节点新增包含 iowait 的 CPU 使用率指标。
Pod 指标新增 TcpListenOverflows、TCPTimeouts 指标。
此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2024-11-28
v1.3.17
修复从 standalone-metrics 获取指标时增加超时。
配置适配集群升级后指标端口及协议变更。
修复因 nfs 故障导致获取挂载磁盘指标卡死的问题。
此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2024-07-30
v1.3.16
新增适配 cadvisor 的 systemd 模式。
修复原生节点磁盘相关指标计算时重复统计的问题。
informer list-watch failed 状态的 pod，修改 Job podNormal 逻辑。
此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2024-05-10
v1.3.14
修复 list-watch 时排除掉 Succeeded 和 Failed 状态的 pod。
此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2024-03-18
v1.3.12
暴露 chart 参数，支持以 onDelete 策略升级。
此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2024-02-29
v1.3.11
适配 gpu 指标，pod 和 node 层级的 gpu 指标计算方式由聚合 Container 层级的指标改为直接使用 exporter 暴露的值。
暴露 gpu 指标的组件标签优先使用 gpu-exporter: "true" ，没有这个标签使用 name: gpu-manager-ds。
修复当节点 gpu 驱动异常时会引发程序 panic，不采集 gpu 指标，不影响其他基础指标的采集。
修复向 crane 发送 http 请求拉取数据时，特殊情况下会导致程序卡住，超时取消 http 请求。
修复在大核心节点上，monitor-agent 组件不同时刻会运行在不同的 cpu 核心，长时间累积后会导致 pod 指标 working_set 过大引发 OOM。
修复高版本的 controller-manager 和 scheduler 的 /metrics 端口和协议发生变化，导致监控组件采集不到数据； 适配 controller-manager 和 scheduler 的端口变化。
在节点 io 过大的场景中，由于计算节点 cpu 利用率时包含了 iowait 时间，导致计算的节点 cpu 利用率过高，修改节点 cpu 利用率的计算方式，去掉 iowait 时间。
此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2024-02-04
v1.3.10
monitor-agent 特权模式抽取成 chart 参数，默认关闭特权模式。
此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2023-08-17
v1.3.9
当容器为 creating 状态时，workload 状态为正常问题修复。
使用 kubeletJob 向 kubelet 发送请求时，token 过期，使用 client-go 的机制让 Token 自动刷新，防止 Token 过期。
此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2023-04-25
v1.3.7
修复了 Pod 层级 GPU 利用率（占节点）和 GPU 内存利用率（占节点）指标不能正常采集的问题，以及容器挂载了宿主机目录导致处于 terminating 状态的 pod 删除不掉的问题。
此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2023-03-21
v1.3.6
新增了原生节点相关指标：节点1分钟负载、节点磁盘总量、节点磁盘使用率、节点写带宽。
此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2023-01-18
v1.3.5
优化了当 cadvisor 没暴露指标 container_fs_usage_bytes 和 container_fs_limit_bytes 时，相关监控指标不上报。
此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2023-01-12
v1.3.4
修复了运行时为 containerd 时文件系统使用量指标为0的问题。
此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2022-12-13
v1.3.3
优化了基础监控拉取指标的方式。
此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2022-11-08
v1.3.2
修复了基础监控不能正常上报监控指标的问题。
此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2022-10-20
v1.3.1
修复了指标掉点的问题。
此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2022-08-25
v1.3.0
TKE 基础监控现在支持 PVC 监控指标，包括：PVC 云盘大小、PVC 云盘使用率、PVC 云盘使用量。
此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2022-08-09
v1.2.2
更新了 GPU 指标计算方式。
此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2022-07-28
v1.2.1
更新了节点 CPU 装箱率和节点内存装箱率指标计算方式。
此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2022-07-25
v1.2.0
新增了 Pod CPU 可优化量、Pod 内存可优化量、节点 CPU 装箱率、节点内存装箱率指标。
此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2022-07-21
v1.1.1
修复了基础监控组件在采集、计算、上报周期内没有完成对应周期的采集、计算、上报任务的问题。
此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2022-07-05
v1.1.0
tke-monitor-agent 挂载宿主机路径 /proc/meminfo、/proc/cpuinfo，用于采集节点 CPU 利用率、内存利用率。
此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2022-06-23
v1.0.0
通过 chart 来管理基础监控组件。
此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
clustermonitor 版本迭代记录
变更时间
版本号
变更内容
限制和影响
2026-04-16
v1.3.9
支持 PVC，Workload 维度数据上报。
支持托管组件 karpenter 指标采集。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2026-03-10
v1.3.8
优化控制面指标采集效率。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2025-12-30
v1.3.7
Pod 维度信息增加 Workload 相关字段。
组件支持多副本部署。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2025-11-17
v1.3.6
增加用户集群 Pod 维度信息上报。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2025-09-26
v1.3.5
 优化组件升级过程，降低组件升级风险。
 修复部分已知 bug。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2025-08-06
v1.3.4
增加控制面组件指标采集状态。
升级第三方库，修复已知安全问题。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2025-06-06
v1.3.3
适配独立 apiserver 指标采集。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2025-01-08
v1.3.2
支持控制面组件监控能力。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2024-11-20
v1.2.0
支持原生节点子机监控指标，上报维度服务数据。
监控组件在 CDC 集群异常问题修复。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2024-10-30
v1.1.0
支持通过开关 measure-enabled 选择性开启计量数据上报。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2024-09-24
v1.0.13
修复 CDC 集群场景下 clustermonitor 因初始化 proxy 失败导致的 panic 问题。
修复用户集群中，用户修改节点别名后导致该节点 GPU 总量上报为 0 的问题。
修复 standaloneMetrics 支持节点 instanceid 变动后，使用新的 instanceid 上报节点相关指标。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2024-07-30
v1.0.12
移除 master 监控能力对 token 的依赖，启动参数移除 --token。
修复 ssrf 漏洞。
修复获取集群节点 cpu、memory 时的并发问题。
修复集群 GPU 总量计算为 0，导致 workload 的 GPU 使用率没有值的问题。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2024-03-27
v1.0.11
支持托管集群上报集群存储对象数量指标（pods、configmaps、others）。
计算集群 gpu core、gpu mem 总量时，优先从各个节点的 gpu-exporter 采集数据，如果采集不到则从 node 的 Status 字段获取。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2023-11-05
v1.0.10
支持通过 cluster-monitor 采集托管集群三大件 metrics。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2023-08-21
v1.0.9
修复用户创建的 HPA 是“基于核心资源指标之 CPU 使用量”，会出现 CPU 使用量异常大，导致 HPA 关联的 workload 副本数扩容到允许的最大副本数。
支持 CDC 场景部署到节点。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2023-08-15
v1.0.8
支持 CDC 场景部署到用户集群。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2023-06-20
v1.0.7
成本指标的上报逻辑优化。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2023-06-08
v1.0.6
修复当 Pod 不处于 running 状态时，k8s_pod_ping_succeed 指标不上报的问题。
修复当往 barad 上报的数据条数大于 1000 时，数据缓存没有被清理的问题。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2023-04-03
v1.0.5
clustermonitor service 添加 annotation.service.kubernetes.io/qcloud-loadbalancer-multiplex
: "true"，独立集群场景下与巡检组件复用 ENILB。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2023-03-29
v1.0.4
新增 Node 状态、Pod Ready 状态、成本指标的采集和上报。
HPA 数据源 hpa-metrics-server 指标拉取优化。
metrics-server 版本升级。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2023-03-24
v1.0.3
修复 clustermonitor 版本升级失败问题。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2023-03-16
v1.0.2
修复 apiserver cpu/mem 利用率掉点问题。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。
2023-03-14
v1.0.1
通过 chart 来管理基础监控组件。
此次升级不会对已有业务造成影响，升级过程中存在组件不可用情况，建议业务低峰期升级。

变更时间	版本号	变更内容	限制和影响
2025-09-26	v1.3.21	新增 pod 基本信息指标上报。优化组件配置，规避升级中可能存在的风险。	此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2025-08-06	v1.3.20	升级第三方库，修复已知安全问题。	此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2025-07-02	v1.3.19	优化内存使用。修复在部分节点上启动失败的问题。	此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2025-06-06	v1.3.18	修复磁盘指标上报错误的问题。节点新增包含 iowait 的 CPU 使用率指标。 Pod 指标新增 TcpListenOverflows、TCPTimeouts 指标。	此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2024-11-28	v1.3.17	修复从 standalone-metrics 获取指标时增加超时。配置适配集群升级后指标端口及协议变更。修复因 nfs 故障导致获取挂载磁盘指标卡死的问题。	此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2024-07-30	v1.3.16	新增适配 cadvisor 的 systemd 模式。修复原生节点磁盘相关指标计算时重复统计的问题。 informer list-watch failed 状态的 pod，修改 Job podNormal 逻辑。	此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2024-05-10	v1.3.14	修复 list-watch 时排除掉 Succeeded 和 Failed 状态的 pod。	此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2024-03-18	v1.3.12	暴露 chart 参数，支持以 onDelete 策略升级。	此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2024-02-29	v1.3.11	适配 gpu 指标，pod 和 node 层级的 gpu 指标计算方式由聚合 Container 层级的指标改为直接使用 exporter 暴露的值。暴露 gpu 指标的组件标签优先使用 gpu-exporter: "true" ，没有这个标签使用 name: gpu-manager-ds。修复当节点 gpu 驱动异常时会引发程序 panic，不采集 gpu 指标，不影响其他基础指标的采集。修复向 crane 发送 http 请求拉取数据时，特殊情况下会导致程序卡住，超时取消 http 请求。修复在大核心节点上，monitor-agent 组件不同时刻会运行在不同的 cpu 核心，长时间累积后会导致 pod 指标 working_set 过大引发 OOM。修复高版本的 controller-manager 和 scheduler 的 /metrics 端口和协议发生变化，导致监控组件采集不到数据；适配 controller-manager 和 scheduler 的端口变化。在节点 io 过大的场景中，由于计算节点 cpu 利用率时包含了 iowait 时间，导致计算的节点 cpu 利用率过高，修改节点 cpu 利用率的计算方式，去掉 iowait 时间。	此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2024-02-04	v1.3.10	monitor-agent 特权模式抽取成 chart 参数，默认关闭特权模式。	此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2023-08-17	v1.3.9	当容器为 creating 状态时，workload 状态为正常问题修复。使用 kubeletJob 向 kubelet 发送请求时，token 过期，使用 client-go 的机制让 Token 自动刷新，防止 Token 过期。	此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2023-04-25	v1.3.7	修复了 Pod 层级 GPU 利用率（占节点）和 GPU 内存利用率（占节点）指标不能正常采集的问题，以及容器挂载了宿主机目录导致处于 terminating 状态的 pod 删除不掉的问题。	此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2023-03-21	v1.3.6	新增了原生节点相关指标：节点1分钟负载、节点磁盘总量、节点磁盘使用率、节点写带宽。	此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2023-01-18	v1.3.5	优化了当 cadvisor 没暴露指标 container_fs_usage_bytes 和 container_fs_limit_bytes 时，相关监控指标不上报。	此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2023-01-12	v1.3.4	修复了运行时为 containerd 时文件系统使用量指标为0的问题。	此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2022-12-13	v1.3.3	优化了基础监控拉取指标的方式。	此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2022-11-08	v1.3.2	修复了基础监控不能正常上报监控指标的问题。	此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2022-10-20	v1.3.1	修复了指标掉点的问题。	此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2022-08-25	v1.3.0	TKE 基础监控现在支持 PVC 监控指标，包括：PVC 云盘大小、PVC 云盘使用率、PVC 云盘使用量。	此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2022-08-09	v1.2.2	更新了 GPU 指标计算方式。	此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2022-07-28	v1.2.1	更新了节点 CPU 装箱率和节点内存装箱率指标计算方式。	此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2022-07-25	v1.2.0	新增了 Pod CPU 可优化量、Pod 内存可优化量、节点 CPU 装箱率、节点内存装箱率指标。	此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2022-07-21	v1.1.1	修复了基础监控组件在采集、计算、上报周期内没有完成对应周期的采集、计算、上报任务的问题。	此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2022-07-05	v1.1.0	tke-monitor-agent 挂载宿主机路径 /proc/meminfo、/proc/cpuinfo，用于采集节点 CPU 利用率、内存利用率。	此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。
2022-06-23	v1.0.0	通过 chart 来管理基础监控组件。	此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况，建议业务低峰期升级。