monitor-agent 版本迭代记录
变更时间 | 版本号 | 变更内容 | 限制和影响 |
2024-07-30 | v1.3.16 | 新增适配 cadvisor 的 systemd 模式。 修复原生节点磁盘相关指标计算时重复统计的问题。 informer list-watch failed 状态的 pod,修改 Job podNormal 逻辑。 | 此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况,建议业务低峰期升级。 |
2024-05-10 | v1.3.14 | 修复 list-watch 时排除掉 Succeeded 和 Failed 状态的 pod。 | 此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况,建议业务低峰期升级。 |
2024-03-18 | v1.3.12 | 暴露 chart 参数,支持以 onDelete 策略升级。 | 此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况,建议业务低峰期升级。 |
2024-02-29 | v1.3.11 | 适配 gpu 指标,pod 和 node 层级的 gpu 指标计算方式由聚合 container 层级的指标改为直接使用 exporter 暴露的值。 暴露 gpu 指标的组件标签优先使用 gpu-exporter: "true" ,没有这个标签使用 name: gpu-manager-ds。 修复当节点 gpu 驱动异常时会引发程序 panic,不采集 gpu 指标,不影响其他基础指标的采集。 修复向 crane 发送 http 请求拉取数据时,特殊情况下会导致程序卡住,超时取消 http 请求。 修复在大核心节点上,monitor-agent 组件不同时刻会运行在不同的 cpu 核心,长时间累积后会导致 pod 指标 working_set 过大引发 oom。 修复高版本的 controller-manager 和 scheduler 的 /metrics 端口和协议发生变化,导致监控组件采集不到数据; 适配 controller-manager 和 scheduler 的端口变化。 在节点 io 过大的场景中,由于计算节点 cpu 利用率时包含了 iowait 时间,导致计算的节点 cpu 利用率过高,修改节点 cpu 利用率的计算方式,去掉 iowait 时间。 | 此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况,建议业务低峰期升级。 |
2024-02-4 | v1.3.10 | monitor-agent 特权模式抽取成 chart 参数,默认关闭特权模式。 | 此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况,建议业务低峰期升级。 |
2023-08-17 | v1.3.9 | 当容器为 creating 状态时,workload 状态为正常问题修复。 使用 kubeletJob 向 kubelet 发送请求时,Token 过期,使用 client-go 的机制让 Token 自动刷新,防止 Token 过期。 | 此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况,建议业务低峰期升级。 |
2023-06-20 | v1.3.8 | 修复了内部用户容器层级指标采集逻辑。 | 此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况,建议业务低峰期升级。 |
2023-04-25 | v1.3.7 | 修复了 Pod 层级 GPU 利用率(占节点)和 GPU 内存利用率(占节点)指标不能正常采集的问题,以及容器挂载了宿主机目录导致处于 terminating 状态的 pod 删除不掉的问题。 | 此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况,建议业务低峰期升级。 |
2023-03-21 | v1.3.6 | 新增了原生节点相关指标:节点1分钟负载、节点磁盘总量、节点磁盘使用率、节点写带宽。 | 此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况,建议业务低峰期升级。 |
2023-01-18 | v1.3.5 | 优化了当 cadvisor 没暴露指标container_fs_usage_bytes 和container_fs_limit_bytes 时,相关监控指标不上报。 | 此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况,建议业务低峰期升级。 |
2023-01-12 | v1.3.4 | 修复了运行时为 containerd 时文件系统使用量指标为0的问题。 | 此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况,建议业务低峰期升级。 |
2022-12-13 | v1.3.3 | 优化了基础监控拉取指标的方式。 | 此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况,建议业务低峰期升级。 |
2022-11-08 | v1.3.2 | 修复了基础监控不能正常上报监控指标的问题。 | 此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况,建议业务低峰期升级。 |
2022-10-20 | v1.3.1 | 修复了指标掉点的问题。 | 此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况,建议业务低峰期升级。 |
2022-08-25 | v1.3.0 | TKE 基础监控现在支持 PVC 监控指标,包括:PVC 云盘大小、PVC 云盘使用率、PVC 云盘使用量。 | 此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况,建议业务低峰期升级。 |
2022-08-09 | v1.2.2 | 更新了 GPU 指标计算方式。 | 此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况,建议业务低峰期升级。 |
2022-07-28 | v1.2.1 | 更新了节点 CPU 装箱率和节点内存装箱率指标计算方式。 | 此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况,建议业务低峰期升级。 |
2022-07-25 | v1.2.0 | 新增了 Pod CPU 可优化量、Pod 内存可优化量、节点 CPU 装箱率、节点内存装箱率指标。 | 此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况,建议业务低峰期升级。 |
2022-07-21 | v1.1.1 | 修复了基础监控组件在采集、计算、上报周期内没有完成对应周期的采集、计算、上报任务的问题。 | 此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况,建议业务低峰期升级。 |
2022-07-05 | v1.1.0 | tke-monitor-agent 挂载宿主机路径 /proc/meminfo、/proc/cpuinfo,用于采集节点 CPU 利用率、内存利用率。 | 此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况,建议业务低峰期升级。 |
2022-06-23 | v1.0.0 | 通过 chart 来管理基础监控组件。 | 此次升级不会对已有业务造成影响。升级过程中可能存在组件不可用情况,建议业务低峰期升级。 |
clustermonitor 版本迭代记录
变更时间 | 版本号 | 变更内容 | 限制和影响 |
2024-07-30 | v1.0.12 | 移除 master 监控能力对 token 的依赖, 启动参数移除 --token 。 修复 ssrf 漏洞。 修复获取集群节点 cpu、memory 时的并发问题。 修复集群 gpu 总量计算为0,导致 workload 的 gpu 使用率没有值。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2024-03-27 | v1.0.11 | 支持托管集群上报集群存储对象数量指标(pods、configmaps、others)。 计算集群 gpu core、gpu mem 总量时,优先从各个节点的 gpu-exporter 采集数据,如果采集不到则从 node 的 Status 字段获取。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-11-05 | v1.0.10 | 支持通过 cluster-monitor 采集托管集群三大件 metrics。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-08-21 | v1.0.9 | 修复用户创建的 HPA 是“基于核心资源指标之 CPU 使用量”,会出现 CPU 使用量异常大,导致 HPA 关联的 workload 副本数扩容到允许的最大副本数。 支持 cdc 场景部署到节点。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-08-15 | v1.0.8 | 支持 cdc 场景部署到用户集群。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-06-20 | v1.0.7 | 成本指标的上报逻辑优化。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-06-08 | v1.0.6 | 修复:当 Pod 不处于 running 状态时,k8s_pod_ping_succeed 指标不上报。 修复:当往 barad 上报的数据条数大于1000时,数据缓存没有被清理问题。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-04-03 | v1.0.5 | clustermonitor service 添加 annotation.service.kubernetes.io/qcloud-loadbalancer-multiplex
: "true" ,独立集群场景下与巡检组件复用 ENILB。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-03-29 | v1.0.4 | 新增 Node 状态、Pod Ready 状态、成本指标的采集和上报。 hpa 数据源 hpa-metrics-server 指标拉取优化。 metrics-server 版本升级。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-03-24 | v1.0.3 | 修复 clustermonitor 版本升级失败问题。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-03-16 | v1.0.2 | 修复 apiserver cpu/mem 利用率掉点问题。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |
2023-03-14 | v1.0.1 | 通过 chart 来管理基础监控组件。 | 此次升级不会对已有业务造成影响,升级过程中存在组件不可用情况,建议业务低峰期升级。 |