首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Kubernetes 1.35 更新,正在变成另一种系统?AI Workload 只是开始!

Kubernetes 1.35 更新,正在变成另一种系统?AI Workload 只是开始!

作者头像
希里安
发布2026-02-28 18:52:00
发布2026-02-28 18:52:00
1180
举报
文章被收录于专栏:希里安希里安

希里安近日见闻

一转眼,一月已经过去了,临近农历春节了,最近天气都慢慢变暖了,各位读者还好吧,提前祝春节快乐!

每年这个时候,除了工作忙,但是心理状态应该是最轻松的,期待着放假,有什么事心里会告诉自己,年后再说!不知道各位是不是这样的,哈哈!

最近行业内容最热的莫过于AI了,从生成内容转为执行任务,最近很火的OpenClaw就是很好的例子,那么可预见的是AI Agent已经进入爆发前夜,2026年AI将从聊天机器人进入自动执行的Agent时代

那么最后提前祝大家马年快乐!一切顺利

Kubernetes v1.35 “Timbernetes” 发布解析

这份k8s新版本的总结来的有点迟了,说实话,因为没有参与k8s的代码贡献,加上忙工作,只是知道又发布新版本了,对于具体的内容可能就是看别人的文章过了一眼,还得自己总结加深一下印象。今年希里安的目标就是实际参与k8s的代码贡献,学习使用了这么多年,也该做点贡献了,除了让自己能随时关注到新的技术点,也能及时分享给大家。一转眼自己也是跟着发布的节奏发布了一些版本更新的文章,后期持续为大家带来更新!

Kubernetes v1.34 正式发布 :乘风破浪

Kubernetes v1.33 发布:64 项增强,18 项重磅功能转正 Stable!Sidecar 终于 Stable啦!

Kubernets v1.31: 版本最新动态

K8s即将迎来1.30版本

k8s又又更新了啦!1.28: Planternetes发布!

Kubernetes v1.27:Chill Vibes新版本快报

K8s 1.24与Dockershim分手:未来是containerd和CRI-O的世界

为什么想起来看版本发布文档,因为集群从1.34升级到1.35版本的时候发现升级失败了,就回头来看官方发布文档,找到了关键内容,具体的升级内容,这边重新再写一篇分享。

随着 1.35 版本的发布,Kubernetes 已弃用 cgroup v1, 移除将遵循 Kubernetes 弃用策略。默认情况下,kubelet 将不会在 cgroup v1 节点上启动。同时, kubeadm 将开始验证主机上的 cgroups 和 kubelet 版本。如果在主机上检测到 cgroups v1,并且检测到的目标 kubelet 版本为 1.35 或更高版本,则会抛出预检错误。

那么今天这篇文章的内容主要来自官方 Kubernetes 博客总结及 changelog 核心变更信息整理(Kubernetes[1])

2025 年 12 月 17 日,Kubernetes 官方发布了 v1.35 版本(Timbernetes / World Tree Release),官方将 1.35 称为 “世界树版本”,象征 Kubernetes 持续演进。这是截至目前 Kubernetes 社区全年最重要的版本之一。该版本汇聚了 约 60 项功能增强,包括

  • 17 个稳定(GA)特性
  • 19 个 Beta 特性
  • 22 个 Alpha 特性

同时包含若干 API 变更、弃用与升级注意事项。(Kubernetes[2])

本次发布立足稳健和可扩展性,整体方向明确:

  • 调度能力升级,更加智能化
  • 资源管理灵活性提升
  • 安全性增加
  • AI、批量负载支持

可实际上,不管是大型企业还是中小规模公司,最新版的1.35集群除非新功能刚需,实际用的占比应该不大,如果有的话,欢迎交流!

一、版本亮点速览

类别

核心内容

对用户的价值

稳定(GA)

In-Place Pod Resize 资源变更就地调整

不重启 Pod 即可调整 CPU / 内存资源,降低中断风险,提高弹性

Beta

原生 Pod Certificates 工作负载身份

自动证书生成与轮换,简化 mTLS / 零信任架构

Alpha

Node Declared Features 特性声明

控制平面与节点同步特性支持,增强调度安全性

二、核心新特性详解

1.In-Place Pod Resize 正式稳定

经过 6 年多的最初构想,原地 Pod 调整大小功能(也称为原地 Pod 垂直扩展)最初在 Kubernetes v1.27 中以 alpha 形式引入,并在 Kubernetes v1.33 中升级为 beta 版本,现在在 Kubernetes 1.35 中已稳定 (GA)

最重要的更新之一:允许修改运行中的 Pod 的资源请求(requests)和限制(limits),不再需要删除再创建 Pod。该功能最初作为 alpha 引入 v1.27,经过多个版本演进后在 v1.35 正式稳定

关键提升:

  • • CPU / 内存资源就地调整,避免 Pod 重启或应用中断,不过仅限于CPU和内存还得重启Pod
  • • 支持动态增加或减少资源(memory limit 减少受当前使用情况限制)
  • • 提升 Vertical Autoscaler 与集群资源效率
  • • 新增 kubelet 观测指标与事件,有助于监控与故障定位
  • • 降低 SLA 风险,不过也有局限性,得确保node节点有足够的资源

适合场景

  • • ML workload
  • • Batch job
  • • Stateful Service

该特性显著改善了 stateful 服务、批处理和对停机敏感应用的资源管理体验

2. Pod 证书(Pod Certificates)进入 Beta

在以前版本中,Pod 获取证书要外部控制器(如 cert-manager、SPIRE)配合 CRD 和 Sidecar 来管理证书生命周期。v1.35 引入了内置的 Pod 证书请求机制(Kubernetes[2])

主要变化:

  • • kubelet 生成密钥并向 API Server 请求证
  • • 证书自动写入 Pod 文件系统,无需 sidecar 或 secrets 手动管理
  • • 支持自动轮换

这对于希望构建零信任架构、Service Mesh 或安全内部通信的集群是重大简化。

3. 节点声明功能(Node Declared Features)Alpha

痛点:

  • • control plane 升级
  • • node 未升级
  • • scheduler 误调度

当控制平面支持新特性但某些节点尚不支持时,调度可能错误地将 Pod 调度到不兼容的节点。该 Alpha 功能允许节点声明其支持的功能集,在调度和验证阶段使用(Kubernetes[2])

三、稳定(GA)功能毕业一览

除上述 In-Place Resize 外,v1.35 还有多个特性正式进入稳定状态:

  • 服务 PreferSameNode 流量分布策略:增加 PreferSameNode 选项以优先访问本地节点 Endpoint,提高流量局部化效率
  • Job API managedBy 机制:方便外部控制器管理 Job 状态,同步作业生命周期
  • Pod .metadata.generation.status.observedGeneration:帮助客户了解 Pod spec 变更的处理状态
  • Topology Manager 可配置 NUMA 节点上限:支持 NUMA 节点数超 8(适配高端硬件)。(Kubernetes[2])

四、Beta 级功能亮点

这些功能对生产用户提前体验新能力至关重要:

通过 Downward API 暴露节点拓扑标签

Pod 内可以安全访问节点的区域/可用区等标签(环境变量或卷文件形式),无需 RBAC 或额外 API 查询

存储版本迁移原生支持

控制平面内置版本迁移机制,替代旧的手工管理方式,提高数据存储 schema 更新的一致性和可靠性

Pod 支持用户命名空间(User Namespaces)

运行容器内部 root 时映射到主机非特权用户,增强安全隔离

VolumeSource: OCI artifact / image 支持

以前需要init container 下载文件,现在直接从 OCI registry 拉取数据卷。原生支持将 OCI 镜像内容作为卷挂载,简化数据/配置注入流程

适合:

  • • ML model
  • • 配置数据
  • • binary assets

CSI 驱动 ServiceAccount Token 通过 Secrets 字段传递(可选)

提高凭据安全性,避免在 volume_context 中泄露 ServiceAccount Token

五、Alpha 级新探索

v1.35 在调度与批量处理方面推出了几个前沿功能:

Gang Scheduling 支持

允许定义 PodGroup,确保一组 Pods 同时调度成功或全部失败,适合 AI/ML 大规模计算作业调度

扩展容忍算子

允许基于 SLA/可靠性 taints 实现阈值比较,增强调度表达能力

Job 在挂起状态下可变资源

支持在 Job 挂起期间修改其 Pod 模板资源配置,提高批处理调试效率

六、其他重要改进

Dynamic Resource Allocation(DRA)持续改进及默认启用(无须手工开启)

改进 kubelet 重启时的 Pod 状态保持逻辑:避免因重启导致 Ready 状态误判

七、升级注意事项(Urgent Notes)

虽然官方 changelog 主文档有完整变更,但部分关键升级事项必须特别关注:

  • 移除 kubelet 参数 --pod-infra-container-image:升级前请清理该参数,否则 kubelet 启动可能失败
  • cgroups v1 支持变更:新版 kubeadm 引入了更严格的 cgroups 验证器,在检测到 cgroups v1 时将报错而不是警告,建议迁移至 cgroups v2 (Gist[3])
  • kube-proxy IPVS 模式进入废弃阶段: IPVS 模式已被标记为 Deprecated,推荐迁移至 nftables 模式
  • containerd 1.x 生命周期进入尾声 v1.35 是支持 containerd 1.x 的最后阶段版本。kubeadm 将开始验证主机上的 containerd 版本。若检测到已安装容器运行时不满足即将到来的需求,则会在预检时抛出警告提示用户尽快进行升级。用户可以通过 kubelet 提供的 kubelet_cri_losing_support 监控指标来确定集群中是否有节点的容器运行时需要进行升级

八、总结

以上只是部分更新的介绍,一篇文章无法全部总结,所以后面会通过实战使用来不断更新总结用到的更新,欢迎大家关注希里安并交流!

1.35 的真正方向不是单个 feature,而是 Kubernetes 架构演进:

Kubernetes 正在成为 AI-native scheduler

  • • Gang scheduling
  • • Workload API
  • • Batch 优化

Security 原生化

  • • Pod certificate
  • • User namespace

Pod 生命周期变可变

  • • in-place resize
  • • mutable job

OCI 成为统一 artifact 格式

  • • Image volume

Kubernetes v1.35 是一次重要的增强发布,特别对于希望提升资源弹性、安全性和智能调度能力的团队而言:

  • 企业生产环境:建议重点验证 In-Place Pod Resize 与 Pod Certificates 两大功能
  • 平台与调度密集型场景:可提前测试 Gang Scheduling、拓扑标签和 CSI Token 改进
  • 运维升级路径:升级前务必处理 kubelet 参数和 cgroups 配置,以免出现启动失败或行为改变
引用链接

[1] Kubernetes: https://kubernetes.io/blog/2025/12/17/kubernetes-v1-35-release [2] Kubernetes: https://kubernetes.io/blog/2025/12/19/kubernetes-v1-35-in-place-pod-resize-ga [3] Gist: https://gist.github.com/superbrothers/7faac312e8eacf833c79dd58f966db28

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-02-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 希里安 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 希里安近日见闻
  • Kubernetes v1.35 “Timbernetes” 发布解析
    • 一、版本亮点速览
    • 二、核心新特性详解
    • 三、稳定(GA)功能毕业一览
    • 四、Beta 级功能亮点
    • 五、Alpha 级新探索
    • 六、其他重要改进
    • 七、升级注意事项(Urgent Notes)
    • 八、总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档