首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >从云计算到智算:TCE的渐进式基础架构演进

从云计算到智算:TCE的渐进式基础架构演进

作者头像
腾讯专有云
发布2025-09-02 08:19:40
发布2025-09-02 08:19:40
1410
举报
文章被收录于专栏:腾讯专有云腾讯专有云

作者:王丙茹

腾讯专有云 TCE 专家产品经理

负责智算产品的私有云规划与落地。拥有 10 余年云计算从业经验,先后负责多款公有云/混合云存储与智算产品从 0 到 1 的规划与建设,具备非常深厚的技术功底与产品思维。

导读:在人工智能技术狂飙突进的今天,基础算力正经历一场从“通用计算”到“智能计算”的深刻变革。这不只是硬件升级,更是计算范式、服务模式与产业生态的系统性重构。

面对数字化转型与大模型浪潮,云计算亟需从资源虚拟化走向智能化。作为这一进程的参与者和推动者,腾讯专有云 TCE 如何通过“公私有云同源同构”的技术路线和渐进式创新路径,为重点行业提供平滑、可靠的智算转型新范式?


需求变革:从"通算"到"智算"的范式转移

大模型时代的到来彻底重塑了算力需求结构,从行业特定需求和云计算技术架构演进两个维度,都发生了结构性变化。

  • 行业特定应用需求:金融、医疗等行业对数据本地化处理的迫切需求,如何帮助客户进行私有化落地,成为重中之重。
  • 云计算基础架构:在应对AI训练与推理任务时,对GPU算力调度、高性能网络和高性能数据存储提出了更高要求。在现有专有云架构下,如何平滑演进到智算架构,成为客户重点关注的目标。

TCE 破局之道:同源同构、统一底座、渐进演进

为应对上述需求变革,TCE 坚持“公私有云同源同构”的技术路线,致力于打造通算智算统一底座,并通过渐进式迭代实现平滑演进。

  • 开放兼容,一云多芯:智算套件从操作系统到物理硬件全面支持一云多芯,满足安全合规要求,为企业提供合规选择和供应链主动权。
  • 全栈智能:基于腾讯公有云技术输出的智算套件,与公有云同架构,可根据客户选择与云、大数据、人工智能全栈产品搭配使用。
  • 为行业赋能:依托 TCE 多年积累,具备完备的计量计费、多租户管理、资源池化等能力,支持组建大型智算中心或构建行业云赋能上下游。
  • 完整运维运营能力:蕴含公有云和专有云大规模稳定运营的最佳实践,提供从资源规划、备份容灾到安全管理的完整产品能力,保障智算基础设施安全稳定高效运行。

TCE 核心引擎:智算基础设施三大支柱

TCE 的核心优势在于,在同一套云平台控制面上,融合管理通用计算与AI算力,提供包括通用计算、高性能计算、AI计算、高性能网络、高性能存储、容器调度以及机器学习/大模型平台在内的多租户服务化能力。

1. 高性能计算集群 (HCC):构建极致并行算力底座

1. 高性能计算集群(HCC):构建极致并行算力底座

高性能计算集群(HCC)以搭载GPU的高性能服务器为节点,通过RDMA(Remote Direct Memory Access)技术实现节点间高速互联,提供高带宽、极低延迟的网络通信。这使其能够高效支撑大规模AI训练、科学计算等需要海量并行计算的任务。

  • 一云多芯:适配兼容NVIDIA、昇腾、昆仑芯、海光、沐曦、天数等多种GPU硬件,为关键行业提供完善智算底座。
  • 高性能VPC网络(HARP):支撑HCC网络性能的关键是腾讯自研的HARP(High Available Reliable Protocol)协议。HARP旨在构建高可用、高可扩展、高性能的统一网络传输服务。

2. 智能高性能网络(IHN):打造零丢包、低时延AI网络

腾讯云智能高性能网络(IHN)是企业级的高性能网络平台,基于腾讯云成熟的运营体系构建。它为AI训练等高要求场景提供高吞吐、低延时、零丢包、横向可扩展的网络连接,并具备智能调度和精细化的业务级运营运维能力,是保障AI集群高效运转的“高速公路”。

  • 超大规模多轨道架构:采用全栈自研交换机,支持100G/200G/400G高速接口;网络架构设计深度优化AI流量特征,路径时延降低40%;支持高冗余bonding组网;通过创新的多轨道组网技术,可弹性支撑高达10万张GPU卡的超大规模集群。
  • 高性能通信库TCCL:自研TCCL(Tencent Collective Communication Library)通信库,能够感知网络拓扑结构,智能调度流量以实现最优路径传输,将关键通信操作(如AllReduce)的链路负载率提升至90%以上,大幅提升分布式训练效率。
  • 全链路智能拥塞调度:内置拥塞调度器,实现对全局业务流的精准监控、智能选择、决策和调度,可在3分钟内快速识别并消除网络拥塞,保障关键业务流畅。
  • 分钟级故障自愈:具备毫秒级时延监控能力,可精细监控到每个网络队列(QP)。能快速定位网络或GPU故障节点,实现集群自愈。网络故障处理达到“1分钟发现、3分钟定位、5分钟自愈”的高效水平。

3. 高性能文件存储 (TurboFS):满足海量数据吞吐与极致性能需求

腾讯云高性能文件存储TurboFS,专为处理AI生成内容(AIGC)、高性能计算(HPC)、大规模媒体处理等场景下的海量数据而设计。它将云平台的存储资源与统一运维管理能力下沉到私有化环境,为用户提供兼具极致性能、数据安全、高可用性和弹性扩展能力的存储解决方案。

  • 高性能:按需扩展,提供整集群TB/s存储带宽、千万级IOPS、百us级延迟,满足AI训练及高性能计算需求。
  • 智能分层降本:支持基于访问热度(atime)的冷热数据自动分层,提供主动沉降/预热支持,对业务透明。在AI训练场景,可自动沉降低频checkpoint和样本文件,降低存储TCO。

TCE 客户案例: 生态共建,互利共赢

广州尚航科技公司是国内领先的IDC及IT基础设施服务提供商,为金融、制造、零售等多个行业提供IDC建设方案、机房及相关网络服务。尚航与腾讯深度合作,采用腾讯专有云 TCE 智算套件作为算力云平台的核心基座,搭建行业领先的算力平台。

  • 平台纳管多种主流GPU硬件,为尚航云终端用户提供一站式自助用云、弹性用云、大规模并行计算以及联机大模型训练服务。
  • 除智能算力场景外,平台同时覆盖云原生、数据库等通算场景,满足客户多种场景诉求,减少重复建设成本。
  • 通过智算套件的租户管理、计费/账单等行业属性的能力,打造智算行业云服务,为行业用户提供高性能的算力服务,推动了行业云属地AI产业的发展。
  • 随着平台的投产和运营,尚航算力平台凭借其卓越的运营效能和技术先进性,获得了2024年工信部主办的可信云大会“一云多算”最佳案例殊荣。

TCE 未来展望:云智一体的"数字神经中枢"

当云计算完成向智算的终极跃迁,企业竞争力的核心将从“拥有多少算力”转向“创造多少智能”。

腾讯专有云 TCE 的演进不会止步于强大的智算基础设施。未来,我们将持续深化整合腾讯云在智算加速引擎、训练与推理平台等领域的领先产品和技术积累,逐步构建覆盖从底层智算基础设施到上层AI应用的全栈式解决方案。

腾讯专有云 TCE 的终极愿景,是超越传统资源提供者的角色,进化为深度融合高效算力调度、智能数据流通和模型智能涌现能力的“数字神经中枢”,成为驱动千行百业智能化创新与价值创造的核心引擎。

END

关注腾讯专有云公众号,了解更多云与 AI 应用的最佳实践!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-08-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯专有云 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档