智能高性能网络作为腾讯万亿大模型的网络底座,基于源端口预规划、端网拓扑亲和、定制加速通信库TCCL、全局拥塞调度等能力,结合腾讯自研网络设备,为用户提供端网深度协同的能力,满足客户超大规模,超高带宽,超强可靠的AI网络需求。
提供超高端口密度的网络交换机,网络单节点支持25.6T/51.2T吞吐。应用先进的 BR4 光模块构建数据桥梁,具有出色的抗干扰能力和低误码率。
AI 大模型训练是一种带宽敏感的计算业务,智能高性能网络为每个计算节点提供1.6T/3.2T的超高通信带宽,每张 GPU 卡提供200Gbps/400Gbps接入带宽,相对传统数据中心网络有指数级的通信性能提升。
智能高性能网络对通信流量做了基于多轨道的流量亲和性规划,多轨道流量聚合架构将不同服务器上位于相同位置的网卡,都归属于同一个接入层交换机,实现流量亲和传输。
融入定制化解决方案,使系统实现了微秒级感知网络质量。结合动态调度机制合理分配通信通道,可以避免因网络问题导致的训练中断等问题,大幅降低通信延时。
通过端网立体化监控与智能定位系统,将端网问题自动定界分析,让整体故障的排查时间由天级降低至分钟级。
智能高性能网络基于以太网标准,协同底层网络硬件与上层集合通信库,基于端网深度协同,实现卓越的通信性能。
整合定制的集合通信库,流量调度系统和精细化的检测能力,有效降低了 RoCE 通信性能抖动的幅度与频率,使训练任务更平稳运行,提升集群有效算力利用率。
智能高性能网络基于以太网技术搭建,通过长期使用开放的标准,以太网形成一套完整且开放的软件生态。同时借鉴多年网络运营经验,在开放生态的基础上逐渐构建了一套成熟高效的运营体系和调试方法,并成功地将这套体系运用在智能高性能网络的运营中,实现了故障的分钟级定位和恢复。
参数量爆发式增加对算力提出更大的要求,而算力性能强依赖于网络,如0.1%的丢包会导致50%的算力损失,网络通信时长在训练过程最高占比超过50%等。智能高性能网络基于超大带宽、超低延时的无损网络,为用户提供超高性能的服务体验。应用场景包括:工业仿真、生命科学、气象预报、能源勘探、科研教育等。
注册腾讯云账号,通过腾讯云智能高性能网络购买页进行购买。
1. 登录 腾讯云智能高性能网络 购买页。
2. 选择可用物理集群,设置包销时长。
3. 勾选自动续费,可开启自动续费功能。同时,可点击设置自动需求跳转至文档,查看修改自动续费设置配置。
4. 确认订单后,您可通过余额支付、网银支付、微信支付、QQ 钱包支付等方式进行支付。
5. 支付完成后,生成对应的物理集群实例,同时物理集群开始计费。