首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >DeepLink:异构芯片跨域混训核心解决方案

DeepLink:异构芯片跨域混训核心解决方案

原创
作者头像
math chen
修改2025-12-10 20:14:34
修改2025-12-10 20:14:34
610
举报

作者:腾讯云架构师技术同盟上海同盟 陈凯里

上海人工智能实验室DeepLink项目组前技术团队成员:陈驰宇[1]

一、背景:AI 算力生态的核心痛点

异构芯片集群部署场景下,英伟达、昇腾、壁仞等厂商芯片因架构异构性(CUDA/ROCm/CANN 指令集不兼容)、协议差异性(PCIe Gen5/CCIX/RDMA 交互格式冲突)、算力错配性(不同精度算力供给与负载需求不匹配),存在三大核心痛点:

  1. 协议适配难:跨域混训协议协商失败率 40%,单芯片完成多框架适配需投入 1.2 人年研发精力;
  2. 算力利用率低:FP32/FP16/INT8 不同精度下算力利用率仅 35%-40%,算力碎片率超 50%,峰值算力空转损耗达 2.8PFLOPS / 集群;
  3. 传输时延高:跨域通信时延从同域 μs 级(平均 50μs)扩大至 ms 级(平均 15ms),单指令交互 RTT 较同域增加 300 倍,制约千卡集群分布式训练效率。

在此背景下,上海人工智能实验室整合产学研资源推出 DeepLink 开放计算体系,核心目标是搭建硬件芯片与深度学习软件框架的适配桥梁,实现软硬件解耦,其底层架构深度借鉴 IT 领域分布式、微服务设计逻辑。

二、解决方案

2.1 核心技术能力

  1. 跨域混训适配:基于 UDMA(用户态直接内存访问)架构封装通信协议,统一 CCIX/PCIe Gen5/RDMA 交互接口,实测跨域混训协议适配成功率从行业平均 50% 提升至 90% 以上,等效算力可达集群理论值的 95%,千公里级智算中心混训延迟控制在 5 毫秒以内;
  2. 多框架兼容:已完成与 PyTorch、TensorFlow、MindSpore 等主流框架适配,提供超 300 个标准算子接口、支持 11000 + 算子测例,芯片厂商单模型适配效率提升 100%,同时支持 PyTorch2.0“算子模式 + 编译模式” 双路径接入,推理场景性能加速 60%;
  3. IT infra 支撑要求:需依托专业算力服务商、企业自建团队搭建底层基础设施,包括带宽≥200Gbps 的低时延网络、IOPS≥10 万的分布式存储、兼容 K8s/OpenStack 的算力调度平台,芯片规模可按场景梯度适配(轻量场景 50-200 卡、中大型场景 500-2000 卡、超大规模场景 1000-4000 卡)。

2.2 五层金字塔技术架构

DeepLink 采用五层金字塔架构,从下至上实现 “硬件 - 协议 - 计算 - 调度 - 应用” 的全链路管控,各层核心逻辑如下:

  • 硬件适配层:基于 LLVM 构建通用指令集翻译层,将不同芯片私有指令集转换为统一中间表示,同时通过 SMI 接口实现芯片故障秒级检测与算力热迁移;
  • 通信协议层:统一底层通信协议接口,采用 Ring - All - reduce 算法优化梯度聚合通信,结合国密 SM4 算法实现梯度数据端到端加密;
 Ring - All - reduce 算法
Ring - All - reduce 算法
  • 并行计算层:依托 3D 并行逻辑拆解算力调度需求,数据并行按 batch 拆分数据并汇总梯转,将 “流水线气泡” 占比降至 15% 以下;
  • 参数调度层:基于经典 PS 架构实现梯度计算与汇总,Worker 节点仅拉取高维稀疏特征参数降低通信量,Server 节点采用主从架构实现参数备份与冷热分离存储,调度中心对标 UC4/K8s 实现数据分配、负载均衡与故障转移;
PS架构图
PS架构图
  • 应用服务层:提供标准化业务接入 API 与模型适配插件,支持 CV、NLP、自动驾驶等多场景快速接入,模型适配成功率≥95%。

2.3 标准技术架构图

DeepLink 标准技术架构图
DeepLink 标准技术架构图

2.4 跨域混训核心技术流程

以千亿参数大模型跨域混训为例,全链路流程为:

  1. 初始化:完成跨域网络、存储部署与芯片驱动适配,生成统一指令集中间表示;
  2. 模型拆分:按 “8 路数据并行 + 16 路张量并行 + 4 路流水线并行” 完成模型拆分,总并行度达 512 路;
  3. 训练计算:Worker 节点拉取参数完成局部梯度计算,通过 Ring - All - reduce 算法汇总梯度并同步至 Server 节点更新;
  4. 故障处理:故障节点秒级检测,任务迁移至备用节点,断点续训耗时<10 分钟;
  5. 结果输出:训练完成的模型通过应用层 API 接入业务系统实现推理。

三、行业落地场景

DeepLink 已在多领域实现规模化落地,核心场景成效如下:

  1. 通信行业:联通、电信 10 + 省级智算中心实现算力统一调度,跨域大模型训练效率提升 40%,算力利用率从 45% 升至 75%,AI 客服日均处理咨询超 10 万次;
  2. 计算机视觉:商汤科技 2000 卡级异构集群适配后,人脸识别推理时延从 200ms 降至 80ms,视频分析算力成本降低 50%,国产化芯片适配率达 100%;
  3. 能源与航运:仪电集团边缘 + 云端异构集群调度时延<10ms,设备故障预测准确率提升至 92%,航运油耗优化率 8%,集团年降本超千万元;
  4. 其他场景:自动驾驶领域仿真测试算力效率提升 35%,金融科技领域算力调度稳定性达 99.99%,医疗影像领域推理效率提升 50%。

同时,针对智能制造、元宇宙、农业科技、航空航天等潜力领域,DeepLink 也已形成定制化解决方案,可根据场景需求适配芯片规模与调度策略。

四、投入产出与学习方向

4.1 投入产出价值(量化描述与方案价值总结)

DeepLink 初期 SDK 适配成本仅 3-8 万元 / 套,远低于企业自研方案的 50-100 万元;落地后人均运维算力规模从 500 卡 / 人提升至 1200 卡 / 人,运维成本降低 45%-65%;算力利用率从 35% 升至 65% 以上,单集群年节省芯片采购成本 200-300 万元,平均回本周期仅 6 个月。20 + 落地企业验证,其算力利用率提升≥30%,跨域混训故障率下降 80% 以上。

4.2 技术学习方向

对入门学习者而言,可围绕两大方向搭建知识体系:

  1. 芯片底层方向:学习异构芯片架构、通信协议(PCIe/CCIX)、指令集设计,理解 DeepLink 协议适配的底层逻辑;
  2. 算法框架方向:深耕经典机器学习、强化学习及人工神经网络(CNN/RNN/Transformer)等新老框架,掌握 3D 并行、PS 架构背后的算法思想,实现 “软件适配硬件算力” 的能力闭环。

五、未来发展方向畅想

目前 DeepLink 仍存在长尾芯片适配率不足 50%、高并发场景故障率约 7%、跨域功耗较同域高 18% 等问题。

未来发展方向畅想 :

  1. LLVM 指令集翻译层缩短适配周期
  2. 接入具身智能体实现故障智能修复
  3. 同时探索量子 - 经典算力协同 ( 量子计算和量子计算机可能可以创造下一个5万亿美金的公司——下一个英伟达NVIDIA )
  4. 去中心化算力调度等前沿方向

参考文献

[1] PyTorch Distributed: Experiences on Accelerating Data Parallel Training [EB/OL]. PyTorch 官方团队,2024. https://pytorch.org/docs/stable/generated/torch.nn.parallel.DistributedDataParallel.html.

[2] Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism [J/OL]. NVIDIA Megatron-LM 团队,2019. https://arxiv.org/abs/1909.08053.

[3] Efficient 3D Parallelism for Training Massive Large Language Models [J/OL]. Colossal-AI 团队,2021. https://arxiv.org/abs/2104.05343.

[4] GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism [J/OL]. Google Brain 团队,2018. https://arxiv.org/abs/1811.06965.

[5] PipeDream: Fast and Efficient Pipeline Parallel DNN Training [J/OL]. CMU & Facebook AI 团队,2018. https://arxiv.org/abs/1806.03377.

[6] Parameter Server for Distributed Machine Learning [R/OL]. 李沐(MXNet/AWS)团队,2014. https://www.cs.cmu.edu/~muli/file/parameter_server.pdf.

[7] 3D 并行与 4D 并行(行业实践总结)[EB/OL]. CSDN 技术社区,2025. https://blog.csdn.net/m0_60388871/article/details/149176795.

  1. 陈驰宇:上海人工智能实验室 ( 浦江实验室,Shanghai AI Lab ) ,我的高中学弟和合作者,为我解读DeepLink 公开技术解决方案框架,交流DeepLink技术方案和DeepLink未来发展方向

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、背景:AI 算力生态的核心痛点
  • 二、解决方案
    • 2.1 核心技术能力
    • 2.2 五层金字塔技术架构
    • 2.3 标准技术架构图
    • 2.4 跨域混训核心技术流程
  • 三、行业落地场景
  • 四、投入产出与学习方向
    • 4.1 投入产出价值(量化描述与方案价值总结)
    • 4.2 技术学习方向
  • 五、未来发展方向畅想
  • 参考文献
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档