
作者:腾讯云架构师技术同盟上海同盟 陈凯里
上海人工智能实验室DeepLink项目组前技术团队成员:陈驰宇[1]
异构芯片集群部署场景下,英伟达、昇腾、壁仞等厂商芯片因架构异构性(CUDA/ROCm/CANN 指令集不兼容)、协议差异性(PCIe Gen5/CCIX/RDMA 交互格式冲突)、算力错配性(不同精度算力供给与负载需求不匹配),存在三大核心痛点:
在此背景下,上海人工智能实验室整合产学研资源推出 DeepLink 开放计算体系,核心目标是搭建硬件芯片与深度学习软件框架的适配桥梁,实现软硬件解耦,其底层架构深度借鉴 IT 领域分布式、微服务设计逻辑。
DeepLink 采用五层金字塔架构,从下至上实现 “硬件 - 协议 - 计算 - 调度 - 应用” 的全链路管控,各层核心逻辑如下:



以千亿参数大模型跨域混训为例,全链路流程为:
DeepLink 已在多领域实现规模化落地,核心场景成效如下:
同时,针对智能制造、元宇宙、农业科技、航空航天等潜力领域,DeepLink 也已形成定制化解决方案,可根据场景需求适配芯片规模与调度策略。
DeepLink 初期 SDK 适配成本仅 3-8 万元 / 套,远低于企业自研方案的 50-100 万元;落地后人均运维算力规模从 500 卡 / 人提升至 1200 卡 / 人,运维成本降低 45%-65%;算力利用率从 35% 升至 65% 以上,单集群年节省芯片采购成本 200-300 万元,平均回本周期仅 6 个月。20 + 落地企业验证,其算力利用率提升≥30%,跨域混训故障率下降 80% 以上。
对入门学习者而言,可围绕两大方向搭建知识体系:
目前 DeepLink 仍存在长尾芯片适配率不足 50%、高并发场景故障率约 7%、跨域功耗较同域高 18% 等问题。
未来发展方向畅想 :
[1] PyTorch Distributed: Experiences on Accelerating Data Parallel Training [EB/OL]. PyTorch 官方团队,2024. https://pytorch.org/docs/stable/generated/torch.nn.parallel.DistributedDataParallel.html.
[2] Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism [J/OL]. NVIDIA Megatron-LM 团队,2019. https://arxiv.org/abs/1909.08053.
[3] Efficient 3D Parallelism for Training Massive Large Language Models [J/OL]. Colossal-AI 团队,2021. https://arxiv.org/abs/2104.05343.
[4] GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism [J/OL]. Google Brain 团队,2018. https://arxiv.org/abs/1811.06965.
[5] PipeDream: Fast and Efficient Pipeline Parallel DNN Training [J/OL]. CMU & Facebook AI 团队,2018. https://arxiv.org/abs/1806.03377.
[6] Parameter Server for Distributed Machine Learning [R/OL]. 李沐(MXNet/AWS)团队,2014. https://www.cs.cmu.edu/~muli/file/parameter_server.pdf.
[7] 3D 并行与 4D 并行(行业实践总结)[EB/OL]. CSDN 技术社区,2025. https://blog.csdn.net/m0_60388871/article/details/149176795.
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。