首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >VLSI 2025 AMD短课:AI硬件平台的架构演进

VLSI 2025 AMD短课:AI硬件平台的架构演进

作者头像
光芯
发布2025-07-24 17:06:41
发布2025-07-24 17:06:41
1630
举报
文章被收录于专栏:光芯前沿光芯前沿
该报告是2025年VLSI会议上AMD关于AI硬件平台的架构趋势的短课内容,作者为Norm James。

一、AI硬件平台定义

AI硬件平台由前端数据中心网络、Scale-Out集群网络、Scale-Up Pod网络等部分构成,包含CPU、GPU等计算单元,以及DPU、RDMA NICs等连接设备,实现与存储、其他系统及互联网等的连接。

二、AI平台接口

1. PCIe的作用与局限

通用计算平台长期依赖PCIe连接设备与主机CPU,其带宽约每3年翻倍,但无法满足AI平台对更高带宽和更低延迟的需求,促使加速器设计者寻找替代接口。

2. 其他接口

包括Nvlink、INFINIBAND以及自定义接口等,用于满足不同场景下的连接需求。

3. 新的Scale-up接口(UALink)

由UALink联盟开发,旨在为AI加速器提供优化的Scale-up解决方案,具备固定负载、虚拟通道、低延迟等特性,支持数百个加速器在一个pod集群中,聚焦低延迟、高带宽等方面。

三、加速器趋势

1. 功率不断增加,为在插槽内实现性能最大化,因为插槽内通信更高效,可处理更大工作负载。

2. I/O功率在总功率中的占比逐渐增大。

3. 封装内存容量不断提升,同时封装和电源解决方案占用空间更多。

四、Scale Up与Scale Out

1. Scale Up

指加速器之间紧密耦合的互连,通常使用铜缆以降低成本和功耗,可直接连接或通过交换机连接,带宽高,域大小适中(<1000个节点),需先进行Scale Up再进行Scale Out。

2. Scale Out

指更大的数据路径网络,通常使用传统网络适配器和交换机,短距离用铜缆,长距离用光纤,带宽中等,域大小大(数千个节点)。

3. 历史发展

非加速服务器经历了从Scale Up到Scale Out的过渡,大型SMP系统构建复杂,后来将复杂性转移到应用程序以管理大量服务器。

五、Scale Up相关要点

1. 域大小与带宽

AI平台需要更多功率、内存容量等,多种并行算法(如张量并行、管道并行、专家并行)都对高Scale Up带宽有需求,接口速度不断提升以满足带宽需求,且希望使用无源铜缆以降低成本和功耗,目前尚未完成从Scale Up到Scale Out的过渡。

2. 网络考虑

Scale Out通常由PCIe连接的传统网络适配器提供,可能影响密度,与Scale Up的带宽比约为10:1,不同机架的Scale Out交换机使用光收发器。

3. 互连与影响

pod大小受铜缆传输距离限制,每个加速器需相互连接或与交换机连接,pod大小增大会增加物理分离;Scale Up pod受复杂性、铜缆传输距离、封装密度等因素限制,可能需要液体冷却等特殊基础设施。

六、高密度计算趋势及影响

1. 趋势

AI集群的规模不断扩大,远超HPC超级计算机和大型机。

2. 次要影响

包括需要液体冷却以减小机箱尺寸,气流管理困难,维护性降低,以及液体冷却带来的泄漏控制和检测问题。

3. 液体冷却

HPC率先采用液体冷却,AI平台也逐渐更多地使用液体冷却,AI对功率的高需求推动流体温度降低,且液体冷却会增加组件拆卸难度。

七、铜互连与光学互连

1. 铜互连限制

存在多种损耗,随着比特率增加,短距离将向光学过渡。

2. 光学互连

AI的发展推动光学互连的应用,预计在计算层面也将很快采用;但光学互连在短距离应用中面临冷却、硅封装尺寸、激光器可靠性和成本等挑战;同时,光学互连除了提供高带宽、低功耗解决方案,还能简化AI系统中的一些挑战,如允许降低密度等。

八、总结

1. 目前AI硬件平台主要推动高密度解决方案,以最小化铜互连长度。

2. 高密度平台带来了液体冷却等额外问题。

3. 未来若光学互连成本、功耗足够低且可靠性高,可能取代铜作为本地互连,此时密度的重要性将降低。

以下为完整Slides:

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-07-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 光芯 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档