鱼缸启示 其实我认为Scale-out和Scale-up的概念可以用一个简单的例子来解释。 不知您有没有养过鱼?...如果用Scale-up解决方案,那么你就需要去买一个大缸,把所有沙啊、水草啊、布景啊、加热棒、温度计都从小缸里拿出来,重新布置到大缸。...究竟选择scale-up还是scale-out架构,主要考虑以下因素: 成本 Scale-up架构只有容量升级的成本,不会增加控制器或基础设施的开销。...如果我们主要衡量每GB存储的单位价格,scale-up的扩展方式无疑更便宜一些 容量 两种解决方案都可以满足容量需求,但scale-up架构也许会有些限制,主要取决于单个系统最大支持多少个磁盘数量和多大的容量...虽然节点之间的通信会引发延迟,但那是部署时的细节问题 管理 Scale-up架构本身就是以单一系统的方式来进行管理的。
本文将深度剖析字节跳动发布的《GPU Scale-up互联技术白皮书》作为破解MegaScale万卡集群实践的终极难题的“阿基米德支点”——解读字节跳动推出的Ethlink技术如何定义下一代GPU Scale-up...传统Scale-up网络(如NVLink)依赖的Load/Store语义在传输大块数据时会消耗宝贵的计算资源;而传统Scale-out网络(如RoCEv2)的RDMA协议栈又相对笨重。...正如由主流厂商(AMD、Google等科技巨头)参与的超以太网联盟(UEC)在2025年发布全新UET传输协议的1.0规范一样,字节跳动联合北大也推出了自研的Scale-up解决方案:EthLink。...接下来就让小咖带您精读这份白皮书——《字节跳动GPU Scale-up互联技术白皮书》。...3 结论:一场开放生态的“阳谋” 字节跳动联合北大推出的Ethlink解决方案:通过软硬一体的设计,将“尽力而为”的传统以太网,在GPU Scale-up这个特定场景下,成功改造成了一张媲美私有协议的“
今年OFC大会上,对于AI场景下scale-out/scale-up光互连的讨论异常热烈,有数十个相关的workshop与pannel discussion,如下图所示。...节点内的互联则对应scale-up网络,也称为back-end网络,目前主要采用铜缆方案,实现多颗GPU之间高带宽、低延迟的互联。...对于scale-up网络,随着传输速率的进一步提升以及网络规模扩展导致的跨机柜互联需求,未来有望采用光学方案。...VCSEL可否凭借其成本优势应用到在scale-up网络中?Lumentum、Coherent、Furukawa等公司都在进行基于VCSEL方案的CPO开发。...CPO技术是否会提早应用于scale-up网络中?在Nvidia的技术路线中,希望GPU的带宽每两年提升一倍,scale-up中的GPU数目每两年提升2-4倍。
在此背景下,两种扩展模式形成鲜明对比:横向扩展(Scale-Out)依赖Clos层级、叶脊(Leaf-Spine)、网状(Mesh)等灵活的网络拓扑,通过增加节点数量实现规模扩张;纵向扩展(Scale-Up...Link)则成为加速器专用的高速互联标准,这些技术共同构成了Scale-Up的技术底座。...Scale-Up的拓扑设计需围绕“GPU数量-链路数-交换机基数”三者的平衡展开。...总体而言,Scale-Up技术的核心价值在于直接缩短AI模型训练时间、提升计算性能,但其复杂度由GPU数量、扩展带宽及交换机基数共同决定,且受限于数据中心基础设施、机械设计与信号完整性的物理边界。...未来,更高带宽(>212G)技术、优化光模块方案及更大基数交换机的突破,将成为破解Scale-Up落地难题、推动AI集群高效扩展的关键方向。
横向扩展,纵向扩展 Scale-up vs Scale-out Scale-up (纵向扩展) Scale-out(横向扩展)。举个例子,摩尔定律,摩尔定律是指每18个月 CPU 的性能要翻一倍。...这种不断追逐摩尔定律,不断提升 CPU 的方案,就叫做 Scale-up(纵向扩展),把类似CPU 多核心的方案叫做 Scale-out(横向扩展)。...Scale-up: 通过构面更好的硬件来提升系统的并发处理能力,比如从硬件 4核 4G 每秒处理 200 次请求, 那么如果要处理 400 次请求呢,例如可以把硬件升级到 8核 8G Scale-out...scale-up 与 sclae-out 如何选择 系统设计最初的时候,会考虑使用 Scale-up 的方式,因为此方法简单,升级相关硬件就可以,但是当系统并发突破了单台机器的基线时,这个时候,就需要考虑
1 当前Scale-up网络割裂生态 随着AI“军备竞赛”步入万亿参数与数万GPU集群的“深水区”,机柜内部的互联网络(Scale-Up Fabric)已成为制约性能的首要瓶颈,行业普遍认识到,依赖单一供应商专有技术...今年的OCP 2025年在网络层面两大核心变化是:一个是在OCP峰会上正式集结的、由几乎所有行业巨头共同支持的“以太网统一战线”——ESUN(Ethernet for Scale-Up Networking...② ESUN/UEC/SUE-T:站在开放以太网的巨人之上,试图用无处不在的以太网试图融合统一Scale-up与Scale-out这两个壁垒分明的世界。...或许未来Scale-up的割裂生态不复存在,取而代之的是“如何”规模化部署一个由UEC(超以太网联盟)、ESUN和SUE-T(Scale-Up Ethernet Transport)共同定义的、增强版的开放以太网生态系统...图2:ESUN+SUE-T组成新的Scale-up协议 ③ UALink:专注为低延迟内存语义设计的全新协议,试图吸引那些既要超越NVLink性能又追求开放生态系统的高端用户。
二、Scale-Up与Scale-Out架构对比 (一)通信协议与带宽特性 ◆ Scale-Out域 超大规模数据中心在Scale-Out域采用多种通信协议,如Meta的RoCE(基于融合以太网的远程直接内存访问...◆ Scale-Up域 带宽通常是Scale-Out的数倍,要求高带宽、低延迟,典型场景如NVIDIA GB200 NVL72机架设计,通过NVLink连接72块Blackwell GPU,...(二)Meta AI训练集群架构示例 ◆ 架构组成 Scale-Up域通过直接连接电缆(DAC)和机架训练交换机实现机架内GPU互连;Scale-Out域利用可插拔光模块和单模光纤(SMF)...三、Scale-Up域内的I/O挑战 (一)带宽与距离的权衡 ◆ 铜互连局限性 无源铜缆(如DAC)受传输损耗限制,存在带宽-距离乘积上限;有源电缆(AEC)虽延长距离,但面临端口占用、功耗和成本问题...五、结论 随着AI模型规模扩大,Scale-Up域终将突破单机架限制,光互连成为解耦GPU和内存的关键技术。
该架构以统一形态兼容多种互连技术,破解了芯片厂商长期面临的方案选择困境,为数据中心Scale-Up(纵向扩展)与Scale-Out(横向扩展)场景提供了兼具高密度、高良率与低成本的创新路径。...封装尺寸的精准控制至关重要——每增加15mm的封装走线长度(两侧各7.5mm),就会产生约2.5dB的额外损耗,这往往迫使厂商放弃无源铜缆而转向成本更高的光模块,而CPX架构的紧凑设计有效规避了这一问题,为Scale-Up...◆ 场景适配:同时赋能Scale-Up与Scale-Out网络 CPX架构的灵活性使其能够同时满足数据中心Scale-Up与Scale-Out两种核心扩展需求,实现“一套架构,两种场景”的高效适配...在Scale-Up场景中,CPX架构通过共封装铜缆(CPC)连接至SiFly®背板,借助无源背板电缆实现高速传输。
Scale-up通过购买性能更好的硬件提升系统的并发处理能力, 比如:我们向原有的机器增加CPU、内存数。...何时选择Scale-up或Scale-out呢? 一般系统设计初期会考虑使用Scale-up,因为足够简单,堆砌硬件解决即可,但当系统并发超过单机的极限时,就要使用Scale-out了。
Ayar Labs在其官网上给出了Optical IO技术的两个典型应用场景,如下图所示,即AI集群中的scale-up互联和内存扩展。...https://ayarlabs.com/blog/the-future-of-ai-infrastructure-a-path-to-profitability-with-optical-i-o/) 所谓Scale-up...大家所熟知的NVLink和AMD的inifity fabric都属于scale-up互联范畴。Scale-up网络对带宽和延迟要求较高。...Ayar Labs将其TeraPHY芯片与UCIe接口匹配,进而应用于scale-up互联和内存扩展这两种场景,提供高带宽、低延迟、低功耗的互联方案。
/www.broadcom.com/info/optics/cpo#solutions) 针对AI智算中心互联的需求,Broadcom将其CPO的应用领域分为两个方向,分别针对scale-out网络和scale-up...(图片来自) 针对scale-up互联的场景, Broadcom推出了6.4Tbps光引擎chiplet与GPU封装在一起的demo, GPU、HBM等芯片先放置在silicon interposor上...(图片来自文献1) 针对上述的CPO GPU attch,Broadcom提出了下图所示的scale-up网络架构,512个GPU分布在8个rack上,通过64个CPO switch,实现512颗GPU...针对这一问题,Broadcom在去年发布了CPO-BiDi的白皮书,计划推出针对scale-up场景的单纤双向CPO交换机。 对于单个12.8T光引擎来说,光纤可分为两组,对于下图中的红色与蓝色。...Mehta, et.al., "An AI Compute ASIC with Optical Attach to Enable Next Generation Scale-Up Architectures
1 SUE融合Scale-up与Scale-out 继前序两篇文章我们深度剖析了字节跳动EthLink的“单点破局”与UALink联盟的“合纵连横”之后,博通的Scale-Up Ethernet (SUE...这一宏大愿景的“战略宣言”与博通高管发表的官方博客《Scale-up is simple....Ethernet makes it smarter.》的核心论点遥相呼应: 博客核心观点佐证:“Scale-up is simpler than scale-out....其核心价值主张正是用一种技术栈同时解决Scale-up和Scale-out两大难题,打破技术壁垒。...3.4 预告 字节Ethlink的“单点破局”、UALink的“联盟合纵”与SUE的“统一阳谋”——AI Scale-Up互联的三大流派已然登场。
接下来“AGI小咖”立足OCP 2025年峰会,尝试与您揭秘ESUN诞生背后的巨头“新阳谋”与Scale-up新动向,有不妥之处欢迎指点迷津!!!...01 OCP 2025的“惊天变局” 1.1 Scale-up割裂生态回顾 循着“AGI小咖”系列前文的脉络,我们不难发现,在OCP 2025之前,AI GPU Scale-up互联网络已然进入了群雄并起...它正是微软和Meta这两大“吉瓦级”买家战略意志的体现,迫使NVIDIA等厂商必须加入这个开放的Scale-Up(UALink/ESUN)生态。...前者如同华为昇腾384超节点——“分布式”的Scale-Up集群;后者则如同NVIDIA GB200 NVL72——“一体化”的超级单体。...往 期 回 顾 媲美英伟达下一代GPU Scale-up:字节版NVLink重塑MegaScale万卡集群网络?
文章目录 有言在先 处理办法简介 Scale-up && Scale-out 缓存 异步处理 真实场景:这些方法都要用上吗?...---- Scale-up && Scale-out Scale-up,纵向拓展,一种简单粗暴的方法,通过购买性能更好的硬件来提高系统的并发处理能力。...一般来说,系统设计初期的时候,考虑使用Scale-up的方式,因为这种方案足够简单。但是当系统的并发超过了单机处理的极限时,这个方法就行不通了。
1)SMP|NUMA架构下,所有的CPU都在一个server里,操作系统也是一个;属于scale-up架构 2)MPP其实就是SMP|NUMA的多个server通过网络连接在一起,每个server都有自己的操作系统...4)程序=算法+数据结构,其中算法可以算作是cpu处理,而数据结构可以看作是数据存储的话,那么很显然扩展的方向有两个,扩CPU和扩存储;此时又演化为scale-out和scale-up。...5)scale-up的局限性很明显,无论多牛逼总有到头的一天;scale-out则计算和存储是永远可以线性扩展。这也是目前分布式大行其道的原因。
一、AI硬件平台定义 AI硬件平台由前端数据中心网络、Scale-Out集群网络、Scale-Up Pod网络等部分构成,包含CPU、GPU等计算单元,以及DPU、RDMA NICs等连接设备...新的Scale-up接口(UALink) 由UALink联盟开发,旨在为AI加速器提供优化的Scale-up解决方案,具备固定负载、虚拟通道、低延迟等特性,支持数百个加速器在一个pod集群中
AI/ML集群的核心瓶颈在于互连带宽——这类大规模分布式共享内存系统需高带宽、低延迟、无损的互联方案(支持Scale-Up与Scale-Out),而硬件浮点运算能力(FLOPs)与内存/互连带宽的差距已超...ECOC 2025:Meta实测博通Bailly 51.2T CPO交换机,超百万小时可靠性验证支撑超大规模AI数据中心 针对AI Scale-Up场景,Broadcom提出两种方案:VCSEL...Broadcom的Scale up光互联方案:VCSEL NPO与硅光CPO 铜缆在AI Scale-Up场景的局限日益明显:100G/lane铜缆最大传输距离4米,200G/lane仅...,而VCSEL互联能突破铜缆的传输距离与带宽限制,成为Scale-Up场景的核心方案之一。...八、AI集群缩放与散热:Ciena的448G生态与液冷技术 Ciena的Bilal Riaz提出AI集群的三大缩放策略:Scale-Up(提升单lane速率至448G,优化封装与连接器
二、Scale-up vs Scale-out:两种网络架构的博弈 数据中心互联存在两种典型架构,其核心差异直接影响CPO的应用场景定位。...◆ 带宽与可扩展性的显著分野 - Scale-up网络(如NVLink/SUE):以NVLink Gen5为例,带宽可达7.2Tbps,适用于需要大规模算力聚合的场景(如AI训练集群),但规模受限(...◆ 同步风险:Scale-up网络的“阿喀琉斯之踵” Scale-up网络依赖紧密同步的集合通信(如AllReduce),其致命弱点在于无故障转移机制——即使单条链路失效,整个操作也会中断...需根据目标场景(如scale-up)针对性优化。 七、集成模式:从传统到CPO的演进 不同技术路径对应不同的产业链集成模式,其核心差异体现在责任分工与灵活性上。
一、研究范围:两大核心网络领域界定 Liron 首先明确了 AI 数据中心中光学互连的两大应用场景,两者在连接范围、主导介质上存在显著差异: - Scale-up: 定义为“将大量...光学技术优先级判断标准 核心指标是每比特能耗(皮焦/比特,pJ/bit) ——无论技术路径(scale-up/scale-out、光子加速器),最终选择“能耗更低”的方案。...Liron 提到,若能实现“亚皮焦/比特”的链路(已在论文中验证Nvidia:迈向<1pJ/bit高速光互连的路线图),光学技术将在 scale-up 领域(与铜竞争)具备吸引力。...:短期通过 CPO 技术(窄而快)解决当前功耗痛点,长期需通过“宽而慢”路径+2.5D 封装+多波长技术,将性能提升的核心从电子学转移到光子学,最终实现“亚皮焦/比特”的超低能耗,让光学技术同时覆盖 scale-up
然而,摩尔定律放缓导致单节点算力天花板显现,数据中心需通过“纵向扩展(scale-up,提升单节点性能)”与“横向扩展(scale-out,增加节点数量)”构建大规模并行架构——这两种扩展路径均高度依赖高带宽...四、高速传输验证:覆盖scale-up/scale-out全场景 该MRM支持自偏置 与耗尽驱动 两种模式,可分别满足“高能效近距离互连scale up”与“超高速远距离互连scale out...1. scale-up场景:高能效XPU光互连(自偏置模式) 针对XPU与内存池的近距离互连(符合UCIe 2.0、PCIe 5.0/6.0/7.0标准),MRM工作于无DC偏置、低驱动电压模式...WDM扩展:从单波长到太比特级互连 基于MRM的WDM兼容性,可通过多波长集成实现容量倍增: - scale-up场景:每波长支持64 Gbaud PAM4(128 Gbps),76 GHz...场景适配:自偏置/耗尽双模式覆盖XPU互连(scale-up)与集群互连(scale-out),为AI数据中心提供“一站式”光互连解决方案。