鱼缸启示 其实我认为Scale-out和Scale-up的概念可以用一个简单的例子来解释。 不知您有没有养过鱼?...如果用Scale-up解决方案,那么你就需要去买一个大缸,把所有沙啊、水草啊、布景啊、加热棒、温度计都从小缸里拿出来,重新布置到大缸。...究竟选择scale-up还是scale-out架构,主要考虑以下因素: 成本 Scale-up架构只有容量升级的成本,不会增加控制器或基础设施的开销。...如果我们主要衡量每GB存储的单位价格,scale-up的扩展方式无疑更便宜一些 容量 两种解决方案都可以满足容量需求,但scale-up架构也许会有些限制,主要取决于单个系统最大支持多少个磁盘数量和多大的容量...虽然节点之间的通信会引发延迟,但那是部署时的细节问题 管理 Scale-up架构本身就是以单一系统的方式来进行管理的。
在此背景下,两种扩展模式形成鲜明对比:横向扩展(Scale-Out)依赖Clos层级、叶脊(Leaf-Spine)、网状(Mesh)等灵活的网络拓扑,通过增加节点数量实现规模扩张;纵向扩展(Scale-Up...Link)则成为加速器专用的高速互联标准,这些技术共同构成了Scale-Up的技术底座。...Scale-Up的拓扑设计需围绕“GPU数量-链路数-交换机基数”三者的平衡展开。...总体而言,Scale-Up技术的核心价值在于直接缩短AI模型训练时间、提升计算性能,但其复杂度由GPU数量、扩展带宽及交换机基数共同决定,且受限于数据中心基础设施、机械设计与信号完整性的物理边界。...未来,更高带宽(>212G)技术、优化光模块方案及更大基数交换机的突破,将成为破解Scale-Up落地难题、推动AI集群高效扩展的关键方向。
横向扩展,纵向扩展 Scale-up vs Scale-out Scale-up (纵向扩展) Scale-out(横向扩展)。举个例子,摩尔定律,摩尔定律是指每18个月 CPU 的性能要翻一倍。...这种不断追逐摩尔定律,不断提升 CPU 的方案,就叫做 Scale-up(纵向扩展),把类似CPU 多核心的方案叫做 Scale-out(横向扩展)。...Scale-up: 通过构面更好的硬件来提升系统的并发处理能力,比如从硬件 4核 4G 每秒处理 200 次请求, 那么如果要处理 400 次请求呢,例如可以把硬件升级到 8核 8G Scale-out...scale-up 与 sclae-out 如何选择 系统设计最初的时候,会考虑使用 Scale-up 的方式,因为此方法简单,升级相关硬件就可以,但是当系统并发突破了单台机器的基线时,这个时候,就需要考虑
今年OFC大会上,对于AI场景下scale-out/scale-up光互连的讨论异常热烈,有数十个相关的workshop与pannel discussion,如下图所示。...节点内的互联则对应scale-up网络,也称为back-end网络,目前主要采用铜缆方案,实现多颗GPU之间高带宽、低延迟的互联。...对于scale-up网络,随着传输速率的进一步提升以及网络规模扩展导致的跨机柜互联需求,未来有望采用光学方案。...VCSEL可否凭借其成本优势应用到在scale-up网络中?Lumentum、Coherent、Furukawa等公司都在进行基于VCSEL方案的CPO开发。...CPO技术是否会提早应用于scale-up网络中?在Nvidia的技术路线中,希望GPU的带宽每两年提升一倍,scale-up中的GPU数目每两年提升2-4倍。
二、Scale-Up与Scale-Out架构对比 (一)通信协议与带宽特性 ◆ Scale-Out域 超大规模数据中心在Scale-Out域采用多种通信协议,如Meta的RoCE(基于融合以太网的远程直接内存访问...◆ Scale-Up域 带宽通常是Scale-Out的数倍,要求高带宽、低延迟,典型场景如NVIDIA GB200 NVL72机架设计,通过NVLink连接72块Blackwell GPU,...(二)Meta AI训练集群架构示例 ◆ 架构组成 Scale-Up域通过直接连接电缆(DAC)和机架训练交换机实现机架内GPU互连;Scale-Out域利用可插拔光模块和单模光纤(SMF)...三、Scale-Up域内的I/O挑战 (一)带宽与距离的权衡 ◆ 铜互连局限性 无源铜缆(如DAC)受传输损耗限制,存在带宽-距离乘积上限;有源电缆(AEC)虽延长距离,但面临端口占用、功耗和成本问题...五、结论 随着AI模型规模扩大,Scale-Up域终将突破单机架限制,光互连成为解耦GPU和内存的关键技术。
Scale-up通过购买性能更好的硬件提升系统的并发处理能力, 比如:我们向原有的机器增加CPU、内存数。...何时选择Scale-up或Scale-out呢? 一般系统设计初期会考虑使用Scale-up,因为足够简单,堆砌硬件解决即可,但当系统并发超过单机的极限时,就要使用Scale-out了。
Ayar Labs在其官网上给出了Optical IO技术的两个典型应用场景,如下图所示,即AI集群中的scale-up互联和内存扩展。...https://ayarlabs.com/blog/the-future-of-ai-infrastructure-a-path-to-profitability-with-optical-i-o/) 所谓Scale-up...大家所熟知的NVLink和AMD的inifity fabric都属于scale-up互联范畴。Scale-up网络对带宽和延迟要求较高。...Ayar Labs将其TeraPHY芯片与UCIe接口匹配,进而应用于scale-up互联和内存扩展这两种场景,提供高带宽、低延迟、低功耗的互联方案。
/www.broadcom.com/info/optics/cpo#solutions) 针对AI智算中心互联的需求,Broadcom将其CPO的应用领域分为两个方向,分别针对scale-out网络和scale-up...(图片来自) 针对scale-up互联的场景, Broadcom推出了6.4Tbps光引擎chiplet与GPU封装在一起的demo, GPU、HBM等芯片先放置在silicon interposor上...(图片来自文献1) 针对上述的CPO GPU attch,Broadcom提出了下图所示的scale-up网络架构,512个GPU分布在8个rack上,通过64个CPO switch,实现512颗GPU...针对这一问题,Broadcom在去年发布了CPO-BiDi的白皮书,计划推出针对scale-up场景的单纤双向CPO交换机。 对于单个12.8T光引擎来说,光纤可分为两组,对于下图中的红色与蓝色。...Mehta, et.al., "An AI Compute ASIC with Optical Attach to Enable Next Generation Scale-Up Architectures
该架构以统一形态兼容多种互连技术,破解了芯片厂商长期面临的方案选择困境,为数据中心Scale-Up(纵向扩展)与Scale-Out(横向扩展)场景提供了兼具高密度、高良率与低成本的创新路径。...封装尺寸的精准控制至关重要——每增加15mm的封装走线长度(两侧各7.5mm),就会产生约2.5dB的额外损耗,这往往迫使厂商放弃无源铜缆而转向成本更高的光模块,而CPX架构的紧凑设计有效规避了这一问题,为Scale-Up...◆ 场景适配:同时赋能Scale-Up与Scale-Out网络 CPX架构的灵活性使其能够同时满足数据中心Scale-Up与Scale-Out两种核心扩展需求,实现“一套架构,两种场景”的高效适配...在Scale-Up场景中,CPX架构通过共封装铜缆(CPC)连接至SiFly®背板,借助无源背板电缆实现高速传输。
1)SMP|NUMA架构下,所有的CPU都在一个server里,操作系统也是一个;属于scale-up架构 2)MPP其实就是SMP|NUMA的多个server通过网络连接在一起,每个server都有自己的操作系统...4)程序=算法+数据结构,其中算法可以算作是cpu处理,而数据结构可以看作是数据存储的话,那么很显然扩展的方向有两个,扩CPU和扩存储;此时又演化为scale-out和scale-up。...5)scale-up的局限性很明显,无论多牛逼总有到头的一天;scale-out则计算和存储是永远可以线性扩展。这也是目前分布式大行其道的原因。
文章目录 有言在先 处理办法简介 Scale-up && Scale-out 缓存 异步处理 真实场景:这些方法都要用上吗?...---- Scale-up && Scale-out Scale-up,纵向拓展,一种简单粗暴的方法,通过购买性能更好的硬件来提高系统的并发处理能力。...一般来说,系统设计初期的时候,考虑使用Scale-up的方式,因为这种方案足够简单。但是当系统的并发超过了单机处理的极限时,这个方法就行不通了。
AI/ML集群的核心瓶颈在于互连带宽——这类大规模分布式共享内存系统需高带宽、低延迟、无损的互联方案(支持Scale-Up与Scale-Out),而硬件浮点运算能力(FLOPs)与内存/互连带宽的差距已超...ECOC 2025:Meta实测博通Bailly 51.2T CPO交换机,超百万小时可靠性验证支撑超大规模AI数据中心 针对AI Scale-Up场景,Broadcom提出两种方案:VCSEL...Broadcom的Scale up光互联方案:VCSEL NPO与硅光CPO 铜缆在AI Scale-Up场景的局限日益明显:100G/lane铜缆最大传输距离4米,200G/lane仅...,而VCSEL互联能突破铜缆的传输距离与带宽限制,成为Scale-Up场景的核心方案之一。...八、AI集群缩放与散热:Ciena的448G生态与液冷技术 Ciena的Bilal Riaz提出AI集群的三大缩放策略:Scale-Up(提升单lane速率至448G,优化封装与连接器
一、AI硬件平台定义 AI硬件平台由前端数据中心网络、Scale-Out集群网络、Scale-Up Pod网络等部分构成,包含CPU、GPU等计算单元,以及DPU、RDMA NICs等连接设备...新的Scale-up接口(UALink) 由UALink联盟开发,旨在为AI加速器提供优化的Scale-up解决方案,具备固定负载、虚拟通道、低延迟等特性,支持数百个加速器在一个pod集群中
二、Scale-up vs Scale-out:两种网络架构的博弈 数据中心互联存在两种典型架构,其核心差异直接影响CPO的应用场景定位。...◆ 带宽与可扩展性的显著分野 - Scale-up网络(如NVLink/SUE):以NVLink Gen5为例,带宽可达7.2Tbps,适用于需要大规模算力聚合的场景(如AI训练集群),但规模受限(...◆ 同步风险:Scale-up网络的“阿喀琉斯之踵” Scale-up网络依赖紧密同步的集合通信(如AllReduce),其致命弱点在于无故障转移机制——即使单条链路失效,整个操作也会中断...需根据目标场景(如scale-up)针对性优化。 七、集成模式:从传统到CPO的演进 不同技术路径对应不同的产业链集成模式,其核心差异体现在责任分工与灵活性上。
一、研究范围:两大核心网络领域界定 Liron 首先明确了 AI 数据中心中光学互连的两大应用场景,两者在连接范围、主导介质上存在显著差异: - Scale-up: 定义为“将大量...光学技术优先级判断标准 核心指标是每比特能耗(皮焦/比特,pJ/bit) ——无论技术路径(scale-up/scale-out、光子加速器),最终选择“能耗更低”的方案。...Liron 提到,若能实现“亚皮焦/比特”的链路(已在论文中验证Nvidia:迈向<1pJ/bit高速光互连的路线图),光学技术将在 scale-up 领域(与铜竞争)具备吸引力。...:短期通过 CPO 技术(窄而快)解决当前功耗痛点,长期需通过“宽而慢”路径+2.5D 封装+多波长技术,将性能提升的核心从电子学转移到光子学,最终实现“亚皮焦/比特”的超低能耗,让光学技术同时覆盖 scale-up
然而,摩尔定律放缓导致单节点算力天花板显现,数据中心需通过“纵向扩展(scale-up,提升单节点性能)”与“横向扩展(scale-out,增加节点数量)”构建大规模并行架构——这两种扩展路径均高度依赖高带宽...四、高速传输验证:覆盖scale-up/scale-out全场景 该MRM支持自偏置 与耗尽驱动 两种模式,可分别满足“高能效近距离互连scale up”与“超高速远距离互连scale out...1. scale-up场景:高能效XPU光互连(自偏置模式) 针对XPU与内存池的近距离互连(符合UCIe 2.0、PCIe 5.0/6.0/7.0标准),MRM工作于无DC偏置、低驱动电压模式...WDM扩展:从单波长到太比特级互连 基于MRM的WDM兼容性,可通过多波长集成实现容量倍增: - scale-up场景:每波长支持64 Gbaud PAM4(128 Gbps),76 GHz...场景适配:自偏置/耗尽双模式覆盖XPU互连(scale-up)与集群互连(scale-out),为AI数据中心提供“一站式”光互连解决方案。
程序=算法+数据结构,其中算法可以算作是cpu处理,而数据结构可以看作是数据存储的话,那么很显然扩展的方向有两个,扩CPU和扩存储;此时又演化为scale-out和scale-up。...scale-up的局限性很明显,无论多牛逼总有到头的一天;scale-out则计算和存储是永远可以线性扩展。这也是目前分布式大行其道的原因。
2.4 挑战四:高吞吐量传输——Scale-Up网络的协议瓶颈 2.4.1 Scale-Up网络与传统总线的本质差异 AI网络的核心是“横向扩展网络(Scale-Up Network)”,...与传统Host总线(Host Bus)在延迟、带宽、规模、可靠性上差异显著: - 传统Host总线:1个Host,1Tbps带宽,延迟约60到100ns,典型的传输协议为PCIe; - Scale-Up...当前业界已在Scale-Up网络上推出NV-Link、UALink、统一总线(Unified Bus)等协议,此类协议的核心共性是“传输层至关重要”。 2.4.2 传输协议的三大核心挑战 1.
这种操作也用于单模态方法STRIP和SCALE-UP。相比之下,BDetCLIP仅在文本模态的语义变化中进行两次后门检测,即良性类和恶性类特定的提示。...正如表5所示,与表1的结果相比,STRIP在几乎所有情况下都未能实现检测,SCALE-UP和TeCo的表现变差,而BDetCLIP在所有攻击设置中也展现了卓越的性能。...SCALE-UP [20]的官方开源代码可以在https://github.com/JunfengGo/SCALE-UP找到。...在测试时后门样本的比例上,作者的方法(BDetCLIP)一致优于 Baseline 方法SCALE-UP。...无论是在0.5或0.7的后门样本比例下,BDetCLIP在所有目标类别和攻击检测场景中都比SCALE-UP获得更高的AUROC分数。
through Spatial Awareness High-Performance Spatial Data Analytics: Systematic R&D for Scale-Out and Scale-Up...关键词:数据清理系统, 空间感知 Sparcle High-Performance Spatial Data Analytics: Systematic R&D for Scale-Out and Scale-Up