scale-up - 腾讯云开发者社区

文章/答案/技术大牛

发布

针对Scale-up光互连场景的OCI MSA新标准

当前GPU的scale-up互联主要通过铜缆实现，而随着AI集群规模的逐渐扩大，需要实现跨机柜的GPU互联，铜缆在传输距离上的局限性愈发凸显，使用光互连成为行业发展的共识与必然趋势。...OCI官网(https://oci-msa.org)给出了其成立的主要目的，分为三点：建立开放、可互操作的 AI scale-up 互联规范制定统一的光互连架构，打破专有互连技术的限制，确保在超大规模...这主要是为了降低系统复杂度，满足scale-up互联对功耗与延迟的需求。PAM4编码通常需要采用FEC方式对高速信号进行额外的处理，带来了额外的功耗与延迟。...以上是对OCI MSA内容的简单整理，对于scale-up互联场景，产业界明确选择了硅光的微环方案和外置激光器ELS模块，采用两组CWDM波段，共使用8个DWDM波长，单个波长的信号速率为56Gbps...OCI MSA并没有明确具体的结构信息与协议信息，只是明确了scale-up互联中的物理层方案，包括电气接口与光学架构。OCI MSA体现了scale-up互联场景中延迟和功耗的重要性。

6311 0

什么是横向扩展和纵向扩展？

鱼缸启示其实我认为Scale-out和Scale-up的概念可以用一个简单的例子来解释。不知您有没有养过鱼?...如果用Scale-up解决方案，那么你就需要去买一个大缸，把所有沙啊、水草啊、布景啊、加热棒、温度计都从小缸里拿出来，重新布置到大缸。...究竟选择scale-up还是scale-out架构,主要考虑以下因素：成本 Scale-up架构只有容量升级的成本，不会增加控制器或基础设施的开销。...如果我们主要衡量每GB存储的单位价格，scale-up的扩展方式无疑更便宜一些容量两种解决方案都可以满足容量需求，但scale-up架构也许会有些限制，主要取决于单个系统最大支持多少个磁盘数量和多大的容量...虽然节点之间的通信会引发延迟，但那是部署时的细节问题管理 Scale-up架构本身就是以单一系统的方式来进行管理的。

5.9K3 0

您找到你想要的搜索结果了吗？

是的

没有找到

媲美英伟达下一代GPU Scale-up：字节版NVLink重塑MegaScale万卡集群网络？

本文将深度剖析字节跳动发布的《GPU Scale-up互联技术白皮书》作为破解MegaScale万卡集群实践的终极难题的“阿基米德支点”——解读字节跳动推出的Ethlink技术如何定义下一代GPU Scale-up...传统Scale-up网络（如NVLink）依赖的Load/Store语义在传输大块数据时会消耗宝贵的计算资源；而传统Scale-out网络（如RoCEv2）的RDMA协议栈又相对笨重。...正如由主流厂商（AMD、Google等科技巨头）参与的超以太网联盟（UEC）在2025年发布全新UET传输协议的1.0规范一样，字节跳动联合北大也推出了自研的Scale-up解决方案：EthLink。...接下来就让小咖带您精读这份白皮书——《字节跳动GPU Scale-up互联技术白皮书》。...3 结论：一场开放生态的“阳谋” 字节跳动联合北大推出的Ethlink解决方案：通过软硬一体的设计，将“尽力而为”的传统以太网，在GPU Scale-up这个特定场景下，成功改造成了一张媲美私有协议的“

9801 0

OFC 2025: AI时代的光互连需求

今年OFC大会上，对于AI场景下scale-out/scale-up光互连的讨论异常热烈，有数十个相关的workshop与pannel discussion，如下图所示。...节点内的互联则对应scale-up网络，也称为back-end网络，目前主要采用铜缆方案，实现多颗GPU之间高带宽、低延迟的互联。...对于scale-up网络，随着传输速率的进一步提升以及网络规模扩展导致的跨机柜互联需求，未来有望采用光学方案。...VCSEL可否凭借其成本优势应用到在scale-up网络中？Lumentum、Coherent、Furukawa等公司都在进行基于VCSEL方案的CPO开发。...CPO技术是否会提早应用于scale-up网络中？在Nvidia的技术路线中，希望GPU的带宽每两年提升一倍，scale-up中的GPU数目每两年提升2-4倍。

2K1 0

AMD：AI集群扩展架构技术总结

在此背景下，两种扩展模式形成鲜明对比：横向扩展（Scale-Out）依赖Clos层级、叶脊（Leaf-Spine）、网状（Mesh）等灵活的网络拓扑，通过增加节点数量实现规模扩张；纵向扩展（Scale-Up...Link）则成为加速器专用的高速互联标准，这些技术共同构成了Scale-Up的技术底座。...Scale-Up的拓扑设计需围绕“GPU数量-链路数-交换机基数”三者的平衡展开。...总体而言，Scale-Up技术的核心价值在于直接缩短AI模型训练时间、提升计算性能，但其复杂度由GPU数量、扩展带宽及交换机基数共同决定，且受限于数据中心基础设施、机械设计与信号完整性的物理边界。...未来，更高带宽（>212G）技术、优化光模块方案及更大基数交换机的突破，将成为破解Scale-Up落地难题、推动AI集群高效扩展的关键方向。

8691 0

TEF 2025｜OIF：448G以太网高速铜光互连技术的演进与挑战(BroadcomAlteraRanovusKeysight)

五、光学技术对Scale-Up/Out链路的支撑能力（演讲者：Jeff Hutchins，Ranovus） Jeff Hutchins的分享围绕AI集群Scale-Up/Out场景的光互连需求...5.1 AI集群的光互连核心需求超大规模厂商的Scale-Out与Scale-Up场景对光互连的需求存在显著差异：Scale-Out链路的传输距离为数百米，当前采用可插拔光模块；Scale-Up...5.2 Scale-Up互连的以太网技术路线 Jeff Hutchins明确，Scale-Up与Scale-Out链路均将采用以太网技术，Scale-Up互连将复用以太网的底层架构。...此前Scale-Up场景多采用基于PCIe的链路，目前已有两个核心的Scale-Up协议：NVLink交换方案，以及基于以太网的交换方案（如UALink、UEC、SUE-T，以及最新发布的ESUN）。...5.5 核心总结 Jeff Hutchins在分享最后给出了结论：能效是AI训练集群的核心需求，Scale-Up光互连主导了机架内互连的功耗，CPO、LTLR等能效方案的功耗最低；Scale-Up

7801 0

Headroom in optics means headroom for innovation：Nvidia关于CPO技术从scale-out到scale-up的路线演进分析

Scale-up纵向扩展网络：同一机架内的多GPU互联，目标是将多块GPU整合成一个超大算力单元，对带宽要求极高，目前主流方案仍为铜缆互连； 2....报告明确指出，CPO技术的所有设计，都必须围绕“降低互连功耗”展开——只有将互连功耗降至足够低的水平，才能让更多电力供给AI计算，同时突破铜缆互连的带宽与功耗极限，甚至实现光互连对Scale-up场景铜缆的替代...突破场景边界：当互连功耗降至1pJ/bit以下时，光互连将具备对铜缆的性价比优势，可从Scale-out场景渗透至Scale-up场景，替代当前机架内GPU互联的铜缆方案，实现数据中心全场景光互连的覆盖...当光链路功耗降至亚pJ/bit级别时，光互连的应用场景将从传统的数据中心横向扩展（scale-out），进一步渗透至机架内纵向扩展（scale-up）场景，突破铜缆互连的最后壁垒，实现数据中心全场景光互连的覆盖

6061 0

高并发系统通用设计方法是什么？

横向扩展，纵向扩展 Scale-up vs Scale-out Scale-up （纵向扩展） Scale-out(横向扩展)。举个例子，摩尔定律，摩尔定律是指每18个月 CPU 的性能要翻一倍。...这种不断追逐摩尔定律，不断提升 CPU 的方案，就叫做 Scale-up(纵向扩展)，把类似CPU 多核心的方案叫做 Scale-out（横向扩展）。...Scale-up: 通过构面更好的硬件来提升系统的并发处理能力，比如从硬件 4核 4G 每秒处理 200 次请求，那么如果要处理 400 次请求呢，例如可以把硬件升级到 8核 8G Scale-out...scale-up 与 sclae-out 如何选择系统设计最初的时候，会考虑使用 Scale-up 的方式，因为此方法简单，升级相关硬件就可以，但是当系统并发突破了单台机器的基线时，这个时候，就需要考虑

1K1 0

字节Ethlink vs UALink vs SUE（ESUN + SUE-T）：网工视角谁更胜一筹？

1 当前Scale-up网络割裂生态随着AI“军备竞赛”步入万亿参数与数万GPU集群的“深水区”，机柜内部的互联网络（Scale-Up Fabric）已成为制约性能的首要瓶颈，行业普遍认识到，依赖单一供应商专有技术...今年的OCP 2025年在网络层面两大核心变化是：一个是在OCP峰会上正式集结的、由几乎所有行业巨头共同支持的“以太网统一战线”——ESUN（Ethernet for Scale-Up Networking...② ESUN/UEC/SUE-T：站在开放以太网的巨人之上，试图用无处不在的以太网试图融合统一Scale-up与Scale-out这两个壁垒分明的世界。...或许未来Scale-up的割裂生态不复存在，取而代之的是“如何”规模化部署一个由UEC（超以太网联盟）、ESUN和SUE-T（Scale-Up Ethernet Transport）共同定义的、增强版的开放以太网生态系统...图2：ESUN+SUE-T组成新的Scale-up协议 ③ UALink：专注为低延迟内存语义设计的全新协议，试图吸引那些既要超越NVLink性能又追求开放生态系统的高端用户。

1.3K1 0

AI网络挑战：系统视角下的光互连技术需求与架构分析(Meta)

二、Scale-Up与Scale-Out架构对比（一）通信协议与带宽特性 ◆ Scale-Out域超大规模数据中心在Scale-Out域采用多种通信协议，如Meta的RoCE（基于融合以太网的远程直接内存访问...◆ Scale-Up域带宽通常是Scale-Out的数倍，要求高带宽、低延迟，典型场景如NVIDIA GB200 NVL72机架设计，通过NVLink连接72块Blackwell GPU，...（二）Meta AI训练集群架构示例 ◆ 架构组成 Scale-Up域通过直接连接电缆（DAC）和机架训练交换机实现机架内GPU互连；Scale-Out域利用可插拔光模块和单模光纤（SMF）...三、Scale-Up域内的I/O挑战（一）带宽与距离的权衡 ◆ 铜互连局限性无源铜缆（如DAC）受传输损耗限制，存在带宽-距离乘积上限；有源电缆（AEC）虽延长距离，但面临端口占用、功耗和成本问题...五、结论随着AI模型规模扩大，Scale-Up域终将突破单机架限制，光互连成为解耦GPU和内存的关键技术。

1.6K1 0

Samtec CPX架构：CPO与CPC同平台支持，赋能数据中心Scale-Up与Scale-Out网络升级

该架构以统一形态兼容多种互连技术，破解了芯片厂商长期面临的方案选择困境，为数据中心Scale-Up（纵向扩展）与Scale-Out（横向扩展）场景提供了兼具高密度、高良率与低成本的创新路径。...封装尺寸的精准控制至关重要——每增加15mm的封装走线长度（两侧各7.5mm），就会产生约2.5dB的额外损耗，这往往迫使厂商放弃无源铜缆而转向成本更高的光模块，而CPX架构的紧凑设计有效规避了这一问题，为Scale-Up...◆ 场景适配：同时赋能Scale-Up与Scale-Out网络 CPX架构的灵活性使其能够同时满足数据中心Scale-Up与Scale-Out两种核心扩展需求，实现“一套架构，两种场景”的高效适配...在Scale-Up场景中，CPX架构通过共封装铜缆（CPC）连接至SiFly®背板，借助无源背板电缆实现高速传输。

1.1K1 0

什么是Scale Up（纵向扩展）和Scale Out（横向扩展）？

Scale-up通过购买性能更好的硬件提升系统的并发处理能力，比如：我们向原有的机器增加CPU、内存数。...何时选择Scale-up或Scale-out呢？一般系统设计初期会考虑使用Scale-up，因为足够简单，堆砌硬件解决即可，但当系统并发超过单机的极限时，就要使用Scale-out了。

19.7K2 0

Ayar Labs的最新动态与进展

Ayar Labs在其官网上给出了Optical IO技术的两个典型应用场景，如下图所示，即AI集群中的scale-up互联和内存扩展。...https://ayarlabs.com/blog/the-future-of-ai-infrastructure-a-path-to-profitability-with-optical-i-o/) 所谓Scale-up...大家所熟知的NVLink和AMD的inifity fabric都属于scale-up互联范畴。Scale-up网络对带宽和延迟要求较高。...Ayar Labs将其TeraPHY芯片与UCIe接口匹配，进而应用于scale-up互联和内存扩展这两种场景，提供高带宽、低延迟、低功耗的互联方案。

7991 0

博通一统以太网江湖阳谋：SUE一超多强（字节Ethlink、NVLink与UALink）？

1 SUE融合Scale-up与Scale-out 继前序两篇文章我们深度剖析了字节跳动EthLink的“单点破局”与UALink联盟的“合纵连横”之后，博通的Scale-Up Ethernet (SUE...这一宏大愿景的“战略宣言”与博通高管发表的官方博客《Scale-up is simple....Ethernet makes it smarter.》的核心论点遥相呼应：博客核心观点佐证：“Scale-up is simpler than scale-out....其核心价值主张正是用一种技术栈同时解决Scale-up和Scale-out两大难题，打破技术壁垒。...3.4 预告字节Ethlink的“单点破局”、UALink的“联盟合纵”与SUE的“统一阳谋”——AI Scale-Up互联的三大流派已然登场。

1.6K1 0

Broadcom CPO交换机的最新动态

/www.broadcom.com/info/optics/cpo#solutions）针对AI智算中心互联的需求，Broadcom将其CPO的应用领域分为两个方向，分别针对scale-out网络和scale-up...(图片来自）针对scale-up互联的场景, Broadcom推出了6.4Tbps光引擎chiplet与GPU封装在一起的demo, GPU、HBM等芯片先放置在silicon interposor上...(图片来自文献1) 针对上述的CPO GPU attch，Broadcom提出了下图所示的scale-up网络架构，512个GPU分布在8个rack上，通过64个CPO switch，实现512颗GPU...针对这一问题，Broadcom在去年发布了CPO-BiDi的白皮书，计划推出针对scale-up场景的单纤双向CPO交换机。对于单个12.8T光引擎来说，光纤可分为两组，对于下图中的红色与蓝色。...Mehta, et.al., "An AI Compute ASIC with Optical Attach to Enable Next Generation Scale-Up Architectures

2K1 1

卖到2027年没货：英伟达20亿美元押注背后，AI数据中心的光互连革命

OCS与Scale-up CPO是真金矿：纯光交换机（OCS）在手订单超 4 亿美元，而纵向扩展（Scale-up）的 CPO 第一阶段市场规模，直接是现在大家炒作的横向扩展（Scale-out）的 3...Lumentum的技术路线图清晰展示了这一转折点：2026年将是1.6T光模块规模出货元年，而2027年底将迎来首批Scale-up CPO（共封装光学）出货，单端口速率直指3.2T。...Scale-Up)：机架内光互连，2027年底启动，端口数3-4倍增长，支持~1K XPU集群 Phase 2 (Scale-Up Advanced)：支持~10K XPU的超大规模集群，采用混合铜/光背板...Scale-up CPO：2027年底首批出货，Phase 1市场规模是Scale-out的3-4倍，且将激活新的InP晶圆厂产能。...它能够左右逢源，既吃到了谷歌TPU体系下OCS光路交换机的大规模部署红利，又通过UHP激光器和EML芯片紧紧绑定了英伟达GPU集群的Scale-up CPO互连命脉。

7861 0

ESUN诞生记：OCP 2025下，博通、英伟达与吉瓦（GW）级GPU买家的“新阳谋”

接下来“AGI小咖”立足OCP 2025年峰会，尝试与您揭秘ESUN诞生背后的巨头“新阳谋”与Scale-up新动向，有不妥之处欢迎指点迷津！！！...01 OCP 2025的“惊天变局” 1.1 Scale-up割裂生态回顾循着“AGI小咖”系列前文的脉络，我们不难发现，在OCP 2025之前，AI GPU Scale-up互联网络已然进入了群雄并起...它正是微软和Meta这两大“吉瓦级”买家战略意志的体现，迫使NVIDIA等厂商必须加入这个开放的Scale-Up（UALink/ESUN）生态。...前者如同华为昇腾384超节点——“分布式”的Scale-Up集群；后者则如同NVIDIA GB200 NVL72——“一体化”的超级单体。...往期回顾媲美英伟达下一代GPU Scale-up：字节版NVLink重塑MegaScale万卡集群网络？

1K1 0

IT全栈-服务器03-X86-PCServer内存及NUMA介绍

1）SMP|NUMA架构下，所有的CPU都在一个server里，操作系统也是一个；属于scale-up架构 2）MPP其实就是SMP|NUMA的多个server通过网络连接在一起，每个server都有自己的操作系统...4）程序=算法+数据结构，其中算法可以算作是cpu处理，而数据结构可以看作是数据存储的话，那么很显然扩展的方向有两个，扩CPU和扩存储；此时又演化为scale-out和scale-up。...5）scale-up的局限性很明显，无论多牛逼总有到头的一天；scale-out则计算和存储是永远可以线性扩展。这也是目前分布式大行其道的原因。

1.3K2 0

高并发（二）：通用设计方法

文章目录有言在先处理办法简介 Scale-up && Scale-out 缓存异步处理真实场景：这些方法都要用上吗？...---- Scale-up && Scale-out Scale-up，纵向拓展，一种简单粗暴的方法，通过购买性能更好的硬件来提高系统的并发处理能力。...一般来说，系统设计初期的时候，考虑使用Scale-up的方式，因为这种方案足够简单。但是当系统的并发超过了单机处理的极限时，这个方法就行不通了。

6492 0

深度前瞻：GTC与OFC 2026双峰会来袭，千亿美金级AI光网络大时代全面开启！

但绝大多数人并没有搞清楚，CPO的战场是被严格割裂为两块的：横向扩展（Scale-out，跨节点网络交换）与纵向扩展（Scale-up，节点内或机架间GPU直连）。...真正的狂欢，藏在市场尚未完全定价的纵向扩展（Scale-up）之中。大模型的张量并行计算，要求GPU之间进行近乎恐怖的无延迟数据交换。...铜缆的物理极限已经被逼到了墙角，光进铜退在Scale-up层是不可逆的死板逻辑。...谁能解决Scale-up CPO在3D封装、微环调制器（MRM）、光栅耦合器以及热管理材料上的良率难题，谁就能直接切走这块千亿美金蛋糕中最丰厚的一角。...从1.6T到3.2T，从可插拔到NPO到Scale-up CPO再到终极的片间互连OIO，资本的流动正在极其精准地寻找下一个瓶颈突破口。

2K0 0

点击加载更多

针对Scale-up光互连场景的OCI MSA新标准

什么是横向扩展和纵向扩展？

媲美英伟达下一代GPU Scale-up：字节版NVLink重塑MegaScale万卡集群网络？

OFC 2025: AI时代的光互连需求

AMD：AI集群扩展架构技术总结

TEF 2025｜OIF：448G以太网高速铜光互连技术的演进与挑战(BroadcomAlteraRanovusKeysight)

Headroom in optics means headroom for innovation：Nvidia关于CPO技术从scale-out到scale-up的路线演进分析

高并发系统通用设计方法是什么？

字节Ethlink vs UALink vs SUE（ESUN + SUE-T）：网工视角谁更胜一筹？

AI网络挑战：系统视角下的光互连技术需求与架构分析(Meta)

Samtec CPX架构：CPO与CPC同平台支持，赋能数据中心Scale-Up与Scale-Out网络升级

什么是Scale Up（纵向扩展）和Scale Out（横向扩展）？

Ayar Labs的最新动态与进展

博通一统以太网江湖阳谋：SUE一超多强（字节Ethlink、NVLink与UALink）？

Broadcom CPO交换机的最新动态

卖到2027年没货：英伟达20亿美元押注背后，AI数据中心的光互连革命

ESUN诞生记：OCP 2025下，博通、英伟达与吉瓦（GW）级GPU买家的“新阳谋”

IT全栈-服务器03-X86-PCServer内存及NUMA介绍

高并发（二）：通用设计方法

深度前瞻：GTC与OFC 2026双峰会来袭，千亿美金级AI光网络大时代全面开启！

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐