前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >当网络传输协议SRD遇上DPU

当网络传输协议SRD遇上DPU

作者头像
SDNLAB
发布于 2022-12-14 04:08:24
发布于 2022-12-14 04:08:24
2.2K0
举报
文章被收录于专栏:SDNLABSDNLAB

What?

SRD(Scalable Reliable Datagram,可扩展的可靠数据报文),是AWS年推出的协议,旨在解决亚马逊的云性能挑战。它是专为AWS数据中心网络设计的、基于Nitro芯片、为提高HPC性能实现的一种高吞吐、低延迟的网络传输协议。

SRD 不保留数据包顺序,而是通过尽可能多的网络路径发送数据包,同时避免路径过载。为了最大限度地减少抖动并确保对网络拥塞波动的最快响应,在 AWS 自研的 Nitro chip 中实施 SRD。

SRD 由 EC2 主机上的 HPC/ML 框架通过 AWS EFA(Elastic Fabric Adapter,弹性结构适配器)内核旁路接口使用。

SRD的特点:

1)不保留数据包顺序,交给上层消息传递层处理

2)通过尽可能多的网络路径发包,利用ECMP标准,发端控制数据包封装来控制ECMP路径选择,实现多路径的负载平衡

3)自有拥塞控制算法,基于每个连接动态速率限制,结合RTT(Round Trip Time)飞行时间来检测拥塞,可快速从丢包或链路故障中恢复

4)由于无序发包以及不支持分段,SRD传输时所需要的QP(队列对)显著减少

Why?

>为什么不是TCP

TCP 是 IP 网络中可靠数据传输的主要手段,自诞生以来一直很好地服务于 Internet,并且仍然是大多数通信的最佳协议。但是,它不适合对延迟敏感的处理,TCP 在数据中心最好的往返延迟差不多是 25us,因拥塞(或链路故障)等待导致的异常值可以是 50 ms,甚至数秒,带来这些延迟的主要原因是TCP丢包之后的重传机制。另外,TCP传输是一对一的连接,就算解决了时延的问题,也难在故障时重新快速连线。

TCP 是通用协议,没有针对HPC场景进行优化,早在2020 年,AWS 已经提出需要移除TCP。

>为什么不是RoCE?

InfiniBand 是一种用于高性能计算的流行的高吞吐量低延迟互连,它支持内核旁路和传输卸载。RoCE(RDMA over Converged Ethernet),也称为 InfiniBand over Ethernet,允许在以太网上运行 InfiniBand 传输,理论上可以提供 AWS 数据中心中 TCP 的替代方案。

EFA 主机接口与 InfiniBand/RoCE 接口非常相似。但是 InfiniBand 传输不适合 AWS 可扩展性要求。原因之一是 RoCE 需要 PFC(优先级流量控制),这在大型网络上是不可行的,因为它会造成队头阻塞、拥塞扩散和偶尔的死锁。PFC 更适合比 AWS 规模小的数据中心。此外,即使使用 PFC,RoCE 在拥塞(类似于 TCP)和次优拥塞控制下仍会遭受 ECMP(等价多路径路由)冲突。

>为什么是SRD?

SRD是专为AWS设计的可靠的、高性能的、低延迟的网络传输。这是数据中心网络数据传输的一次重大改进。SRD受InfiniBand可靠数据报的启发,结合大规模的云计算场景下的工作负载,SRD也经过了很多的更改和改进。SRD利用了云计算的资源和特点(例如AWS的复杂多路径主干网络)来支持新的传输策略,为其在紧耦合的工作负载中发挥价值。

任何真实的网络中都会出现丢包、拥塞阻塞等一系列问题。这不是说每天会发生一次的事情,而是一直在发生。

大多数协议(如 TCP)是按顺序发送数据包,这意味着单个数据包丢失会扰乱队列中所有数据包的准时到达(这种效应称为“队头阻塞”)。而这实际上会对丢包恢复和吞吐量产生巨大影响。

SRD 的创新在于有意通过多个路径分别发包,虽然包到达后通常是乱序的,但AWS实现了在接收处以极快的速度进行重新排序,最终在充分利用网络吞吐能力的基础上,极大地降低了传输延迟。

SRD 可以一次性将构成数据块的所有数据包推送到所有可能路径,这意味着SRD不会受到队头阻塞的影响,可以更快地从丢包场景中恢复过来,保持高吞吐量。

众所周知,P99尾部延迟代表着只有1%的请求被允许变慢,但这也恰恰反映了网络中所有丢包、重传和拥塞带来的最终性能体现,更能够说明“真实”的网络情况。SRD能够让P99 尾延迟直线下降(大约 10 倍)。

SRD的主要功能包括:

1)乱序交付:取消按顺序传递消息的约束,消除了队头阻塞,AWS在EFA用户空间软件堆栈中实现了数据包重排序处理引擎

2)等价多路径路由(ECMP):两个EFA实例之间可能有数百条路径,通过使用大型多路径网络的一致性流哈希的属性和SRD对网络状况的快速反应能力,可以找到消息的最有效路径。数据包喷涂(Packet Spraying)可防止出现拥塞热点,并可以从网络故障中快速无感地恢复

3)快速的丢包响应:SRD对丢包的响应比任何高层级的协议都快得多。偶尔的丢包,特别是对于长时间运行的HPC应用程序,是正常网络操作的一部分,不是异常情况

4)可扩展的传输卸载:使用SRD,与其他可靠协议(如InfiniBand可靠连接IBRC)不同,一个进程可以创建并使用一个队列对与任何数量的对等方进行通信

How

SRD 实际工作的关键不在于协议,而在于它在硬件中的实现方式。换种说法,就目前而言,SRD 仅在使用 AWS Nitro DPU 时才有效。

SRD乱序交付的数据包需要重新排序才能被操作系统读取,而处理混乱的数据包流显然不能指望“日理万机”的 CPU。即便真通过CPU 来完全负责 SRD 协议并重新组装数据包流,无疑是高射炮打蚊子——大材小用,那会使系统一直忙于处理不应该花费太多时间的事情,而根本无法真正做到性能的提升。

在SRD这一不寻常的“协议保证”下,当网络中的并行导致数据包无序到达时,AWS将消息顺序恢复留给上层,因为它对所需的排序语义有更好的理解,并选择在AWS Nitro卡中实施SRD可靠性层。其目标是让SRD尽可能靠近物理网络层,并避免主机操作系统和管理程序注入的性能噪音。这允许快速适应网络行为:快速重传并迅速减速以响应队列建立。

AWS说他们希望数据包在“栈上”重新组装,他们实际上是在说希望 DPU 在将数据包返回给系统之前,完成将各个部分重新组合在一起的工作。系统本身并不知道数据包是乱序的。系统甚至不知道数据包是如何到达的。它只知道它在其他地方发送了数据并且没有错误地到达。

这里的关键就是 DPU。AWS SRD 仅适用于 AWS 中配置了 Nitro 的系统。现在不少使用AWS的服务器都安装和配置了这种额外的硬件,其价值在于启用此功能将能够提高性能。用户需要在自己的服务器上专门启用它,如果需要与未启用 SRD 或未配置 Nitro DPU 的设备通信,就不会得到相应的性能提升。

至于很多人关心的SRD未来是否会开源,只能说让我们拭目以待吧!

参考:

https://ieeexplore.ieee.org/document/9167399

https://thebroadcastknowledge.com/tag/amazon-web-services/

https://networkingnerd.net/2022/11/

https://aws.amazon.com/cn/blogs/hpc/in-the-search-for-performance-theres-more-than-one-way-to-build-a-network/

PDF:Lower the Time-to-Results for Tightly Coupled HPC Applications on the AWS Cloud with the Elastic Fabric Adapter

【转载须知】

若转载文章为原创文章,可在相应文章下或公众号后台留言;其他非转载类文章须在文首以不小于14号字体标明转载自SDNLAB文末附上SDNLAB公众号名片

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-12-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 SDNLAB 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
软硬件融合视角:一文看懂高性能网络
随着大模型的广泛流行,GPU集群计算的规模越来越大(单芯片算力提升有限,只能通过扩规模的方式来提升整体算力),千卡、万卡已经成为主流,十万卡、百万卡也都在未来3-5年的规划中。
chaobowx
2024/06/26
1K2
软硬件融合视角:一文看懂高性能网络
AWS re:Invent:SRD协议将取代TCP?
近日AWS re:Invent2022隆重召开,作为一年一度的云科技盛会,AWS高级副总裁Pete DeSantis介绍了 AWS 的一些重大工作成果与改进,主要包含硬件、网络、科学和软件四部分。本文将重点介绍Nitro V5、Graviton3E以及SRD网络传输协议方面的创新。
SDNLAB
2022/12/14
2.2K0
AWS re:Invent:SRD协议将取代TCP?
IB vs RoCE:梳理AI智算网络的负载均衡与流控方案
在人工智能迅速发展的今天,大模型训练已成为推动技术进步的核心动力。然而,随着大模型规模的不断扩大和训练需求的增加,智算网络面临的挑战也日益严峻。网络作为连接计算集群的重要基础设施,其性能直接影响着AI训练的效率和效果。
星融元Asterfusion
2025/04/17
2720
IB vs RoCE:梳理AI智算网络的负载均衡与流控方案
全网首次揭秘:微秒级“复活”网络的HARP协议及其关键技术
导读|云计算时代,承担服务器之间数据传输工作的交换机成了数据中心的“神经枢纽”,一旦出故障将波及上层业务。然而单个交换机故障时,腾讯云的新一代高性能网络却可以在100微秒内找到新的通路实现0断链,做到高可用、高可扩展、高性能,从而保证业务不受影响。本文邀请到了腾讯云资深网络专家金峰及其带领的IaaS前沿技术研究团队来揭秘背后的武器——高性能网络传输协议HARP。通过本文希望可以带你了解传统网络传输协议面临的困难和挑战、HARP是如何应对并全网首次解析其中4个关键技术。 腾讯云一直在自研一款高性能网络协议——
腾讯云开发者
2022/12/21
2.8K1
全网首次揭秘:微秒级“复活”网络的HARP协议及其关键技术
AWS 2022 re:Invent 观察 | 天下武功,唯快不破
“天下武功,无坚不摧,唯快不破”,相信大家对星爷电影《功夫》中的这句话耳熟能详。实际上,“天下武功,唯快不破”最早出自古龙先生的著名武侠小说《小李飞刀》:“小李飞刀,例无虚发,只出一刀,无人能挡,只因天下武功无坚不摧,唯快不破。”
SammyLiu
2023/03/08
9920
AWS 2022 re:Invent 观察 | 天下武功,唯快不破
即将推出的超级以太网联盟(UEC)规范概述和动机
网络对于高效且经济地训练 AI 模型越来越重要。大型语言模型 (LLM)(例如 GPT-3、Chinchilla 和 PALM)以及推荐系统(例如 DLRM 和 DHEN)在数千个 GPU 的集群上进行训练。训练包括频繁的计算和通信阶段,其中训练的下一阶段的启动取决于整个 GPU 套件的通信阶段的完成。最后到达的消息决定了所有 GPU 的进度。此尾部延迟(以通信阶段最后一条消息的到达时间为衡量标准)是系统性能的关键指标。大型模型的参数数量、嵌入表条目和上下文缓冲区的字数的大小持续增加。例如,在 2020 年,GPT-3 是最先进的,拥有 1750 亿个参数。最近,GPT-4 模型宣布拥有预计一万亿个参数,而 DLRM 拥有数万亿个参数,预计还会增长。这些越来越大的模型需要越来越大的集群进行训练,并在网络上传递更大的消息。当网络性能不佳时,这些昂贵的集群就无法得到充分利用。连接这些计算资源的网络必须尽可能高效且经济高效。高性能计算 (HPC) 作业同样要求很高,而且在规模和高效利用分布式计算资源方面,HPC 和 AI 的需求越来越趋同。虽然 AI 工作负载通常极其耗费带宽,但 HPC 还包括对延迟更敏感的工作负载。
晓兵
2024/11/24
8810
即将推出的超级以太网联盟(UEC)规范概述和动机
功能应用:RoCE与IB协议栈的选择策略(二)
在上一篇中,我们对RoCE、IB的协议栈层级进行了详细的对比分析,二者本质没有不同,但基于实际应用的考量,RoCE在开放性、成本方面更胜一筹。本文我们将继续分析RoCE和IB在拥塞控制、QoS、ECMP三个关键功能中的性能表现。
星融元Asterfusion
2024/11/07
3930
功能应用:RoCE与IB协议栈的选择策略(二)
全网首次揭秘:不止“SRD”,鹅厂也在自研一款全新的网络协议
今天介绍鹅厂自研的一款全新的网络协议,微秒级“复活”网络的HARP协议及其关键技术。
用户6874558
2023/03/06
1.1K0
全网首次揭秘:不止“SRD”,鹅厂也在自研一款全新的网络协议
是时候替换数据中心的 TCP 协议了吗?
作为最根深蒂固的标准之一,TCP协议有着悠久而成功的历史。但斯坦福大学教授John Ousterhout表示:“对于现代数据中心来说,TCP是一种糟糕的传输协议。”
通往ICT之路
2024/04/09
1930
是时候替换数据中心的 TCP 协议了吗?
re:Invent 首日:硬件创新加速,Serverless 冷启动技术突破
2022 re:Invent 如约而至,带来了云计算领域年度最后一场重要的产品发布盛会,也多少为我们揭示了今年云计算的整体演进趋势。本次 re:Invent 第一场 Keynote 于太平洋时间 19:30 (北京时间 11:30)开始,由亚马逊云科技高级副总裁 Peter DeSantis 带来,主题聚焦于亚马逊云科技围绕性能、性价比、安全三方面因素综合考虑带来的创新和发布,涵盖了 Nitro v5 高性能芯片、C7gn 实例、ENA Express 解决方案等八大重要内容,整体可以分为芯片与实例、协议与
深度学习与Python
2023/03/29
5100
re:Invent 首日:硬件创新加速,Serverless 冷启动技术突破
大厂资深专家介绍数据中心智能无损网络
原文发表于知乎:https://zhuanlan.zhihu.com/p/651830645
通信行业搬砖工
2023/12/04
1.1K0
大厂资深专家介绍数据中心智能无损网络
从天猫双11成交额2684亿看RDMA网络
话说2019天猫双11成交额2684亿!再次刷新世界纪录,订单创新峰值达到54.4万笔/秒,单日数据处理量达到970PB。
SDNLAB
2019/12/19
2.1K0
从天猫双11成交额2684亿看RDMA网络
数据中心内的负载均衡-MPTCP
以手机为例,手机包含两种上网方式,蜂窝移动数据网络(2G,3G,4G)和WIFI网络。我们希望在有WIFI的时候尽量使用WIFI,这样可以节省成本,没有WIFI的时候自动切换到蜂窝移动网络,避免断连。同样在PC端,我们希望有线网卡和无线网卡可以同时上网,提高网速。但是使用TCP协议是无法实现上述功能的。
SDNLAB
2018/09/25
3.9K0
数据中心内的负载均衡-MPTCP
层级剖析:RoCE与IB协议栈的选择策略(一)
在 AI 算力建设中, RDMA 技术是支持高吞吐、低延迟网络通信的关键。目前,RDMA技术主要通过两种方案实现:Infiniband和RoCE(基于RDMA的以太网技术,以下简称为RoCE)。
星融元Asterfusion
2024/11/07
1.7K0
层级剖析:RoCE与IB协议栈的选择策略(一)
星融元:浅谈RDMA与低时延网络
网络的发展好像在各方面都是滞后于计算和存储,时延方面也不例外,网络传输时延高,逐渐成为了数据中心高性能的瓶颈。
星融元Asterfusion
2023/04/06
1.5K0
星融元:浅谈RDMA与低时延网络
聚众群殴 IB 网络,超以太网联盟携 45 名新成员走向 v1.0 规范!
超以太网联盟 (UEC) 继续朝着 v1.0 版本规范集迈进。规范将为从业者提供数据中心网络技术最新的创新性部署方法,可以更好地服务于人工智能和高性能计算工作负载。由于 UEC 保留了现有的 AI 框架和 HPC 库 API,因此预计现有工作负载无需任何更改即可迁移到 UEC。
用户6874558
2024/03/22
8960
聚众群殴 IB 网络,超以太网联盟携 45 名新成员走向 v1.0 规范!
RDMA产业链投资机会全面深度梳理
近年来,人工智能、分布式训练和分布式存储技术快速发展,对网络传输性能提出了更高要求。但传统以太网在延迟、吞吐量和 CPU 资源消耗方面存在先天不足。在这一背景下,RDMA(Remote Direct Memory Access,远程直接内存访问)技术凭借卓越的性能,逐渐成为满足高性能计算需求的优选方案。
AIGC部落
2025/03/27
1640
RDMA产业链投资机会全面深度梳理
一文读懂RoCE
RoCE全称RDMA over Converged Ethernet,从字面来看,也就是基于融合以太网的RDMA,所以在了解RoCE之前还得先认识下RDMA这项技术。 什么是RDMA? RDMA(Remote Direct Memory Access),全称远端内存直接访问技术,可以在极少占用CPU的情况下,把数据从一台服务器传输到另一台服务器,或从存储到服务器。 传统应用要发送数据,‍‍需要通过OS封装TCP/IP,‍‍然后依次经过主缓存、网卡缓存,‍‍再发出去。‍‍这样会导致两个限制。 ‍‍限制一:T
SDNLAB
2022/08/26
32K0
一文读懂RoCE
万亿参数大模型网络瓶颈突破:突破90%网络利用率的技术实践
在人工智能技术快速发展的浪潮下,现代数据中心网络正面临着前所未有的挑战。GPT大模型的参数量已突破万亿级别,自动驾驶训练需要处理PB级的场景数据,这些都使得AI计算集群规模呈指数级增长。
星融元Asterfusion
2025/04/28
2130
万亿参数大模型网络瓶颈突破:突破90%网络利用率的技术实践
是德科技杨益锋:无损网络,真的无损?
在2020网络数据平面峰会上,是德科技大中国区网络解决方案部技术总监杨益锋给大家分享了主题演讲《无损网络,真的无损?》。
SDNLAB
2020/07/03
1.6K0
推荐阅读
相关推荐
软硬件融合视角:一文看懂高性能网络
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档