Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >局域网SDN硬核技术内幕 30 钩深致远 —— 意图驱动与自动驾驶(上)

局域网SDN硬核技术内幕 30 钩深致远 —— 意图驱动与自动驾驶(上)

作者头像
用户8289326
发布于 2022-07-27 03:01:15
发布于 2022-07-27 03:01:15
4040
举报

在前面几期专题中,我们从RDMA讲起,引入了INT(带内遥测)作为高精度实时质量检测的手段;ERSPAN精准检测关键报文丢包;gRPC监测网络设备控制平面信息等。通过这些手段,我们可以收集网络中的时延、抖动、丢包等转发平面外部信息;交换芯片计数、缓存使用量、拥塞程度等转发平面内部信息;以及路由转发表项、温度环境等控制平面信息。

有了这些信息收集手段以后,实际上,相对于SNMP打天下的阶段,我们对网络的管理控制,已经迈入了新时代——大数据时代的大门。

这是为什么呢?

对大数据技术有一定了解的朋友可能会发现,大数据相关处理的算法,如最小二乘,拟合,回归,相关度分析,马尔可夫链以及贝叶斯公式等,并没有超出工学硕士研究生的数学基础课程范畴。大数据与传统数据统计的区别主要在于,大数据分析的是全部的而非抽样的数据。

显然,通过前面提到的这些手段,相对于SNMP的采样,获取的数据量是巨大的。而在实践中,这些实时采集手段往往用于大型数据中心和园区网络中。因此,相关的大数据分析需要海量数据的存储,管理及分析能力。

显然,大数据在网络管理控制中的应用要付出一定代价。那么,它的产出在哪里呢?

首先是AI相关大规模分布式存储与计算应用的性能优化和诊断。

我们在前面提到,Tensorflow,GlusterFS,MAPR等AI相关的开发框架,底层均使用RDMA机制。为了保障RDMA业务无丢包,在以太网交换机上需要配置PFC和ECN技术,在RDMA相关业务即将发生拥塞,相关队列长度到达水线时,一方面向上游发送拥塞控制PFC,另一方面向下游传达拥塞标记ECN,从而实现以太网的无损传输。但,无损付出的代价是,有可能以太网接口无法达到线速,因为线速传输意味着有上游数据的丢失。

如何在丢包和无损之间找到平衡点呢?

显然,如果交换机流控的水线配置过低,会导致RDMA源服务器发送过慢,25G的以太网有可能只能利用15-20G,造成效率的降低。而如果流控的水线配置过高,在快要发生拥塞的时候才启动流控机制,流控信令尚未反馈到发送端,数据包缓存已经耗竭而引发丢包,则会使得RDMA整块数据重传,这是大家都不希望看见的。因此,合理配置交换机缓存水线,在优化无损以太网性能中是非常重要的。

不言而喻地,对交换机缓存水线的优化,是一个动态的过程,本质上是自动控制原理在网络中的应用。

学过自动控制的同学看到这张图,一定会开心地笑出来吧!对了,这就是PID控制的框图,单输入单输出自动控制系统的基本功。

部分二线交换机厂商,受到这些21岁大三学生应该掌握的内容的启发,在交换机内部增加了自动控制协处理器,可以对单个节点实现所谓的动态水线配置,从而优化RDMA性能,并包装成为所谓的AI网络方案,但市场反馈并不理想。这是为什么呢?

明天,我们将为大家揭开真正全局优化大数据及AI网络的奥秘。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-10-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 帅云霓的技术小屋 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
局域网SDN硬核技术内幕 31 钩深致远 —— 意图驱动与自动驾驶(中)
昨天,我们提到了,为了在数据中心网络的吞吐量和无丢包之间找到平衡点,我们需要合理配置交换机的流控触发水线,避免交换机发起流控过迟而无法避免丢包,或过早发起流控而使得上下游服务器无法充分利用网络资源。
用户8289326
2022/07/27
3610
局域网SDN硬核技术内幕 31 钩深致远 —— 意图驱动与自动驾驶(中)
局域网SDN硬核技术内幕 29 探赜索隐 —— gRPC Telemetry
前几天,我们介绍的RoCE技术和INT技术,让诊断系统钻进交换机里面去洞察网络体验劣化的瓶颈,是不是很酷炫?
用户8289326
2022/07/27
6700
局域网SDN硬核技术内幕 29 探赜索隐 —— gRPC Telemetry
局域网SDN硬核技术内幕 25 展望未来——RDMA(下)
海量的数据存储需求与以AI/大数据为代表的计算需求,推动多核、多处理器、服务器集群的普及,使得大规模的分布式计算与存储业务迅速增长。为了避免跨节点通信的时延及CPU占用成为大规模分布式计算与存储的性能瓶颈,工程师们发明了RDMA技术。
用户8289326
2022/07/27
1K0
局域网SDN硬核技术内幕 25 展望未来——RDMA(下)
网络设备硬核技术内幕 交换机篇 16 辟邪剑法(下)
上回说到,自从黑木崖大规模招降纳叛,在江湖上混不下去的星宿老仙丁春秋也投靠了黑木崖。
用户8289326
2022/07/27
5930
网络设备硬核技术内幕 交换机篇 16 辟邪剑法(下)
局域网SDN硬核技术内幕 28 广泛撒网与重点培养 —— 网络可视化 (下)
前几天,我们看到,RoCE提出的无损以太网需求催生了PFC和ECN等以太网流控技术的普及,但光纤劣化、微突发、错误配置以及大象流踩踏老鼠流等现象,令网络丢包、延时增大以及抖动等造成体验劣化的现象防不胜防。
用户8289326
2022/07/27
5450
局域网SDN硬核技术内幕 28 广泛撒网与重点培养 —— 网络可视化 (下)
一文读懂RoCE
RoCE全称RDMA over Converged Ethernet,从字面来看,也就是基于融合以太网的RDMA,所以在了解RoCE之前还得先认识下RDMA这项技术。 什么是RDMA? RDMA(Remote Direct Memory Access),全称远端内存直接访问技术,可以在极少占用CPU的情况下,把数据从一台服务器传输到另一台服务器,或从存储到服务器。 传统应用要发送数据,‍‍需要通过OS封装TCP/IP,‍‍然后依次经过主缓存、网卡缓存,‍‍再发出去。‍‍这样会导致两个限制。 ‍‍限制一:T
SDNLAB
2022/08/26
31.3K0
一文读懂RoCE
大模型与AI底层技术揭秘 (10) 工业化武装的巨龙 (下)
在前几期,我们提到英伟达为了将GPU Direct拉远到机箱外,收购了芯片厂商Mellanox。那么,Mellanox拥有什么样的黑科技,才能够加入NVidia引领的高性能计算战团呢?
用户8289326
2023/11/20
3200
大模型与AI底层技术揭秘 (10) 工业化武装的巨龙 (下)
局域网SDN硬核技术内幕 32 钩深致远 —— 意图驱动与自动驾驶(下)
昨天,我们通过一个案例,对基于大数据的RoCE诊断优化有了感性的认识。我们发现,综合分析来自INT,ERSPAN和gRPC监测到的网络节点信息,是可以先于业务质量的劣化,感知到隐患的存在的。因此,工程师们给这样的解决方案起了一个名字——先知网络。
用户8289326
2022/07/27
3790
局域网SDN硬核技术内幕 32 钩深致远 —— 意图驱动与自动驾驶(下)
解析流控技术演进
随着数据中心网络技术和带宽不断发展,流控技术在网络中发挥着越来越重要的作用,但一直未曾有过很大变革。直到无损网络的出现,流控技术出现新突破。作为以太网的基本功能之一,流控技术用于可以防止拥塞的情况下出现丢包,还能配合发送端合理的调整发送速率,从整体上保障网络带宽的最高效率。
SDNLAB
2019/12/19
3K0
解析流控技术演进
局域网SDN硬核技术内幕 24 展望未来——RDMA(中)
RDMA的本质,是对于大规模分布式计算存储的场景,让网卡绕开CPU,配合远端服务器直接存取内存,加速服务器之间的交互,降低时延,把宝贵的CPU资源用于高价值的计算与逻辑控制上。
用户8289326
2022/07/27
1.1K0
局域网SDN硬核技术内幕 24 展望未来——RDMA(中)
功能应用:RoCE与IB协议栈的选择策略(二)
在上一篇中,我们对RoCE、IB的协议栈层级进行了详细的对比分析,二者本质没有不同,但基于实际应用的考量,RoCE在开放性、成本方面更胜一筹。本文我们将继续分析RoCE和IB在拥塞控制、QoS、ECMP三个关键功能中的性能表现。
星融元Asterfusion
2024/11/07
3620
功能应用:RoCE与IB协议栈的选择策略(二)
未来已来,腾讯AI计算网络
"鹅厂网事"由深圳市腾讯计算机系统有限公司技术工程事业群网络平台部运营,我们希望与业界各位志同道合的伙伴交流切磋最新的网络、服务器行业动态信息,同时分享腾讯在网络与服务器领域,规划、运营、研发、服务等层面的实战干货,期待与您的共同成长。 毫无疑问,人工智能是近年IT界最火的研究方向,特别在2016年Alpha GO这一标志性事件后,国内外科技巨头持续加大对人工智能的投入。目前,人工智能的主要方向如图像识别、语音识别等等都是通过机器学习的方式,借助强大的计算平台对海量数据进行分析、计算,随着数据量的增长,单机
鹅厂网事
2018/02/06
2.6K0
未来已来,腾讯AI计算网络
都 Spine+Leaf 架构了,为什么数据中心网络还会拥塞?
目前数据中心流行的是 CLOS 网络架构:Spine+Leaf 网络架构,如下图所示:
通往ICT之路
2024/05/17
5220
都 Spine+Leaf 架构了,为什么数据中心网络还会拥塞?
IB vs RoCE:梳理AI智算网络的负载均衡与流控方案
在人工智能迅速发展的今天,大模型训练已成为推动技术进步的核心动力。然而,随着大模型规模的不断扩大和训练需求的增加,智算网络面临的挑战也日益严峻。网络作为连接计算集群的重要基础设施,其性能直接影响着AI训练的效率和效果。
星融元Asterfusion
2025/04/17
1950
IB vs RoCE:梳理AI智算网络的负载均衡与流控方案
网络设备硬核技术内幕 交换机篇 3 从御剑术到冲灵剑法
上回提到,正如李逍遥学会了御剑术,可以同时操控数十甚至几百柄剑那样,交换机可以同时处理数十到数百个以太网接口的数据包转发。
用户8289326
2022/07/27
4790
网络设备硬核技术内幕 交换机篇 3  从御剑术到冲灵剑法
Nvidia_Mellanox_CX5和6DX系列网卡_RDMA_RoCE_无损和有损_DCQCN拥塞控制_动态连接等详解-一文入门RDMA和RoCE有损无损
随着互联网, 人工智能等兴起, 跨机通信对带宽和时延都提出了更高的要求, RDMA技术也不断迭代演进, 如: RoCE(RDMA融合以太网)协议, 从RoCEv1 -> RoCEv2, 以及IB协议, Mellanox的RDMA网卡cx4, cx5, cx6/cx6DX, cx7等, 本文主要基于CX5和CX6DX对RoCE技术进行简介, 一文入门RDMA和RoCE有损及无损关键技术
晓兵
2023/07/23
9.9K9
Nvidia_Mellanox_CX5和6DX系列网卡_RDMA_RoCE_无损和有损_DCQCN拥塞控制_动态连接等详解-一文入门RDMA和RoCE有损无损
是德科技杨益锋:无损网络,真的无损?
在2020网络数据平面峰会上,是德科技大中国区网络解决方案部技术总监杨益锋给大家分享了主题演讲《无损网络,真的无损?》。
SDNLAB
2020/07/03
1.6K0
聚众群殴 IB 网络,超以太网联盟携 45 名新成员走向 v1.0 规范!
超以太网联盟 (UEC) 继续朝着 v1.0 版本规范集迈进。规范将为从业者提供数据中心网络技术最新的创新性部署方法,可以更好地服务于人工智能和高性能计算工作负载。由于 UEC 保留了现有的 AI 框架和 HPC 库 API,因此预计现有工作负载无需任何更改即可迁移到 UEC。
用户6874558
2024/03/22
8850
聚众群殴 IB 网络,超以太网联盟携 45 名新成员走向 v1.0 规范!
大厂资深专家介绍数据中心智能无损网络
原文发表于知乎:https://zhuanlan.zhihu.com/p/651830645
通信行业搬砖工
2023/12/04
1.1K0
大厂资深专家介绍数据中心智能无损网络
星融元:浅谈RDMA与低时延网络
网络的发展好像在各方面都是滞后于计算和存储,时延方面也不例外,网络传输时延高,逐渐成为了数据中心高性能的瓶颈。
星融元Asterfusion
2023/04/06
1.4K0
星融元:浅谈RDMA与低时延网络
推荐阅读
相关推荐
局域网SDN硬核技术内幕 31 钩深致远 —— 意图驱动与自动驾驶(中)
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档