前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >局域网SDN硬核技术内幕 31 钩深致远 —— 意图驱动与自动驾驶(中)

局域网SDN硬核技术内幕 31 钩深致远 —— 意图驱动与自动驾驶(中)

作者头像
用户8289326
发布2022-07-27 11:01:38
3300
发布2022-07-27 11:01:38
举报
文章被收录于专栏:帅云霓的技术小屋

昨天,我们提到了,为了在数据中心网络的吞吐量和无丢包之间找到平衡点,我们需要合理配置交换机的流控触发水线,避免交换机发起流控过迟而无法避免丢包,或过早发起流控而使得上下游服务器无法充分利用网络资源。

极少数的交换机厂商为了解决这个问题,付出高昂成本,在交换机内部增加了边缘推理单元,以实现自动调整交换机水线,试图达到充分利用网络资源的效果,但并没有得到市场的认可。这是因为——

上图是一个典型的自动控制的闭环。瓦特利用这种闭环控制的原理,使得蒸汽机成为了人们容易驾驭的安全可靠的机器,从而引发了工业革命。可以认为,人类数百年来工业时代的辉煌,是离不开这个闭环的。

但是,传统闭环控制带来的数据孤岛,也使得自动化系统“只见树木,不见森林”的矛盾越发突出。将这种基于数据孤岛的自动控制应用在分布式的网络中,背离了SDN全局控制的理念,无法解决PFC死锁、应用与会话可视等问题,也没有办法将带内遥测(INT)等实现全局检测的先进探测技术,通过大数据的手段应用于网络控制,最终的结局必然是被市场无情地抛弃。

正如中国和西方国家同时提出“工业4.0”、“工业互联网”、“中国制造2025”等先进理念那样,在网络的管控中,我们也需要利用AI及大数据技术,打破闭环,构建全局控制系统,进而实现数据驱动的社会化大生产,甚至推进下一轮的社会变革。

基于这方面考虑,我们需要通过大数据的应用来进行从云到网的全局调整,也就是实现业务的自动驾驶。

以RoCE业务的丢包为例。丢包的原因是网络拥塞,而网络拥塞实际上是有先兆的。

如图,4个配置25G网卡的MAPR存储节点,向1个配置100G网卡的TensorFlow计算节点发送数据,这时,交换机的缓存使用量是稳定的:

这是一个岁月静好的网络。

但是,如果网络的存储池中增加了一个MAPR节点,计算池中增加了一个Kafka节点呢?

显然,Tensorflow节点向4个MAPR节点拉取数据,同时Kafka节点向1个MAPR节点拉取数据时,会引起交换机之间100GE链路的拥塞。

左边的交换机的缓存使用量会上升。

这个时候,如果我们打开交换机的INT功能,可以检测到什么?

首先,INT可以实时报告缓存使用量。显然,这个使用量随着拥塞的发生而迅速增加。

另一方面,INT还可以实时报告转发路径的时延。由于缓存数据需要排队发送,显然,排队的数据包的时延大大增加了。

这样一来,如果网络大数据分析器支持使用INT进行网络分析,可以在交换机缓存用量到达水线之前分析出拥塞的发生,甚至与云平台联动,深入发掘出拥塞发生的根源——两侧网络中节点数的增加,并且给出调整建议。

如果我们将网络节点视为割裂的孤岛,也没有利用INT这种实时数据采集的手段,是没有办法解决上面案例中的问题的。

我们要知道,大数据与数理统计的本质区别,就是数据量和实时性的提升,触发了从量变到质变。因此,如果需要构建真正应用驱动,自动驾驶的智能运维网络,是离不开全局大数据的采集和分析的!

明天,我们还将分享更多酷炫的案例!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-10-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 帅云霓的技术小屋 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档