首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >腾讯数据中心网络故障快速自愈实践

腾讯数据中心网络故障快速自愈实践

作者头像
鹅厂网事
发布于 2021-11-10 11:40:10
发布于 2021-11-10 11:40:10
4K0
举报
文章被收录于专栏:鹅厂网事鹅厂网事

前言

腾讯云市场规模近几年飞速增长,承载的业务类型覆盖电商、直播、金融、互联网等越来越多的内外部用户核心业务;基础网络作为腾讯云极为重要的基础设施,采用高冗余设计很好的支撑了业务的高速发展,部分架构甚至达到128台设备冗余,像设备宕机,链路中断,协议收敛等常规故障,业务基本无感知。由于部分业务对网络故障非常灵敏,网络设备转发轻微丢包可能会有影响,针对此类场景,我们需要具备全面而准确的快速自愈能力,能又快又准地定位并隔离异常网络设备,以尽可能快的速度恢复业务。

传统商业网络设备本身具备一定的故障自愈能力,例如板卡异常时能够自动离线板卡并上报告警,但通常仍会造成分钟级的质量影响;有时设备转发异常甚至不会有任何显性告警,此类故障通常需要依赖人去从海量设备中找到异常设备并进行隔离恢复,故障影响通常长达数十分钟。

如何能够克服传统商业网络设备的局限去降低网络故障对业务的影响时间,在云网络时代变得越发迫切;今年我们通过底层网络和上层业务在监控诊断层面的协同联动,当前在数据中心网络层面已经能够实现最快20秒内的故障自愈。

故障自愈主要包含三个环节:故障发现、故障诊断、故障恢复

一、故障发现:多维监控,业务联动,精准高效

在故障发现环节,腾讯网络主要采用fullmesh-ping 探测,利用海量业务服务器进行分层分级的探测,实时监控全网络质量情况。

Fullmesh-ping做为全局大盘监控,更关注系统的通用性,与业务完全解耦,主要存在以下问题:

1、 较难区分业务服务器操作导致的误报;

2、 部分节点监控粒度不够细,存在漏告可能。

今年,我们和腾讯云存储类业务进行了深入的联动,接入了业务探测和业务关键指标,使得我们在故障发现环节,告警精度、准度和时效性方面大幅提升。

云存储业务定制化探测全网每秒达千万级的探测流,对应每个网络模块达近十万条探测流;业务使用4K字节大包进行探测,由于大包通常会被网络拆分为多个数据包,任何一个分片数据包丢失都会导致丢包,对网络异常的灵敏度会更高;再结合业务关键指标可以确保业务探测告警是一个真实网络故障而非服务器操作导致的误报。通过联动业务监控,我们不但能感知到传统网络探测无法发现的问题,更将故障发现速度提升到了10秒内,准确率达到99%以上。

二、故障诊断:智能算法、敏捷轻载、广覆盖

故障诊断对于故障自愈来说是最复杂也最耗时的环节。如今一个数据中心网络集群核心层设备达数百台,如何快速精准找到故障设备对我们带来极大挑战。

早年故障定位全靠专家经验,主要是基于业务报障信息圈定故障范围,查看故障范围内所有网络设备的告警,流量,日志等多种信息,并结合流统等手段来定位故障点,通常需要1-2小时。

3、4年前随着自动化能力的提升,我们将手动操作全都搬到了工具系统上,由工具去并行自动执行多项检测任务,再由人基于工具反馈的信息来进行综合分析。故障定位通常需要30分钟。

当前故障诊断主要采用Erspan、INT+MOD、Netsense、基于异常流Traceroute公共路径+multi KPI这几种方式。我们对这几种技术做了对比分析,Erspan可以准确还原流量沿途经过的设备,且可以实时分析流量在哪个节点出现了异常,但是部署较为重载,效率较差;INT+MOD、Netsense等新技术需要芯片能力的支持,在现网老架构中无法支持,没法全网部署,覆盖率较差;最终我们选择了Traceroute+multi KPI方式。Traceroute方式虽然简单,但不依赖网络设备,可以做到全网覆盖。在方案落地初期我们遇到了采集的路径信息部分缺失的问题,通过引入智能路径补全算法,建立路径信息数据覆盖率,有效率指标,经过持续运营,如今路径信息采集覆盖率和有效率达到95%以上,满足故障诊断需求。

目前基于异常流量路径公共点+multi KPI的方式,我们可以做到2秒内定位到故障点,且定位准确率达到98%以上。

三、故障恢复:无损优雅、从容自若

故障恢复业界主流的做法是流量调度或对可疑设备进行快速隔离;数据中心网络故障恢复主要采用设备隔离的方法。设备隔离无外乎关端口、协议、控制路由收发这几种方法;这个环节主要有以下三点需要考虑:

1、 通过可行性评估控制隔离风险

在设备隔离前,需要从故障影响程度,网络冗余性,安全性角度对网络容量、网络变更、诊断结果等进行评估,避免多台设备被同时隔离,且隔离不会带来其他影响或恶化。

2、 设备隔离操作需要足够平滑

质量监控,故障定位环节还是存在错误可能的,只有保证设备隔离操作本身足够平滑,即使误隔离了设备,也不会对网络质量造成任何影响。腾讯数据中心网络采用多平面设计,且不同层级间正交互联,隔离主要采用控制路由收发的方式,保证隔离操作足够平滑。针对隔离操作本身,我们基于netops平台开发了相应的优雅隔离工具,网络质量异常会自动触发设备隔离。

3、 设备隔离操作需要足够快

腾讯自研交换机可以基于GRPC方式,快速下发指令实现设备快速隔离;但当前传统商业设备操作仍只能基于CLI的方式,设备登录,指令下发通常需要耗时5-30秒。针对商业设备的天然缺陷,我们通过控制器,绕过传统CLI方式,实现设备流量的快速调度,秒级隔离。

如图:控制器与全网核心设备提前建立bgp连接,采集每台设备的所有路由信息,带上no-advertise属性发给隔离设备实现设备快速隔离。

四、灰度回切:精细灰度,循序渐进

故障设备修复后需要及时回切现网;在设备回切现网时我们最担心的是设备故障没有完全修复,设备回切后对网络质量再次造成影响;为了尽量减少影响,所有设备回切都要等到凌晨变更窗口操作。目前我们上线了灰度回切的功能,设备全流量加载前,我们可以按需迁移部分流量到该设备上,好比将之前故障流迁移到设备上确认是否仍存在异常,再逐步增加流量到设备完全并网。

结语

当前这套网络故障自愈方案,20秒的自愈时效已经没有太大优化空间。在我们自研交换机的新架构中,基于Netsense能力的故障自愈方案也逐步完善落地,可以实现秒级网络故障自愈。但是基于监控系统层面的端网协同的自愈方案,做到秒级自愈的时效已经是理论上限。

未来要实现毫秒级的网络故障自愈,需要实现在业务路径调度层面的端网协同才能达到这个目标,这也是我们接下来继续努力的方向。

欢迎关注公众帐号“鹅厂网事”,我们给你提供最新的行业动态信息、腾讯网络最接地气的干货分享。

注1:凡注明来自“鹅厂网事”的文字和图片等作品,版权均属于“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用,如有违反,一经查实,将保留追究权利;

注2:本文图片部分来自互联网,如涉及相关版权问题,请联系sandyshuang@tencent.com

/

/

鹅厂网事/

分享鹅厂网络的那些事

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-11-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 鹅厂网事 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
腾讯&运营商网络智能运营实践
欢迎关注公众帐号“鹅厂网事”,我们给你提供最新的行业动态信息、腾讯网络与服务器最接地气的干货分享,还有一大波互动交流板块和有奖活动正在筹备当中,需要您的热情参与哦,敬请期待! 注1:凡注明来自“鹅厂网事”的文字和图片等作品,版权均属于“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用,如有违反,一经查实,将保留追究权利; 注2:本文图片部分来至互联网,如涉及相关版权问题,请联系v_huanjian@tencent.com 前言:         互联网已经日益进入到人们的日常生活中,像支付、打
鹅厂网事
2019/07/02
2.1K0
腾讯&运营商网络智能运营实践
海量规模下DCI网络的设计与实现
前言         随着云计算业务的蓬勃发展,全球资源的持续布局,对基础网络带来了极大的挑战。腾讯DCI超过千级节点中有数百台核心设备,庞大的骨干域带来的软硬件资源压力,网络质量无法很好的保障,多厂商互通、分布式协议严重影响了运营效率。         在这个背景下,我们结合腾讯“海量之道”的设计理念,在2018年上线了基于SDN集中控制和SR-TE技术实现的新一代DCI网络——B2,网络系统由自研SDN控制器和商用交换机搭建而成。随着不断的运营优化和资源布局,B2网络今天已经具备了集中控制、多平面、
鹅厂网事
2021/08/04
1.4K0
腾讯云网络运维平台建设之路
导语 | 腾讯云网络作为云的基础设施,其质量和稳定性直接影响了云的运营质量和用户口碑。同时客户对基础设施依赖度高,故障容忍度低,云网络产品迭代更新快,决定了我们需要对云网络质量有更高的要求。本文是腾讯云专家工程师陈政产老师在云+社区技术沙龙深圳站的分享整理,为大家详细介绍腾讯云网络运维平台的建设。
腾讯云开发者
2021/01/07
6.8K0
腾讯自研交换机系统优化之路
一、Tencent NOS概述 SONiC is an open source network operating system based on Linux that runs on switches from multiple vendors and ASICs. SONiC offers a full-suite of network functionality, like BGP and RDMA, that has been production-hardened in the data cen
鹅厂网事
2020/09/18
3K0
开放共建,智能监控——itango网络质量监控系统
随着云业务发展,作为iaas层的网络变得越来越重要并且业务依赖性强,网络工程师将面临更多问题和困难,尤其是全链路网络问题排查(4G、固网、骨干网、IDC或是TCP/IP协议各层问题)。近年来国家提出“一带一路”倡议,鼓励企业出海,但由于海外运营商情况复杂,网络工程师与用户交互的效率成为亟待解决的问题。腾讯网络运营团队经过大量的实践和探索,建设并推出了itango轻量级网络质量监控平台,希望通过开放共建的方式,与业界同仁一起努力提升网络故障处理效率,让网络畅通无阻,为业务保驾护航。
鹅厂网事
2023/09/28
2.3K0
开放共建,智能监控——itango网络质量监控系统
大型DCI网络智能运营实践
"鹅厂网事"由深圳市腾讯计算机系统有限公司技术工程事业群网络平台部运营,我们希望与业界各位志同道合的伙伴交流切磋最新的网络、服务器行业动态信息,同时分享腾讯在网络与服务器领域,规划、运营、研发、服务等层面的实战干货,期待与您的共同成长。 网络平台部以构建敏捷、弹性、低成本的业界领先海量互联网云计算服务平台,为支撑腾讯公司业务持续发展,为业务建立竞争优势、构建行业健康生态而持续贡献价值! 在2018 GOPS全球运维大会上海站,来自腾讯TEG网络平台部网络运营负责人何维兵,做了主题为「大型DCI网络智能运营
鹅厂网事
2018/09/25
7.9K4
大型DCI网络智能运营实践
星脉高性能计算网络:为AI大模型构筑网络底座
前言     AI大模型以其优异的自然语言理解能力、跨媒体处理能力以及逐步走向通用AI的潜力成为近年AI领域的热门方向。业内头部厂商近期推出的大模型的参数量规模都达到了万亿、10万亿级别。     前几天横空出世的AI爆款产品ChatGPT,可以聊天、写代码、解答难题、写小说,其技术底座正是基于微调后的GPT3.5大模型,参数量多达1750亿个。据报道,GPT3.5的训练使用了微软专门建设的AI超算系统,由1万个V100 GPU组成的高性能网络集群,总算力消耗约3640 PF-days (即假如每秒计算一千
鹅厂网事
2022/12/16
5.4K0
星脉高性能计算网络:为AI大模型构筑网络底座
给网络变更加个“护身符”—— 腾讯网络变更红绿灯
前言        变更是网络运营中最常见的工作之一。过去,想要在变更过程中监控网络质量变化,变更人员需要自行准备样本进行质量探测,同时逐个打开变更设备的流量视图以及关联区域的业务探测曲线,并在实施过程中实时关注这些页面。实施完成后,根据经验确认无异常,即结束变更。看起来行云流水又风平浪静的一次操作,往往在变更结束后却收到业务报障,此时才忽然发现变更存在异常,然后紧急回退来恢复业务,但从业务受到影响开始,到变更回退后业务恢复,影响时间已非常长,已经造成了严重网络故障,影响用户体验。如果能给变更加个“护身符
鹅厂网事
2021/07/02
1.3K0
DCOS – 面向数据中心的运营操作系统
欢迎关注公众帐号“鹅厂网事”,我们给你提供最新的行业动态信息、腾讯网络与服务器最接地气的干货分享,还有一大波互动交流板块和有奖活动正在筹备当中,需要您的热情参与哦,敬请期待! 注1:凡注明来自“鹅厂网事”的文字和图片等作品,版权均属于“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用,如有违反,一经查实,将保留追究权利; 注2:本文图片部分来至互联网,如涉及相关版权问题,请联系v_huanjian@tencent.com 分享大纲: 1. DCOS概念&优势 2. DCOS解决方案简介 3. D
鹅厂网事
2019/01/30
5.1K1
DCOS – 面向数据中心的运营操作系统
深度:腾讯云数据中心网络是怎么升级改造的?
网络的能力直接决定着数据中心的算力,尤其是随着AIGC时代的到来,人们对算力的需求越来越大,网络的升级改造也成为每个数据中心关注的重点。
了不起的云计算
2023/09/19
1K0
事中故障处理(4)故障定位
故障恢复指恢复业务连续性的应急操作,很多故障是在不断尝试验证解决恢复的动作,所以故障恢复环节与故障定位环节有一定的交叠,或在这两个环节之间不断试错的循环,即故障恢复操作可能和故障诊断是同时,也可能是诊断之后或诊断之前。在故障恢复中我们通常采用已知预案下的恢复三把斧:“重启、回切、切换”、自动或手动触发系统架构高可用策略、临时决断的恢复动作,以及恢复后的信息传递。
彭华盛
2021/10/08
1.6K0
腾讯网关TGW:用户无感知快速迁移及故障自愈能力 | USENIX ATC '25
腾讯网关团队与清华大学联合撰写的学术论文《TGW: Operating an Efficient and Resilient Cloud Gateway at Scale》(《腾讯网关TGW:一种面向大规模场景的高效弹性云网关架构》)成功入选2025年度USENIX年度技术会议(即USENIX ATC '25)。该论文系统阐述了已在腾讯生产环境稳定运行并持续迭代数代的TGW网关架构,重点展示了其用户无感知的无损快速迁移能力、故障自愈能力及高精度故障定位系统。此项研究成果标志着腾讯公司与清华大学、中国人民大学联合共建的云网络技术实验室在云网关领域取得的又一重大突破。以下将针对论文核心技术创新点进行深度解析。
腾讯云开发者
2025/05/21
2940
腾讯网关TGW:用户无感知快速迁移及故障自愈能力 | USENIX ATC '25
浅谈端到端质量检测和故障诊断
“鹅厂网事”由深圳市腾讯计算机系统有限公司技术工程事业群网络平台部运营,我们希望与业界各位志同道合的伙伴交流切磋最新的网络、服务器行业动态信息,同时分享腾讯在网络与服务器领域,规划、运营、研发、服务等层面的实战干货,期待与您的共同成长。 网络平台部以构建敏捷、弹性、低成本的业界领先海量互联网云计算服务平台,为支撑腾讯公司业务持续发展,为业务建立竞争优势、构建行业健康生态而持续贡献价值! 小编:常常听到业务同学和小网工在网络的丢包上面你来我往,业务同学表示万分之三的丢包不能接受,小网工摸着胸口说,这个世界
鹅厂网事
2018/02/05
3K0
浅谈端到端质量检测和故障诊断
腾讯星脉高性能计算网络:为AI大模型构筑网络底座
阿里灵骏智算产品有磐久可预期网络(参考:阿里整网络顶呱呱,整图苦哈哈!),腾讯也没闲着,星脉高性能计算网络为AI大模型构筑网络底座。
用户6874558
2023/03/06
5.7K0
腾讯星脉高性能计算网络:为AI大模型构筑网络底座
腾讯高性能分布式路由技术,亮相亚太网络研讨会APNet
亚太网络研讨会(APNet)汇聚亚太地区计算机网络和系统领域最优秀的研究人员,分享各自最新的研究成果,讨论当前最前沿的热点研究问题。2020年8月3-4号,为期两天的第四届亚太网络研讨会(APNet’20)在线上举行,包括腾讯、阿里、微软、英伟达、思科、字节跳动等分别分享了各自在网络领域的最新成果,其中腾讯TEG网络平台部架构师吕建超做了主题为Scalable and Flexible Routing Service for Tencent Cloud Access Network的演讲。 htt
鹅厂网事
2020/08/19
1.5K0
智能运维新纪元:深度学习如何精准定位网络故障
大家好,我是Echo_Wish,今天咱们聊点实在的——运维人最头疼的网络故障管理。相信不少朋友都经历过突发事故,搞了一晚上还没找到问题根源,最后被领导问一句:“到底是哪里出了问题?” 真的是压力山大。
Echo_Wish
2025/05/11
1360
智能运维新纪元:深度学习如何精准定位网络故障
腾讯DCN——端网协同,极致性能
前言       业务的高速发展驱动了腾讯DCN(Data Center Network)数据中心网络的大规模建设,对此我们通过设备自研、自动化系统等手段打造了高质量、低成本、高效率的智能DCN。近年来,随着大数据以及人工智能时代的来临,对性能有着苛刻诉求的分布式系统对网络提出了更高要求。因此,在规模与应用双重驱动下,我们也将极致性能与极致运营并驾齐驱,通过端网协同,构建高吞吐、低时延、高可用的极致DCN。 1.构建大规模网络的核心能力:    底层极简,上层智能        回顾过去几年DCN的演进历
鹅厂网事
2022/03/24
3K0
运营一小步,用户感知一大步
前言       打工人朴实无华的一天,刷乘车码坐车去上班,出示“粤康码“进大楼,打开企业微信处理工作,通过腾讯在线会议讨论项目进度,使用腾讯云创新项目,下班后通过腾讯课堂给自己充电,微信与家人沟通,通过视频号刷短视频休闲娱乐,这些互联网服务提高了我们工作效率,丰富我们的生活。      为了”网上生活不掉线“,腾讯网络运营团队一直与运营商伙伴保持密切沟通,通过“集约化”、“系统化”、“智能化”的三步走策略,与运营商展开了深度合作。在运营商的大力支持下,腾讯当前已与三大运营商联合建立了专属保障团队,全面增强
鹅厂网事
2022/01/26
4530
3.4 事中故障处理:统筹协同,快速恢复
面对不断复杂的生产环境,要增加TBF和缩短TTR的目标,需要围绕“故障发现、故障响应、故障定位、故障恢复”四个关键环节,在人员技能、协同机制、工具平台、数字化感知等方面进行统筹建设
彭华盛
2021/08/19
3.5K1
鹅厂如何构建大型基础网络平台
笔者用较小的篇幅来讲实现细节,而较多的内容聚焦在鹅厂在做这些工作时候的一些思路和经验,希望能给大家带来一点点参考价值。
鹅厂网事
2018/02/06
2.2K0
鹅厂如何构建大型基础网络平台
推荐阅读
相关推荐
腾讯&运营商网络智能运营实践
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档