Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >腾讯云网络运维平台建设之路

腾讯云网络运维平台建设之路

作者头像
腾讯云开发者
发布于 2021-01-07 09:33:36
发布于 2021-01-07 09:33:36
6.5K0
举报

导语 | 腾讯云网络作为云的基础设施,其质量和稳定性直接影响了云的运营质量和用户口碑。同时客户对基础设施依赖度高,故障容忍度低,云网络产品迭代更新快,决定了我们需要对云网络质量有更高的要求。本文是腾讯云专家工程师陈政产老师在腾讯云开发者社区技术沙龙深圳站的分享整理,为大家详细介绍腾讯云网络运维平台的建设。

点击视频查看完整分享回放

一、腾讯云网络介绍

上图所示为腾讯云网路underlay架构,腾讯云的层级架构从上到下看,先是从地域Region级别,再到各可用区,最后到达网络计划模块。从这张图来看,往上走就是腾讯云的内网,往下走就是腾讯云的外网。

腾讯云的内网有三个连接:网络计划模块之间的连接,可用区之间的连接,以及跨地域之间的连接。腾讯云的外网主要接入了腾讯云三网带宽,以及BGP,另外还承载着外网流量调度的功能。

上图所示是腾讯云网络的overlay架构,overlay是基于underlay网络架构之上的,云的用户所使用的都是overlay的网络。overlay网络主要分为两个节点,一个是网络节点,一个是计算节点。

简单来讲overlay可以理解为:通过腾讯自研的SDN控制器来构建点到点的隧道。比如子机跟子机之间的通信在所在母机上面构建一个隧道,如果子机跟paas服务进行通信,就在SDN控制机上面构建一个母机到网关集群的隧道。

腾讯云现在已经拥有了40多个可用区,100多个Zone,服务器已经达到100W+了。这样的体量是非常大的,而且腾讯云还是在不停地演进当中,它的网络架构也在快速进行迭代,底层光缆错综复杂,不管是underlay还是overlay网络变更也非常得多,网络的故障也是各式各样的。

腾讯云网络作为腾讯云的基础设施,它承载所有云上数据的传输,它的稳定性决定云网络质量以及用户口碑。我们对网络的稳定性提出了更高的要求,对网络故障要做到:1分钟发现故障,3分钟故障恢复。

很多时候,网络隐患并不会立即演变成网络故障。网络故障在我理解看来它是有生命周期的,分为:事前的隐患阶段、事中网络变更阶段和事后网络故障阶段。

事前属于网络隐患阶段,可能会有一些异常事件发生,但是不至于影响到业务的正常使用;事中阶段很多基于网络的变更导致的网络突发情况;事后阶段,即由意外事件导致了网络故障。

为此,我们在隐患阶段引入了混沌工程的实践;在网络变更的时候,为了遏制网络变更导致的网络突发,我们引入了网络变更体检;在网络故障已经发生的阶段,我们通过建立网络监控,快速定位网络故障,尽快恢复,从而提升网络的可用性。

到2020年11月份,在混沌工程方面我们全年已经支持了500多起演习,发现了30+的网络问题;另外网络变更已经接入了1000多次,将网络变更故障总时长压缩在20分钟以下;在网络监控方面,我们做到了15-30秒发现网络问题。

二、腾讯云网络运维平台建设

1. 混沌工程

依上文所述,我们因为想要在网络故障前解决网络隐患,从而引入了混沌工程。那么混沌工程是怎么做的,它又是怎么在腾讯云网络上落地的呢?

首先我们需要了解一下什么是混沌工程?在我看来,混沌工程就是在生产环境上做一些探索性的实验,发现现网系统的脆弱环节,然后不断地提升这个系统的弹性

因为随着服务化或微服务化的普及,以及CI/CD的引入,从开发到上线的整个过程开始变得非常便捷,但是这却使得在一个复杂的分布式系统里面,业务故障的随机不可预知的概率大大增加,进而引发整个网络的紊乱和故障,导致用户业务上的不可用。

虽然故障发生的时候我们有相应的监控和处理,但是我们还是希望在隐患还没有演变成网络故障的时候就能把它们挖掘出来,由此我们引入了混沌工程。

混沌工程跟测试是有一定区别的,最主要的一点我认为是环境的问题。混沌工程最终还是希望能到生产环境中去做印证演习,而测试主要还是以非生产环境为主。

此外演习对于运维人员也是一个考验,对大家的应急反应能力要求很高。另一个主要区别在于输入,测试一般是来做一些功能印证,输入和输出通常都是可以预知的,而混沌工程更多是一种意外事件的引入。

混沌工程在腾讯云网络故障产品中落地是网络演习,我们的演习场景一般都来自于现网的故障。一般情况下网络的异常包括:质量丢包、流量突增以及流量哈希负载不均,了解了这个事件以后,做演习时候就要找出它的关键路径,然后是它的业务指标。云网络的业务指标包括:路由的收敛、网络的质量和流量等。

在这个过程中,要有一些视图来指导你的演习,不然容易迷失。当我们有了稳态指标,在任务执行过程中对一些异常事件做处理,比如你要做隔离,那么隔离的工具是不是好用,设备是不是响应,网络是不是异常都是需要考虑的。

最为重要的一点是,在做混沌工程的时候,不能把实验变成一次网络故障。你需要极力控制它的影响范围,一旦影响范围扩大了就需要有回滚措施。主要就是故障注入和故障销毁,故障注入就是异常的注入,故障销毁就是如果演习终止或者结束了故障要及时销毁。

最后我们做的这些演习都希望演变成可自动化执行的流程,所以对稳态指标的判定、故障的自动销毁、异常的处理、故障的隔离都要有相应的措施,不能让意外演变成一次故障。演习结束的时候,我们也要对演习报告和产生的问题进行汇总分析,抽象成一些场景以及后续推进演习的优化方案。

2. 变更体检

整个腾讯云的体量在不断增长,网络架构也在不断演进,相应的网络变更数量也是水涨船高。网络变更在腾讯云上有一套比较标准的管理规范,需要建立规范基线,变更要有时间窗口,变更的申请、审批、实施、公告都要做到很全面。

对网络变更需要归类出场景,由这些场景再提炼出比较好的实施方案。另外变更还需要进行审批,审批主要是去看变更的技术环节以及风险控制,以及对横向影响面的评估把握。

最后在变更实施的时候,我们还要沉淀出一套风险控制的理论,尽量把风险压缩到最低,找出一些最佳实践。当我们有了比较成熟的或者风险比较小的方案后,将它引入自动化的变更实施,做到无人值守。

即使有了这些规范,实际情况还是会存在一些网络变更的问题,主要是哪些问题呢?一个是网络变更对业务团队是不透明的。第二个问题是网络变更人员其实是没有感知业务的指标数据,做不到故障的感知,业务方在定位问题的时候也不能很快地关联到网络变更。

经分析,最主要的问题在于:网络变更的时候缺少自己的业务指标的监控。所以这块我们引入了网络变更体检。

网络变更体检主要是在什么环节呢?网络变更审批完之后我们就要添加相应的网络变更任务。在网络变更任务的变更实施的窗口期就要做执行监控分析,由于网络变更往往基于一个点的变更,所以存在一些能很好探测业务的指标作为异常评判。

但是有些变更业务指标很难采到样本,那么该去做呢?在这里我们会做一些关联业务指标的告警分析。

3. 网络监控

除了网络变更,还有一项举措是必不可少的,那就是网络监控。我们对网络监控的要求是:快、准、全,并且颗粒度要求足够细

腾讯云网络监控需要覆盖非常多的场景,包括外网运营商、内网LAN&DCI、网关集群质量、转发质量监控、专线监控等,监控的方式也各式各样,包括Ping、TraceRoute、Curl、Socket等。

另外还需要提高告警精准性,能够做到快速精准定位,减少故障影响时间,监控粒度为5-10秒这个级别,故障发生后要求15-30秒发现问题。

怎么做到精准呢?首先你的探测源必须是稳定的,不能有高负载的情况。另外探测源和探测目标之间的路径应该是很短的,如果路径很长,当异常发生的时候你的问题往往也定位不清。此外你采集的样本必须是较为稳定的,不能这一会儿是活的,下一会儿直接不通了。

做网络监控我们又面临了哪些挑战呢?首先在于目标指标的采集,其实不是样本越多就越好,我们希望能用比较少量但精准的样本来反应情况,但是准确的样本还要保证它是长期活跃的,如果它的状态是“半死不活”的,那么对监控采样数据的干扰性就会比较大。最后探测的问题也需要覆盖得比较全面。

第二个挑战在于快速发现问题,只有探测的粒度足够细,监控定位的速度才能够快上来,但是探测快了多了以后,别人发现了可能就做一些动作来限制你。

其次我们还需要采取一些策略,当数据采集上来之后,能够对这些数据做快速全面的异常检测。网络异常不仅仅指突发性持续异常,对于网络不连续抖动这样的异常,我们也需要能监控到。

对此,腾讯云制定了下面的网络监控的方案。在探活阶段把高质量样本调进来,然后进入到探测池,在探测池里构建出循环探测,探测器就只管自己的探测,探测完之后数据快速落到存储里面。数据落进来之后,我们的探测不再是纯粹的探测发现问题,还需要具备问题分析能力。

在探测的时候,我们需要结合探测路径以及路径上的网络设备的日志,再结合一些指标,比如流量是否发生变化等做分析,来定位网络问题。

三、腾讯云网络运维平台未来思考

如上文所述,在网络排障方面,我们针对网络隐患采用了混沌工程的实验;对于网络变更,我们引入了变更体检;在网络监控方面我们已经比较全面和准确的覆盖了现网问题。

未来我们还需要深入探索,在网络隐患层面,除了混沌工程还有没有其他更好的方法呢。另外,我们现在很多的网络定位是通过抓包来实现的,但是路径一旦变长,这件事就开始变得不可控,而且也不好进行协调,所以我们也在思考:在故障定位上是不是也有一些别的方法可以去做呢?最后,我们也希望在网络故障的时候系统能做到一定的网络自愈。

为此,我们也做了很多的尝试。在网络故障预测方面,我们想结合网络设备的syslog、snmp等数据提前挖掘出网络隐患。

在排障方面,我们希望能够做到全链路的排障,结合网络拓扑、流量染色、镜像等综合分析,把网络故障的定位做得更好。

最后是故障自愈方面,在于网络流量的自动化调度和网络设备、链路故障自动化隔离。

四、Q&A

Q:您刚才介绍的混沌工程和对网络做整体变更之后的控制,一般是通过点到点而不是针对一个面来全盘做监控,那么腾讯云目前是怎么做网络监控的?

A:通过点来做主要是因为点的监控会更加精准,只要这个点可以采集到业务指标。另外做探测一定要靠近它,链路要短,这样探测到问题那基本上就是这个点的问题了。但是当我没办法拿到这个点的探测业务指标数据该怎么办呢?根据网络层级结构,会有关联到上下联的网络设备,这时候你把关联做起来,如果发现上下联出问题了,就要第一时间定位是不这个点引起的,因为正常的话上下联是不会有问题的,通常是网络变更导致产生问题。前文也提到了我们会设有红绿灯机制,对于准确率很高的联系就会直接强制要求马上回滚,减少故障影响,对于这种面的问题通常需要运维的介入。

Q:刚刚老师讲到:链路比较长的话要缩短探测链路。如果链路很长就会分成多段探测,还有很多分支,对于各种故障的点,可能一下子检测出来的点会很多,这种人工去分析的话很难,有没有技术上的手段做判断?

A:我们之前有采用这样的方案,一个点有问题,我可以覆盖两个探测点,两个点探测到都是你有问题,那大概率是你的问题。还有一种是Full Mesh的,这个问题会被放大,因为链路一长会传递,会放大,这个问题就比较难解。还有一种思路,对于异常路径的汇聚,探测数据不是有异常嘛,它走过的路是不是有重叠的地方。

Q:这个判断是人工判断吗?

A:这是自动化分析,异常目标数据是有探测路径的,我们在探测路径上可以做一层汇聚,大家走的公共节点是哪个,那大概率就是你的问题。

Q:我们的log那么多,除了自动化的分析方法之外,还有没有利用深度学习或机器学习的方法来进行?

A:我们是有做一些尝试。

Q:目前有没有部署到现网上面?

A:目前有,但是它的准确率还不够,我们也有做日志的规范化。

Q:是用模板匹配吗?

A:有模板匹配的,基于规则的也有,基于算法的也有。

Q:有没有基于深度学习的?

A:有一些尝试,主要是做日志异常的检测。

Q:我们对监控的数据要做标注,是之前已经做好的还是怎样的?

A:我们现在采用的是以无监督的居多。日志打标是比较耗时耗力的工作,但不是说完全不可以做,目前也有团队在做这个事情,会对日志做一些基于规则的打标工作。

Q:刚刚提到网络变更可能会导致网络故障,如果业务监控不全,它自己排查不出来业务故障,能不能单个业务去做网络变更?比如这个应用没有做好灾备就故障了,事后我要去排查为什么会故障,要去解决这个问题,但是我又想把这个场景复现一下,需要运维团队协助吗?

A:我们做的是一个面上的问题,而不是像你这种纯业务的,我们云网络的监控是剥离业务的,对所有业务是同等对待的。除了SVIP级别客户的监控,其他都是大盘的监控,很少监控到点的问题。点的问题虽然有SVIP级别客户的监控,但因为样本数量少,想挑选高质量样本点的变更就更加困难,所以稳态指标很难比较好得挑出来。

Q:能有什么方法可以帮助业务方排查遇到的问题吗?

A:我们就是全链路的排障,这样就能通过模拟流量把问题分析出来。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-12-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯云开发者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
揭秘腾讯云Supermind智能网络,百万级设备的网络高效运维
本文介绍了腾讯云网络产品的智能化演进,主要从四个方面进行介绍:自研路由器引入AI,打造智能网络;基于意图的网络;基于策略的网络;AI在网络运维领域的应用;以及网络大脑的构建。
腾讯云开发者社区
2017/12/05
3.9K0
腾讯云运维干货沙龙-海量运维实践大曝光 (三)
织云平台团队
2017/12/17
5.3K0
腾讯云运维干货沙龙-海量运维实践大曝光 (三)
十亿人都在用的健康码,运维体系是怎么设计的?
导读|随着疫情防控模式的迭代,健康码访问DAU逐渐趋于下跌,意味着健康码将逐步完成历史使命,见证着疫情的结束。本文特邀腾讯研发工程师李雄政将从技术架构、可观测体系、运营保障体系等运维体系多方面,总结回顾健康码业务运营过程中的保障技术手段。 业务背景 疫情三年,奥密克戎已是强弩之末,疫情终将过去。历经数个阶段的迭代,腾讯健康码产品服务于十余个省份的居民,数亿用户、数百亿次亮码。有效助力保障公共卫生安全。全国健康码共累计PV2k多亿,亮码1k多亿,最大省份的健康码用户量超过1亿,DAU过千万。 随着疫情
腾讯云开发者
2022/12/29
2K5
十亿人都在用的健康码,运维体系是怎么设计的?
云原生背景运维转型之 SRE 实践
作者:yorkoliu,腾讯 IEG 业务运维专家 一、前言 上一篇文章《云原生背景下的运维价值思考与实践(上)》 重点介绍了云原生背景下运维转型的思考,围绕着整个 DevOps 交付链,贴近业务不断输出运维的能力与价值。这篇内容我想谈谈 DevOps 的下半段,通过我们的构建服务稳定性保障实践,利用 SRE 的思想与方法,不断去冲刺稳定性的终极目标:“提升 MTBF(平均故障时间间隔)、降低 MTTR(故障平均修复时间)”,很多小伙伴会有疑问,DevOps 与 SRE 到底是什么样的关系?在 Google
腾讯技术工程官方号
2022/01/17
2.7K0
腾讯自研交换机系统优化之路
一、Tencent NOS概述 SONiC is an open source network operating system based on Linux that runs on switches from multiple vendors and ASICs. SONiC offers a full-suite of network functionality, like BGP and RDMA, that has been production-hardened in the data cen
鹅厂网事
2020/09/18
2.9K0
开放共建,智能监控——itango网络质量监控系统
随着云业务发展,作为iaas层的网络变得越来越重要并且业务依赖性强,网络工程师将面临更多问题和困难,尤其是全链路网络问题排查(4G、固网、骨干网、IDC或是TCP/IP协议各层问题)。近年来国家提出“一带一路”倡议,鼓励企业出海,但由于海外运营商情况复杂,网络工程师与用户交互的效率成为亟待解决的问题。腾讯网络运营团队经过大量的实践和探索,建设并推出了itango轻量级网络质量监控平台,希望通过开放共建的方式,与业界同仁一起努力提升网络故障处理效率,让网络畅通无阻,为业务保驾护航。
鹅厂网事
2023/09/28
2.1K0
开放共建,智能监控——itango网络质量监控系统
腾讯数据中心网络故障快速自愈实践
前言 腾讯云市场规模近几年飞速增长,承载的业务类型覆盖电商、直播、金融、互联网等越来越多的内外部用户核心业务;基础网络作为腾讯云极为重要的基础设施,采用高冗余设计很好的支撑了业务的高速发展,部分架构甚至达到128台设备冗余,像设备宕机,链路中断,协议收敛等常规故障,业务基本无感知。由于部分业务对网络故障非常灵敏,网络设备转发轻微丢包可能会有影响,针对此类场景,我们需要具备全面而准确的快速自愈能力,能又快又准地定位并隔离异常网络设备,以尽可能快的速度恢复业务。 传统商业网络设备本身具备一定的故障自愈能力
鹅厂网事
2021/11/10
3.9K0
为算力护航——腾讯星脉网络运营实践
如果把传统数据中心网络看作高速公路,那么GPU网络就是拉力赛车专用赛道。这个专用赛道承载着成千上万个计算单元的通信流量,可以说在赛场上的每辆赛车都装载着原料,而赛道上出现的任何不利因素都会严重影响着生产,譬如路面不平导致原材料倾洒丢失就需要重新运输,道路拥塞会降低生产效率,道路中断导致生产过程中断。
鹅厂网事
2024/01/11
1.9K0
为算力护航——腾讯星脉网络运营实践
【云顾问-混沌演练】迎难而上,腾讯云混沌工程实践之道揭秘
随着数字经济转型逐步深化,众多企业正迈入全面上云阶段。然而,云计算架构所带来的复杂性也让稳定性面临极大挑战。伴随着云计算规模的快速增长,云服务作为社会基础设施的重要性也日益提升。腾讯云深知质量乃生命线,稳定性至关重要且不容忽视。
四方.
2023/07/03
1.4K0
【云顾问-混沌演练】迎难而上,腾讯云混沌工程实践之道揭秘
让程序猿安心过大年,解密腾讯云SDN网络流量调度
转眼又到春节,又到了亲朋好友大团圆的时刻。对程序猿和攻城狮来说,能否安安稳稳的过年就主要取决于网络是否安稳了,谁都不想在合家团圆吃年夜饭的时候因为网络故障加班。不过,过去这一年各种网络却是故障不断:
腾讯云网络产品团队
2018/02/09
2.3K0
让程序猿安心过大年,解密腾讯云SDN网络流量调度
游戏、电商、Web3……「腾讯云可观测」护航企业出海,精准规避跨境网络暗礁
导语:在全球数字化转型和企业出海的浪潮中,「腾讯云可观测」凭借对网络质量和用户体验的高效洞察,深度赋能国内出海企业,助力其有效应对海外公网质量挑战,构建“质量可观测、风险可防范、性能可优化”的全球业务可观测体系。
腾讯云可观测平台
2025/04/18
960
游戏、电商、Web3……「腾讯云可观测」护航企业出海,精准规避跨境网络暗礁
【云顾问-混沌演练】“练”出强大,腾讯云混沌演练平台斩获三项优秀案例荣誉!
中国信通院于2022年11月启动案例征集,活动旨在通过筛选行业最佳实践案例,为众多企业提供参考和指引,进而推动我国云服务稳定安全运行水平提升,保障各个行业数字化转型和稳定运营。作为首届活动,标志性、引领性意义重大。
Isainsley
2023/02/07
9760
【云顾问-混沌演练】“练”出强大,腾讯云混沌演练平台斩获三项优秀案例荣誉!
云数据中心网络运维的苦与乐
前几年大家讲 SDN 比较多的是怎样利用控制器,像 OpenDayLight、ONOS 这些东西,其实在讲怎样做一个 Driver、怎样做控制。大概从去年开始,SDN 开始跨入应用的时代,现在大家更多地在讲实际要做的事情、应用场景是什么。由于大家对 SDN 有多种不同的理解,在本文中我想把话题聚焦一下,落到云数据中心的网络运维这个点上,分享一些运维中的实际例子。没有大的篇章,只说说我们遇到的那些苦与乐。 因为本文话题的场景是云数据中心,所以我们有必要先看一下云数据中心里面的网络是什么样子。 简单来说
SDNLAB
2018/03/30
1.7K0
云数据中心网络运维的苦与乐
腾讯汤桢乾:腾讯自研交换机成长之路
“2020 SONiC产业生态研讨会”于9月19日圆满落幕,腾讯网络平台部汤桢乾带来了主题演讲《腾讯自研交换机成长之路》。
SDNLAB
2020/09/27
1.4K0
腾讯汤桢乾:腾讯自研交换机成长之路
何维兵:大型DCI网络智能运营实践
做运营的同学,都有同样的感受,既希望被老板关注,又不希望被老板关注!因为觉得被老板关注时,常常是没什么好事发生。记得微信红包兴起时,有一次我们网络运营就有幸得到了老板的特别关注!那一次刚好是微信年会,老板现场想发一个红包给大家,结果红包没发出去,因为网络出故障了,你们能想象到当时有多尴尬。我们做这么重要的支付业务,这么关键的场合居然掉链子了。随后老板找到我们提了需求,三分钟恢复,大家觉得这个需求怎么样?不能说不好,需求是对的。我们来分析一下这个需求,这是截取的一些公开资料,大部分互联网公司都差不多,从A端到B端的访问路径算了一下,大概经过32个网络结点,中间路径1000条,这么多路径、这么多节点,三分钟时间内搞定这些问题还是挺有挑战的。
TEG云端专业号
2018/09/25
1.2K0
大型DCI网络智能运营实践
"鹅厂网事"由深圳市腾讯计算机系统有限公司技术工程事业群网络平台部运营,我们希望与业界各位志同道合的伙伴交流切磋最新的网络、服务器行业动态信息,同时分享腾讯在网络与服务器领域,规划、运营、研发、服务等层面的实战干货,期待与您的共同成长。 网络平台部以构建敏捷、弹性、低成本的业界领先海量互联网云计算服务平台,为支撑腾讯公司业务持续发展,为业务建立竞争优势、构建行业健康生态而持续贡献价值! 在2018 GOPS全球运维大会上海站,来自腾讯TEG网络平台部网络运营负责人何维兵,做了主题为「大型DCI网络智能运营
鹅厂网事
2018/09/25
7.9K4
大型DCI网络智能运营实践
大型DCI网络智能运营实践
9月14-15日,GOPS全球运维大会上海站圆满举行,为期两天的运维盛宴,为各位运维人带来了相互交流和学习的绝佳平台,来自腾讯技术工程事业群(TEG)网络平台部的何维兵给大家带来了「大型DCI网络智能运营实践」的主题分享。 我们同步了嘉宾现场沙龙分享视频(内含高清PPT),请点击下方「腾讯技术课小程序」卡片即可查看: 同时附上整理好的演讲稿: 何维兵,来自腾讯TEG网络平台部,资深运维老兵,拥有10年运营商网络、6年互联网基础设施运营经验,擅长大型骨干网络、数据中心网络维护管理和运营支撑系统规划建设,
腾讯技术工程官方号
2018/10/09
9840
大型DCI网络智能运营实践
云原生背景下的运维价值思考与实践
作者:刘天斯,腾讯游戏高级工程师 前言 随着公司自研上云战略如火如荼地进行,IEG-增值服务部作为较早一批响应的团队,截止目前自研上云已完成1/3的流量切换,日PV超百亿。切云的服务大量采用了云原生的应用与技术架构,作为公司第一批面临云原生环境的业务运维,深切感受到云原生给运维工作带来的机遇与挑战,运维模式的转型已经迫在眉睫,此篇文章最大的价值在于将我们的转型思路、方法与实践,提供给后面更多面临同样挑战的团队借鉴与参考。下面我将从业务场景、运维转型之道、云端收益等几个方面来跟大家一起来探讨。 一、业务服
腾讯技术工程官方号
2020/11/27
2K0
腾讯云小微AI语音助手云原生之路
云原生(CloudNative)是一个组合词,“云”表示应用程序运行于分布式云环境中,“原生”表示应用程序在设计之初就充分考虑到了云平台的弹性,就是为云设计的。可见,云原生并不是简单地使用云平台运行现有的应用程序,而是一种能充分利用云计算优势对应用程序进行设计、实现、部署、交付和操作的应用架构方法。
俞淦
2022/11/08
15.1K0
腾讯云小微AI语音助手云原生之路
【云顾问-混沌演练】乐元素 x 腾讯云混沌演练平台:游戏业务同城双活改造最佳实践
乐元素是国内休闲益智游戏领域领航企业。为了给用户提供更稳定可靠的使用体验,在2023年Q2开始,乐元素运维、业务团队联合腾讯云售后专家和技术专家,基于针对乐元素旗下休闲游戏产品《开心消消乐》展开同城双活改造项目,目的是了解并改善业务容灾部署状况,进一步强化云上业务系统的容灾能力。
ainsley@tencentcloud
2024/01/29
5640
推荐阅读
相关推荐
揭秘腾讯云Supermind智能网络,百万级设备的网络高效运维
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档