Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >容灾系列(十二)——业务异地多活能力建设【方案篇】

容灾系列(十二)——业务异地多活能力建设【方案篇】

原创
作者头像
开元
修改于 2022-12-09 10:38:33
修改于 2022-12-09 10:38:33
2.4K0
举报
文章被收录于专栏:开元说说开元说说

异地多活相对于异地热备,最大不同点在于应用在不同地域都承载流量,从业务流量调度,数据同步以及业务性能等方面技术复杂度会大幅度的提升。同时业务异地多活有一个前提,就是业务支持单元化部署,这里对存量有历史技术债业务也存在非常大的挑战。因此本篇幅讨论异地多活前提是,业务已经具备单元化部署的能力。

对于业务异地多活,基于成本以及业务复杂性实现方案有很多,当前主要介绍以下三种方案。

方案一:业务单元化部署

业务多地域单元化部署,入口流量借助于DNS解析线路来调度。当发生极端情况下,对应地域的业务恢复依赖于备份来恢复,RTO时间依赖于备份方案。该方案整体复杂度偏低,资源成本低,不涉及数据同步以及一致性,极端情况下,只能保障部分业务实时提供服务。具体技术架构如下:

多地域set化部署
多地域set化部署

在本方案中,不涉及备份技术方案,详情请参考之前容灾系列的备份方案。方案要点说明如下:

1)业务调度:目前通过DNS统一调度,调度路线设置通过地区或者运营商为区分。

2)业务部署:业务多地域单元化部署,同一地域业务同城双活部署。接入层CLB具备跨AZ主备能力;应用层采用多可用区部署建议采用容器运行时;数据层采用一端写就近读的跨AZ高可用实例。

3)容灾成本:业务备份的资源成本,具体可参考之前容灾文章系列。

4)业务恢复:可用区粒度的极端故障,基于云平台同城双活架构可实现RTO秒级切换恢复业务。对于地域粒度极端故障,如果广州地域整体异常,通过异地备份方式来恢复业务;北京地域的业务不受影响,正常访问。

方案二:业务单元化部署+数据单向同步

业务多地域单元化部署,中心地域具有全局数据,通过数据单向同步实现,如果分中心的地域出现极端故障,可以通过快速扩容和切换DNS线路的方式恢复业务,提升RTO指标;如果中心地域出现故障,通过备份方式来进行恢复。详细技术架构图如下:

业务set化部署+数据单向同步
业务set化部署+数据单向同步

在本方案中,不涉及备份技术和AS弹性扩容的技术细节,详情请参考之前容灾系列的备份方案。方案要点说明如下:

1)业务调度:同方案一保持一致。

2)业务部署:相对于方案一,新增了数据单向同步,北京地域为中心地域,具有全部业务数据;而广州地域为分中心,只有广州业务数据。

3)资源成本:相对于方案一,新增数据单向同步流量成本,由于北京地域数据库为全局业务数据库,规格实例成本相对于方案一会升级增加成本。

4)业务恢复:可用区粒度极端故障,和方案一保持一致;地域粒度极端故障,如果是主中心的故障和方案一一致,通过备份方式进行恢复,例如北京地域出现极端情况;如果是分中心故障,例如广州地域不可用,通过DNS修改解析线路到北京,RTO秒级别完成业务切换恢复。

方案三:业务单元化部署+数据双向同步

业务多地域单元化部署,不同地域数据库进行双向同步,对于地域粒度极端故障,实现业务秒级切换,提升RTO性能指标。详细技术架构如下:

set化部署,数据双向同步
set化部署,数据双向同步

在本方案中,不涉及备份技术和AS弹性扩容的技术细节,详情请参考之前容灾系列的备份方案。方案要点说明如下:

1)业务调度:于方案二保持一致

1)业务部署:相对于方案二,增加了数据双向同步,各个地域中心均具有全局数据能力,提升容灾的RTO指标,同时不同业务数据要有唯一主键来保证数据一致性

目前腾讯云平台已经支持双向同步,参考https://cloud.tencent.com/document/product/571/60956

2)资源成本:相对于方案二,由于地域不同数据库相互备份,减少备份资源成本,同时会增加地域间的数据同步带宽;数据库存储规格相对于方案二会增加成本。

3)业务恢复:相对于方案二,可用区粒度极端故障恢复保持一致,对于地域粒度极端故障,通过DNS切换解析线路进行恢复,提升RTO。

方案小结:方案横向对比

1)方案容灾能力对比(业务支持秒级切换,业务恢复为分钟级别)

单元化多地域部署

地域间单向数据同步

地域间双向数据同步

单可用区入口不可用

支持

支持

支持

单可用区资源不可用

支持

支持

支持

单可用区网络不可用

支持

支持

支持

同地域入口不可用

支持

支持

支持

同地域资源不可用

不支持

部分支持

支持

同地域网络不可用

不支持

部分支持

支持

2)方案综合能力对比

单元化多地域部署

地域间单向数据同步

地域间双向数据同步

运维能力

非常高

复杂度

较高

非常高

资源成本

跨地域专线带宽费用较高

跨地域专线带宽费用非常高

覆盖场景

可以满足大多数高可用场景

可以满足绝大多数高可用场景

相对于单向数据同步,提升空间有限

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
高可用解决方案:同城双活?异地双活?异地多活?怎么实现?
点击上方蓝色“程序猿DD”,选择“设为星标” 回复“资源”获取独家整理的学习资料! 后台服务可以划分为两类,有状态和无状态。高可用对于无状态的应用来说是比较简单的,无状态的应用,只需要通过F5或者任何代理的方式就可以很好的解决。后文描述的主要是针对有状态的服务进行分析。服务端进行状态维护主要是通过磁盘或内存进行保存,比如MySQL数据库,redis等内存数据库。除了这两种类型的维护方式,还有jvm的内存的状态维持,但jvm的状态生命周期通常很短。 高可用的一些解决方案 高可用,从发展来看,大致经过了这几个
程序猿DD
2023/04/04
3.7K0
高可用解决方案:同城双活?异地双活?异地多活?怎么实现?
异地多活演变流程
在软件开发领域,异地多活是分布式系统架构设计的一座高峰,很多人经常听到过他,但很少人理解其中的原理;
iginkgo18
2023/06/06
6030
详解:淘宝高可用异地多活架构
作者丨DongGuoChao 来源丨https://blog.dogchao.cn/?p=299 导读:异地多活,作为一种高可用部署架构,成为大中型互联网公司的选择。像大家熟知的大型互联网公司,如阿里
xcbeyond
2020/11/30
2.7K0
详解:淘宝高可用异地多活架构
同城双活与异地多活架构分析
采用高可用系统架构支持重要系统,为关键业务提供7x24的不间断服务,已经成为众多企业保障业务稳定、持续运转的主要选择。服务多活是高可用架构重要实施手段,本文介绍了一些业界常用的多活手段例如同城双活、两地三中心、异地多活架构设计方案并详述了各种方案的优缺点。
2020labs小助手
2020/09/14
12.8K0
容灾系列(十)——数据热备容灾能力建设【基础篇】
企业业务敏感程度差异,对容灾指标RPO&RTO要求也不同。之前两篇文章主要介绍数据冷备,主要特点是数据备份存储非实时,备份系统存储数据通常昨天的数据,当灾难真正来临的时候,今天新产生的数据会丢失情况。对于企业核心业务来讲,业务恢复(RTO)可以接受小时级别,但是对于数据无法接受丢失,即RPO接近为“零”。结合腾讯云数据备份能力,本文重点介绍数据热备解决方案,旨在让客户上好云,用好云,管好云。
开元
2022/09/26
5.3K0
容灾系列(十)——数据热备容灾能力建设【基础篇】
同城容灾+异地多活是全球化容灾处理的最好模式吗?
“容灾建设中,关注三个关键词:资源、流量和数据。容灾建设强依赖于资源评估。无论是专线中断还是 AZ 不可用的情况下,我们的首要任务是评估资源容量是否充足。容灾实施方面,关注做好容灾架构设计,并结合常态化建设,逐步完善容灾能力。此外,周期性的常态化演练是确保容灾预案持续可用的关键。” 稳定性问题不仅给用户带来不便,还可能导致企业声誉和经济损失。如果线上可靠性工程出现问题,那么前期在应用产品设计、研发测试、发布变更等环节的所有投入都可能变得毫无意义。我们在即将于 10 月 18 -19 日召开的 QCon 上海站策划了【线上可靠性工程】专场,将邀请不同公司的稳定性技术专家,分享他们在各自的业务场景中的可靠性 / 稳定性保障的实践经验,共同探讨线上可靠性工程的问题的解决思路。目前是 8 折购票最后优惠期,感兴趣的同学请点击文末【阅读原文】链接了解详情。
深度学习与Python
2024/07/26
2880
同城容灾+异地多活是全球化容灾处理的最好模式吗?
浅谈业务级灾备的架构模式
互联网常见的高可用手段。比如服务冗余部署、异步化设计、负载均衡、服务限流降级熔断、架构拆分、服务治理、分布式存储等等,今天主要是一起聊下,多机房部署的灾备架构模式,来确保服务的高可用。
得物技术
2023/07/06
1.3K0
浅谈业务级灾备的架构模式
做容灾,双活、多活、同城、异地、多云,到底应该怎么选?
去年写过一篇《做容灾,冷备是不是个好方案?》,当时提出来,冷备或者主备,其实并不是一个理想的方案,而且绝大多数情况下,只能是一个心理安慰,真正发生故障的情况下,这样的容灾模式根本起不到作用。
赵成
2019/03/18
3.1K0
微服务高可用容灾架构设计
相对于过去单体或 SOA 架构,建设微服务架构所依赖的组件发生了改变,因此分析与设计高可用容灾架构方案的思路也随之改变,本文对微服务架构落地过程中的几种常见容灾高可用方案展开分析。
腾讯云中间件团队
2023/09/09
1.3K0
微服务高可用容灾架构设计
容灾系列(九)——异地数据冷备容灾建设
企业业务部署在云上,借助云平台的能力,企业几乎“零”成本拥有同地域数据备份的能力。即使云平台在建设数据中心之前,会遵循机房建设标准来选址,但是对于极端情况自然灾害,例如地震,台风等等,对同地域备份安全能力有非常大的风险,因此本文重点阐述腾讯云对异地数据冷备解决方案。
开元
2022/09/19
9.3K1
容灾系列(九)——异地数据冷备容灾建设
容灾系列(一)—— 云上业务容灾方案要如何选?
说起容灾,很多同学脑子冒出来熟悉字眼,”同城双活”,“两地三中心”,“单元化”,“set化”等等。其实这些名词背后均隐射一层含义,面对一些灾难时候,业务如何做冗余来快速恢复业务。
开元
2021/05/18
9.2K1
容灾系列(一)—— 云上业务容灾方案要如何选?
容灾系列(十一)——数据热备容灾能力建设【进阶篇】
业务数据备份采用热备方式,容灾指标RPO接近“零”;但是RTO指标还是依赖于业务部署测试自动化能力。业务会进一步需要,在数据热备技术架构下,在成本可控的情况下,是否能进一步提升RTO指标呢? 本文结合云平台的能力,来进一步讨论这个话题。
开元
2022/10/09
5.3K2
容灾系列(十一)——数据热备容灾能力建设【进阶篇】
容灾系列(五)——数据库容灾建设
在一个数据为王时代,数据安全视为一家企业命根子,因此如何保障企业数据安全尤为重要。本文主要从数据库容灾方案视角,基于当前客户业务并结合技术&产品,制定最佳容灾方案。主要从以下三个方面来介绍:
开元
2021/10/21
8.5K2
容灾系列(五)——数据库容灾建设
容灾系列(八)——同城数据冷备容灾建设
在数字化转型的热潮中,业务数据无疑是企业的生命线。无论业务部署在IDC还是云平台,对数据备份都是有强烈诉求。随着共享经济的不断深化,越来越多企业将自身业务逐渐的搬迁到了云上。为了让企业能更好用好云平台的数据安全能力,本文重点云平台数据备份冷备能力,以腾讯云为例,主要从以下两个维度介绍:
开元
2022/09/15
7K1
容灾系列(八)——同城数据冷备容灾建设
“两地三中心”和“双活”简介--容灾技术方案
当前市场上常见的容灾模式可分为同城容灾、异地容灾、双活 数据中心、两地 三中心几种。
kubernetes中文社区
2020/06/16
15.5K0
什么是异地双活及应用场景
依托于阿里云高速通道专线、事件总线EventBridge和MSHA(Multi-Site High Availability)多活容灾平台,消息队列RocketMQ版提供异地双活功能,通过跨实例间数据的双向同步和业务切流能力,实现业务恢复和故障恢复解耦,保障故障场景下的业务连续性。本文介绍异地双活的概念、应用场景、功能优势、使用限制和计费说明。
码农编程进阶笔记
2022/12/21
1.8K0
什么是异地双活及应用场景
如何设计高可用的云业务架构?
容错(fault tolerance)指的是, 单个组件发生故障时,业务还能继续运行。
binwenli
2019/12/13
2.5K1
如何设计高可用的云业务架构?
容灾系列(三)——云网络容灾建设
网络属于基础设施部分,网络容灾建设作为一个数据中心验收重要指标。试想一个数据中心的网络链路存在单点,就如一个城市道路都是单行道,一旦出现交通事故,小则导致道路拥堵,大则导致整个城市交通瘫痪。IDC时代,业务对网络容灾参与较少,主要依赖数据中心网络容灾建设程度;当到了云的时代,云服务商将底层网络能力产品化后,云上客户更多参与网络容灾建设,提升业务稳定性。本文从云网络概述,云网络容灾复杂度以及典型案例来介绍云网络容灾建设。
开元
2021/08/09
5K0
容灾系列(三)——云网络容灾建设
容灾系列(四)——业务应用层容灾建设
业务应用层是整个系统流量枢纽,核心业务存在单点或者自愈能力弱,都会造成严重影响业务稳定性。例如,核心业务模块和非核心业务模块高度耦合,从资源成本上来考虑,实际上并不是所有业务均需要做容灾建设,需要加入人力成本对业务进行改造;如果对于延时敏感业务,无法接受跨区延时,需要投入更多人力来进行架构和业务上改造。综上所述,本文从云平台视角出发阐述应用层业务容灾建设,主要分为方案设计考虑纬度、复杂度以及云上客户案例三个方面。
开元
2021/09/04
3.7K0
容灾系列(四)——业务应用层容灾建设
简述异地多活方案以及腾讯云实践
为了保障系统可用性, 我们通常会为了应对故障将组件或数据做冗余。常见的类型包括: 变更故障、硬件故障、断电断网、自然灾害, 发生的频率一次降低。
CPT-leobhao
2022/08/29
3.2K0
推荐阅读
相关推荐
高可用解决方案:同城双活?异地双活?异地多活?怎么实现?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档