当前市场上常见的容灾模式可分为同城容灾、异地容灾、双活 数据中心、两地 三中心几种。
当前,市场上常见的容灾模式可分为本地容灾、同城容灾、异地容灾、双活数据中心、两地三中心几种。
2022年8月25日,杭州市数据资源管理局发布《2022年8月政府采购意向》公告。 项目名称:杭州市政务云容灾备份项目 采购需求: 1、同城应用级容灾备份 在杭州市已有云资源生产中心基础上,新购买1个可独立承担关键系统运行的云资源容灾中心服务,双中心具备基本同等业务处理能力,并通过高速链路实现数据实时同步和业务流量分担,生产中心灾难发生时可进行应急切换容灾中心,保障业务连续运行和数据不丢失。目标将29个重要应用系统分别部署到两中心,在不改变现有业务架构的情况下,充分利用现有政务云能力实现同城应用级容灾备
当前,市场上常见的容灾模式可分为同城容灾、异地容灾、双活数据中心、两地三中心几种。
同城双中心+异地灾备中心, “两地三中心”的灾备模式,方案兼具高可用性和灾难备份的能力。
在互联网大厂,有个普遍的现象:某种程度上,只要是比较重要的系统,都需要考虑系统的容灾问题。
本文整理自美团技术沙龙第75期的主题分享《美团数据库攻防演练建设实践》,系超大规模数据库集群保稳系列(内含4个议题的PPT及视频)的第3篇文章。
为了保障系统可用性, 我们通常会为了应对故障将组件或数据做冗余。常见的类型包括: 变更故障、硬件故障、断电断网、自然灾害, 发生的频率一次降低。
很多产品发展到一定规模之后,可能会走出国门,技术架构要做到国际化。或者基于高可用 / 高性能的需求,需要做异地多活。
采用高可用系统架构支持重要系统,为关键业务提供7x24的不间断服务,已经成为众多企业保障业务稳定、持续运转的主要选择。服务多活是高可用架构重要实施手段,本文介绍了一些业界常用的多活手段例如同城双活、两地三中心、异地多活架构设计方案并详述了各种方案的优缺点。
导语 | 故障是开发者高频关注的问题。在分布式系统建设的过程中,我们思考的重点不是避免故障,而是拥抱故障,通过构建高可用架构体系来获得优雅应对故障的能力。本文作者冯煦亮从架构、工具链、可观测三个维度,介绍了QQ音乐多年来积累的高可用架构实践。期望对你有帮助。 QQ音乐高可用架构体系全景 故障无处不在,而且无法避免。在分布式系统建设的过程中,我们思考的重点不是避免故障,而是拥抱故障,通过构建高可用架构体系来获得优雅应对故障的能力。QQ音乐高可用架构体系包含三个子系统:架构、工具链和可观测性。 架构:架构包
在分布式系统建设的过程中,我们思考的重点不是避免故障,而是拥抱故障,通过构建高可用架构体系来获得优雅应对故障的能力。QQ音乐高可用架构体系包含三个子系统:架构、工具链和可观测性。
网络属于基础设施部分,网络容灾建设作为一个数据中心验收重要指标。试想一个数据中心的网络链路存在单点,就如一个城市道路都是单行道,一旦出现交通事故,小则导致道路拥堵,大则导致整个城市交通瘫痪。IDC时代,业务对网络容灾参与较少,主要依赖数据中心网络容灾建设程度;当到了云的时代,云服务商将底层网络能力产品化后,云上客户更多参与网络容灾建设,提升业务稳定性。本文从云网络概述,云网络容灾复杂度以及典型案例来介绍云网络容灾建设。
腾讯云上部分客户,基于腾讯云云产品能力,在同地域不同可用区,快速构建了业务级别的同城双活架构(如下图)。具备了单产品/单链路的高可用能力,同时也具备同城单可用区异常时的容灾的能力。
实现业务连续性的技术手段通常包括高可用性和灾备恢复两种,所以本文讲述的是在腾讯云上实现业务连续性的解决方案。
“产品使用攻略”、“上云技术实践” 有奖征集啦~ 图片案例名称案例简介腾讯云大数据 ES 一站式全托管自治索引简介介绍由腾讯云大数据 ES 自研的一站式全托管自治索引,自治索引适用于时序数据(如日志分析、运维监控等)场景,能够实现索引生命周期管理、分片自动调优、故障自动修复以及查询裁剪等,有效提高易用性,降低运维成本。腾讯云大数据 ES 数据链路可视化介绍介绍基于腾讯云大数据 ES 中一站式数据接入服务,便捷地在 ES 内一站式即可完成数据源选择>数据采集>数据缓存>数据加工>数据目的源(ES)的数据全链路
本文介绍了蚂蚁金服异地多活单元化架构的原理,以及微服务体系在此架构下的关键技术实现。
在云网融合大数据时代,数据已经成为重要的生产要素。特别是棱镜门、永恒之蓝、汶川大地震这类造成大规模数据丢失和泄漏的人为或自然灾害事件发生后,中国相继出台了一系列的法律法规,对各组织机构的数据安全保护条件进行限定,如 2016 年颁布的《中华人民共和国网络安全法》、 2021 年全国人民代表大会通过的《数据安全法》等。
相对于过去单体或 SOA 架构,建设微服务架构所依赖的组件发生了改变,因此分析与设计高可用容灾架构方案的思路也随之改变,本文对微服务架构落地过程中的几种常见容灾高可用方案展开分析。
备注:当你再一个cluster钟使用了federation插件,所有在集群中的 nodes都需要安装federation插件
某保险公司成立于2018年,以服务新型城镇化的社会保障体系建设为基础,坚持科技领先、专业支撑、资源整合、品牌服务,实现商业性业务与政策性业务均衡发展,企业价值与社会价值持续提升。
从1999年,公认的云计算先驱-Saleforce.com公司成立,到2006年,Amazon发布了名声大噪的EC2(Elastic Compute Cloud),首次面向公众提供基础架构的云服务产品-IaaS,中间经历了七年的时间。
数据库部署架构是从容量、可用性、性能、成本等多方面权衡的结果,网商银行基础架构从建行之初满足快速业务响应的分布式架构,到单元化架构的落地,再到云原生时代,其中伴随着业务的快速发展,数据库的部署架构也经过多个版本的迭代发展。 容灾方面,从最初的“两地三中心”,具备机房级容灾,不具备全部的城市级容灾,经过扩容建设发展到现在的“三地五中心”。具体部署方式如图3-1-1所示,采用3-2-1的部署方式,任意一个城市的故障,通过选主(选择主库)实现主库的切换完成容灾。 图3-1-1 “三地五中心”架构 分布式业务
数据中心运行突发故障(如:天灾不可避免的灾难)是无法预测的,计算机里的数据就像扫雷游戏一样,十面埋伏充满雷区,随时都有可能Game Over,容灾备份就是数据安全的最后防线,是你可以避免由数据中心发生故障而丢失数据引发的不可挽回的局面。
2001年的“911事件”中,没有远程备份的企业都遭受了巨大损失,甚至部分公司因为核心业务部署在公司大楼而又没有远程备份,导致公司业务无法继续运营而倒闭。美国“911事件”后,全球用户提升了对灾备的重视程度,异地灾备建设一时成为趋势。
国际标准SHARE 78将容灾系统定义成七个层次,这七个层次对应的容灾方案在功能、适用范围等方面都有所不同,所以用户选型应分清层次。
灾备: 是指容灾和备份。容灾是为了在遭遇灾害时能保证信息系统能正常运行,帮助企业实现业务7*24小时连续性的目标,备份是为了应对灾难来临时造成的数据丢失问题。容灾备份产品的最终目标是帮助企业应对人为误操作、软件错误、病毒入侵等“软”性灾害以及硬件故障、自然灾害等“硬”性灾害。
数据中心运行突发故障(如:天灾不可避免的灾难)是无法预测的,计算机里的数据就像扫雷游戏一样,十面埋伏充满雷区,随时都有可能Game Over,容灾备份就是数据安全的最后防线,但是你可以避免由数据中心发生故障而丢失数据引发的数据丢失的局面。
最近一直在忙618大促的全链路压测&稳定性保障相关工作,结果618还未开始,生产环境就出了几次生产故障,且大多都是和系统稳定性、性能相关的bad case。生产全链路压测终于告一段落,抽出时间将个人收集的稳定性相关资料整理review了一遍,顺带从不同的维度,谈谈稳定性相关的“务虚”认知和思考。。。
说起容灾,很多同学脑子冒出来熟悉字眼,”同城双活”,“两地三中心”,“单元化”,“set化”等等。其实这些名词背后均隐射一层含义,面对一些灾难时候,业务如何做冗余来快速恢复业务。
题记:对于企业关键业务而言,信息系统可靠性是关键。各行业关键 IT系统因为系统故障导致服务中断的事件仍然时有发生,近年来有一些银行 IT 系统,虽然建有两地三中心布局,但仍然有业务中断服务的现象。传统的存储复制容灾架构和DG容灾架构理论上是可以避免业务中断的,但很多企业在实际操作过程中,往往灾备切换的过程很漫长。 近年来,互联网企业云计算、大数据风起云涌,传统企业在市场压力下,也面临着利用新技术,更好的服务用户与市场的迫切要求。 Extended RAC方案 Oracle ADG上的列式存储支持 Oracl
对于金融企业来说,尤其是银行、证券、保险这些行业,在一个 IT 系统运行支撑业务的过程当中,考虑到硬件的故障、网络的故障,等一切可能会对业务产生影响的突发故障。那么,在过去漫长的 IT 发展的过程当中,大量的技术被应用在关于如何解决组件级的高可用,整个服务的容灾和灾备,包括如何保证整体业务的连续性。
越来越多的企业在数字化转型和上云进程中选择混合云的形态(云+自建 IDC 或云+其他厂商云)来进行容灾建设,一方面不会过度依赖单一云厂商,另一方面还能充分利用已有的线下 IDC 资源。
时至今日,企业运作和业务运营对于IT系统的依赖性越来越高,对于IT系统的稳定性和可靠性的要求也越来越高。然而,"天有不测风云,人有旦夕祸福",一旦IT系统因为天灾或人为因素等等意外事故导致系统毁坏而长期无法运行,将造成整个企业在营运上的重大损失。曾几何时支付宝、携程等互联网企业由于IT系统技术故障而相继“瘫痪”,更是从反面说明了容灾系统建设的重要性。
日前,《中国金融科技发展报告(2023)》由社会科学文献出版社正式出版发行,在《报告》的“数据库在金融领域的发展与应用”章节中,整体介绍了中国农业银行基于TDSQL数据库构建新一代分布式信用卡核心系统的实践案例,为金融核心系统应用国产分布式数据库提供参考借鉴。
异地多活是近几年比较热门的一种系统架构。一般来讲,要做到异地多活,是一个系统性的事情,需要接入层、应用层、数据层都做一些事情。
依托于阿里云高速通道专线、事件总线EventBridge和MSHA(Multi-Site High Availability)多活容灾平台,消息队列RocketMQ版提供异地双活功能,通过跨实例间数据的双向同步和业务切流能力,实现业务恢复和故障恢复解耦,保障故障场景下的业务连续性。本文介绍异地双活的概念、应用场景、功能优势、使用限制和计费说明。
互联网科技不断发展的同时,云端服务也变得越来越重要,云服务可以将企业所需的数据和软硬件都存放在网络上,在任何时间和地点使用不同的设备互连,就能实现数据的存取和运算,而我们的生活方方面面都在不断产生着数据,无论是出行记录、消费记录、浏览记录还是发送的消息。
在2021年2月7日,中国人民银行发布了《金融信息系统多活技术规范》,将其作为指导金融行业标准。可以说金融业关系国计民生,维护金融信息系统安全是国家信息安全的重点,因发生灾难导致金融服务中断,可能对企业内部管理、公民、法人和其他组织的金融权益甚至国家金融稳定和秩序产生影响。为规范和引导在金融信息系统合理运用多活技术实现业务承载和灾难恢复,有效防范金融信息系统风险,保护金融机构客户的合法权益,特编制这一标准。本文针对这一标准并结合外部实践经验进行探讨。
热备的情况下,只有主数据中心承担用户的业务,此时备数据中心对主数据中心进行实时的备份,当主数据中心挂掉以后,备数据中心可以自动接管主数据中心的业务,用户的业务不会中断,所以也感觉不到数据中心的切换。
2007 年毕业后一直从事服务化相关的工作,最早在国家电网做电子商务平台 SOA 化的工作,之后在京东负责京东的服务化框架 JSF,目前在蚂蚁金服中间件服务与框架组负责应用框架及 SOFAStack 相关的工作。
随着业务对持续性要求越来越高,云上不少企业对跨AZ或多地域的容灾建设有强烈的诉求。当企业内部经过评估选定容灾建设整体方向,即同城双活;需要对方案进行验证,包括组件容灾能力建设,数据同步以及切换验证等。通常对组件容灾能力建设和验证会花费大量时间,如果测试不符合预期,对之前调研、部署以及测试人力和时间成本带来较大耗费。因此借助云平台能力“一站式”提升系统容灾能力,助力企业降本增效。
2021年7月13日,bilibili 出现了一次服务不可用的宕机事故。一年以后,bilibili 技术团队以一篇事故复盘的文章刷爆了技术人的朋友圈,这一次典型的技术事故,却成了一个非典型的技术故事。
会控为整个会议最为核心的业务,由于海量请求的高性能要求,后台存储全部为 Redis。在业务飞速发展期,各模块边界不够清晰,大家对存储的使用处于失控状态,随着 PCU 的不断上涨,逐步暴露出存储和架构的诸多问题,同时也对系统容灾能力有了更高的要求。会控业务历史包袱重,存储改造伤筋动骨,要做到平滑迁移需要考虑的细节较多。有幸作为 owner 负责(2022.12-2023.08)了会控存储的优化改造,本文主要从业务、个人和企业数据分库、异地容灾和多活(下一步目标)层面总结了会控存储治理的成功实践,目的是形成一套方法论,沉淀下来一套可以复用的工具,以供大家后续工作中参考。
为帮助开发者更好地了解和学习分布式数据库技术,2020年3月,腾讯云数据库、云加社区联合腾讯TEG数据库工作组特推出为期3个月的国产数据库专题线上技术沙龙《你想了解的国产数据库秘密,都在这!》,邀请数十位鹅厂资深数据库专家每周二和周四晚上在线深入解读TDSQL、CynosDB/CDB、TBase三款鹅厂自研数据库的核心架构、技术实现原理和最佳实践等。三月为TDSQL专题月,本文将带来直播回顾第二篇《破解分布式数据库的高可用难题:TDSQL高可用方案实现》。
领取专属 10元无门槛券
手把手带您无忧上云