说起容灾,很多同学脑子冒出来熟悉字眼,”同城双活”,“两地三中心”,“单元化”,“set化”等等。其实这些名词背后均隐射一层含义,面对一些灾难时候,业务如何做冗余来快速恢复业务。
随着业务对持续性要求越来越高,云上不少企业对跨AZ或多地域的容灾建设有强烈的诉求。当企业内部经过评估选定容灾建设整体方向,即同城双活;需要对方案进行验证,包括组件容灾能力建设,数据同步以及切换验证等。通常对组件容灾能力建设和验证会花费大量时间,如果测试不符合预期,对之前调研、部署以及测试人力和时间成本带来较大耗费。因此借助云平台能力“一站式”提升系统容灾能力,助力企业降本增效。
实现业务连续性的技术手段通常包括高可用性和灾备恢复两种,所以本文讲述的是在腾讯云上实现业务连续性的解决方案。
数据中心运行突发故障(如:天灾不可避免的灾难)是无法预测的,计算机里的数据就像扫雷游戏一样,十面埋伏充满雷区,随时都有可能Game Over,容灾备份就是数据安全的最后防线,是你可以避免由数据中心发生故障而丢失数据引发的不可挽回的局面。
云可用区(Availability Zone,AZ)是一个可用区是一个或多个物理数据中心的集合,有独立的风火水电,可用区内逻辑上再将计算、网络、存储等资源划分成多个集群。一个地域中的多个可用区间通过高速光纤相连,以满足用户跨可用区构建高可用性系统的需求。
互联网科技不断发展的同时,云端服务也变得越来越重要,云服务可以将企业所需的数据和软硬件都存放在网络上,在任何时间和地点使用不同的设备互连,就能实现数据的存取和运算,而我们的生活方方面面都在不断产生着数据,无论是出行记录、消费记录、浏览记录还是发送的消息。
网络属于基础设施部分,网络容灾建设作为一个数据中心验收重要指标。试想一个数据中心的网络链路存在单点,就如一个城市道路都是单行道,一旦出现交通事故,小则导致道路拥堵,大则导致整个城市交通瘫痪。IDC时代,业务对网络容灾参与较少,主要依赖数据中心网络容灾建设程度;当到了云的时代,云服务商将底层网络能力产品化后,云上客户更多参与网络容灾建设,提升业务稳定性。本文从云网络概述,云网络容灾复杂度以及典型案例来介绍云网络容灾建设。
赵轩,高级运维工程师, 腾讯云监控业务运维负责人。 腾讯云监控的 Barad 产品,为云产品提供高效、低成本的海量指标监控服务。 Barad 业务经过云原生能力建设以及容灾能力建设,业务已经实现了自研上云全量级容器化部署及多可用区容灾能力。 Barad 业务上云面临的难点和挑战 在降本增效的大背景下,腾讯云 云监控团队继续提升云原生成熟度,提升系统承载能力和降低单位成本,包括对 Barad 业务在容器化占比提升,跨 az 容灾能力建设,资源利用率优化这些方面,因 Barad 业务量级庞大,如何保障大量级数
当下,随着数字化技术不断深入,愈来愈多企业将核心业务搬到线上。业务系统高可用、可扩展、容灾能力决定企业系统的连续性,中间件作为构建企业核心系统的重要组成部分,其高可用容灾能力也将决定应用系统的。本文结合腾讯云中间件各PaaS产品的容灾能力及实践,以一个行业头部客户业务容灾实践举例,来展开说明基于腾讯云中间件PaaS层相关产品的实践。
产品容灾主要就是将云产品做跨可用区或者跨地域部署,实现多地部署,如果某一个地域出现了问题的时候,可以进行自动切换,确保整体可用。
异地多活相对于异地热备,最大不同点在于应用在不同地域都承载流量,从业务流量调度,数据同步以及业务性能等方面技术复杂度会大幅度的提升。同时业务异地多活有一个前提,就是业务支持单元化部署,这里对存量有历史技术债业务也存在非常大的挑战。因此本篇幅讨论异地多活前提是,业务已经具备单元化部署的能力。
依托于阿里云高速通道专线、事件总线EventBridge和MSHA(Multi-Site High Availability)多活容灾平台,消息队列RocketMQ版提供异地双活功能,通过跨实例间数据的双向同步和业务切流能力,实现业务恢复和故障恢复解耦,保障故障场景下的业务连续性。本文介绍异地双活的概念、应用场景、功能优势、使用限制和计费说明。
在云时代,大部分中小型企业都奔跑在云上或是服务器托管公司。任何规模的数据中心服务中断都会让你的企业踩雷。据统计,80%的数据中心服务中断都是由服务器硬件造成的。
随着云计算的普及,越来越来的业务会选择上云,上云的第一步往往就是云资源的选购,选购云资源时(尤其是IaaS),通常都必须先选择地域Region和可用区AZ,那么我们应该如何选择呢?这两个概念与日常所说的数据中心又有什么区别呢?
腾讯云 ES 目前已经提供了多可用区部署,即支持同地域跨机房的高可用容灾方案,满足了绝大多数客户的需求。但是依然会有部分客户希望进一步提升容灾级别,能够做到跨地域容灾。随着腾讯云 ES 双网卡功能的发布,使得跨地域容灾成为可能。接下来我将介绍下腾讯云 ES实现跨地域容灾的详细步骤。 一、对等连接 (https://cloud.tencent.com/document/product/553/18836from=10680) 首先将北京和上海的两个 vpc 建立对等连接,如下图所示: 新建对等链接 注
腾讯云ES目前已经提供了多可用区部署,即支持同地域跨机房的高可用容灾方案,满足了绝大多数客户的需求。但是依然会有部分客户希望进一步提升容灾级别,能够做到跨地域容灾。随着腾讯云ES双网卡功能的发布,使得跨地域容灾成为可能。接下来我将介绍下腾讯云ES实现跨地域容灾的详细步骤。
作者:吴容,腾讯云大数据Elasticsearch高级开发工程师 腾讯云大数据ES目前已经提供了多可用区部署,即支持同地域跨机房的高可用容灾方案,满足了绝大多数客户的需求。但是依然会有部分客户希望进一步提升容灾级别,能够做到跨地域容灾。随着腾讯云ES双网卡功能的发布,使得跨地域容灾成为可能。接下来我将介绍下腾讯云ES实现跨地域容灾的详细步骤。 注:由于腾讯云ES集群之间的证书是不一致的,因此在搭建CCR环境之前,请先提工单让后端先将两个集群证书设置为一致。 一、对等连接 首先将北京和上海的两个vpc建立对等
Elasticsearch本身是分布式多副本的,在此基础上腾讯云ES进一步提供高可用数据安全能力,您可以根据自身业务情况来选择相应的安全方案,具体如下:
本文介绍了腾讯云对象存储服务(COS)的高可用架构设计,包括跨地域容灾、机房级别容灾、集群级别容灾、服务器级别容灾和磁盘级别容灾。通过这些容灾机制,腾讯云COS可以为用户提供高可用性和低成本的存储服务。同时,腾讯云还提供了数据备份、容灾演练和自动容灾切换等功能,保障用户数据安全和业务稳定。
公网三网(电信,联通,移动)静态资源强依赖于运营商架构冗余,腾讯云无法支持等同于BGP的跨可用区调度操作,因此三网故障时无法快速通过调度实现业务恢复,需要通过业务层的冗余部署和涉及实现故障期间的跨可用区或同可用区跨运营商的切换,切换期间访问品质会降低,但可以保证业务可用性。
为了满足客户对数据可靠性、服务稳定性及容灾方面越来越严苛的需求,腾讯云Elasticsearch于近期推出了集群跨可用区容灾的功能。目前腾讯云Elasticsearch集群支持跨两个可用区部署集群。使用支持多可用区容灾的集群可以保证,当一个可用区因为机房电力、网络等故障的原因导致不可用时,另外一个可用区的节点仍然能稳定、不间断的提供服务,保障客户业务的可靠性。
在一个数据为王时代,数据安全视为一家企业命根子,因此如何保障企业数据安全尤为重要。本文主要从数据库容灾方案视角,基于当前客户业务并结合技术&产品,制定最佳容灾方案。主要从以下三个方面来介绍:
企业业务敏感程度差异,对容灾指标RPO&RTO要求也不同。之前两篇文章主要介绍数据冷备,主要特点是数据备份存储非实时,备份系统存储数据通常昨天的数据,当灾难真正来临的时候,今天新产生的数据会丢失情况。对于企业核心业务来讲,业务恢复(RTO)可以接受小时级别,但是对于数据无法接受丢失,即RPO接近为“零”。结合腾讯云数据备份能力,本文重点介绍数据热备解决方案,旨在让客户上好云,用好云,管好云。
业务应用层是整个系统流量枢纽,核心业务存在单点或者自愈能力弱,都会造成严重影响业务稳定性。例如,核心业务模块和非核心业务模块高度耦合,从资源成本上来考虑,实际上并不是所有业务均需要做容灾建设,需要加入人力成本对业务进行改造;如果对于延时敏感业务,无法接受跨区延时,需要投入更多人力来进行架构和业务上改造。综上所述,本文从云平台视角出发阐述应用层业务容灾建设,主要分为方案设计考虑纬度、复杂度以及云上客户案例三个方面。
在业务系统上云的过程中,业务部署的高可用和容灾是一个要考虑的关键因素。如今很多系统都采用分布式的架构,从架构层面避免单点故障。分布式系统中,任意一个节点故障,其他节点可以快速接管业务,避免整个业务系统宕机。 这就对IaaS层资源提出了要求,即单节点故障,不影响其他节点。 由于公有云是一个多租户的环境,一台物理机上会运行多个虚拟机,如果分布式系统的多个虚拟机落到了同一台物理机上,当物理机发生故障时,多个分布式节点同时故障,就有可能造成整个系统宕机。 那么在公有云的IaaS层,如何才能保证分布式系统部署的高可用呢? 使用腾讯云的分散置放群组可以解决这个问题。
单点故障是实际生产中无法避免的,单副本的存储方案也早已无法满足业务的可靠性要求。现在,我们通常都会做双机存储架构,会涉及到主备、主从、主主模式。
相信所有企业和个人开发者在选用云存储产品时都把数据安全作为重要考量标准。 本文介绍了用户如何使用腾讯云对象存储COS的事前防护、事中监控、事后追溯三个手段来保证自己的数据安全。
一般意义上,备份指的是数据备份或系统备份,容灾指的是不在同一机房的数据备份或应用系统备份。备份采用备份软件技术实现,而容灾通过复制或镜像软件实现,两者的根本区别在于:
腾讯云Status Page(Tencent Cloud Health Dashborad ),作为腾讯云官方的产品可用信息对外窗口,需要保障在极端的故障情形下,还能及时且正确地对外呈现关键信息,这要求在架构设计和部署上做到多地域级别的容灾效果。为了达到目标,我们除实施针对性的架构设计和部署外,还对各类故障场景做了故障演练验证。
相对于过去单体或 SOA 架构,建设微服务架构所依赖的组件发生了改变,因此分析与设计高可用容灾架构方案的思路也随之改变,本文对微服务架构落地过程中的几种常见容灾高可用方案展开分析。
今天跟大家分享的题目为《CKV+异地容灾探索和实践》。CKV+是一个兼容redis协议的内存数据库,现在大部分用户对内存数据库的要求越来越高,对一致性、异地容灾等方面也提出更高的要求。下面从过往经验教训、可用性&一致性、CKV+架构演进、CKV+单活多可用区和CKV+多活架构探索等方面跟分享一些关于容灾的实践和思考。
腾讯云CVM云服务器地域哪个好?如何选择腾讯云服务器地域节点?哪个快网分享腾讯云服务器地域的选择方法:
导语 Apache Pulsar 是一个多租户、高性能的服务间消息传输解决方案,支持多租户、低延时、读写分离、跨地域复制、快速扩容、灵活容错等特性。其原生支持了跨洲际级别的跨地域复制的解决方案,并结合其自身的 tenant 和 namespace 级别的抽象,可以灵活的支持不多种类,不同场景下的跨地域复制解决方案。 作者简介 范志会 腾讯数平高级运维工程师 目前腾讯公司内部业务在使用 Pulsar 的过程中,基于综合业务是否在线影响用户体检,是否产生营收影响,以及降本增效趋势下的成本考虑,会选择不同级别的
“产品使用攻略”、“上云技术实践” 有奖征集啦~ 图片案例名称案例简介腾讯云大数据 ES 一站式全托管自治索引简介介绍由腾讯云大数据 ES 自研的一站式全托管自治索引,自治索引适用于时序数据(如日志分析、运维监控等)场景,能够实现索引生命周期管理、分片自动调优、故障自动修复以及查询裁剪等,有效提高易用性,降低运维成本。腾讯云大数据 ES 数据链路可视化介绍介绍基于腾讯云大数据 ES 中一站式数据接入服务,便捷地在 ES 内一站式即可完成数据源选择>数据采集>数据缓存>数据加工>数据目的源(ES)的数据全链路
接着上篇《做容灾,双活、多活、同城、异地、多云,到底应该怎么选?》,这篇聊聊公有云上应该如何建容灾,跟我们自建机房有什么区别,没看过的同学,建议先从上篇文章看一下。
当他睡眼惺忪、手拿红牛、嘴刁香烟迈着沉重的步伐从某网络核心机房走出来的时候,除了看门大爷简短问候之外,也只有刚刚过去的这个黑夜才真正懂得刚刚发生了什么,在外人眼里,这个夜晚再正常不过,和往常一样,刷刷微博、看看抖音,逛逛购物网站,即便是前一晚上有某些人觉得打开购物网站的页面有点卡慢,他们也可能不会放在心上,然而正是因为这样一个不一样的网络体验,网络工程师们已经是废寝忘食,鏖战了整整一夜,来修复引发这个网络卡慢的bug,在外人眼里一觉醒来,看似波澜不惊,但有时实则是暗流涌动;
近日,腾讯专有云TCE和TCS 首批通过了中国信息通信研究院(以下简称信通院)《专有云容灾技术能力要求》,从基础设施能力、架构容灾能力、平台容灾能力三大类13子项88细项100%满足监管机构对专有云容灾的技术能力要求。TCE和TCS的容灾能力达到业界领先水平。
导语 微服务产品团队为了广大开发者朋友们可以更好的使用腾讯云微服务产品,将持续为大家提供微服务上云快速入门的指引性文档,内容通俗易懂易上手,本篇为本系列的第一篇,欢迎大家收看。 微服务架构 下图是一个典型的微服务架构。从图中可以看到请求从前端进来之后,通常会有一个网关来承接所有的请求,这个网关通常承载的是负载均衡的作用,以及流量路由相关的一些功能。然后网关会把请求转发到后端的微服务中去,那么服务与服务之间互相调用,就会涉及到服务的注册与发现,需要有一个注册中心来管理所有的注册与发现,而服务所有的配置也需要
2023腾讯全球数字生态大会已于9月7-8日完美落幕,40+专场活动展示了腾讯最新的前沿技术、核心产品、解决方案。
如果是第一种场景,数据迁移过程中可以停止写入,可以采用诸如elasticsearch-dump、logstash、reindex、snapshot等方式进行数据迁移。实际上这几种工具大体上可以分为两类:
然而,随着企业核心业务逐渐从线下迁移到云上,客户提出了更高的要求。如何确保云上业务的高可用、数据的高可靠,这对云厂商提出了新的挑战。
2022年6月,腾讯云Redis全新升级,发布高性能版本,单节点可提供50W+吞吐,性能是原生Redis的4倍。同时,腾讯云Redis推出全球复制功能,解决原生Redis诸多痛点问题,可用性升级高达99.999%,助力企业实现降本增效。 Redis作为全球最受欢迎的NoSQL数据库之一,凭借着极高的吞吐、极低的响应延迟和丰富的功能特性,成为企业在缓存场景中的首选方案。但在突发、热点访问及异地多活场景下,原生Redis方案会出现主从复制延迟、数据同步不连续、多地写入等问题,无法解决海量数据在规模、成本、数据
腾讯游戏服务器引擎(Game Server Engine,缩写GSE),支持有状态的游戏服务部署和扩缩容,实现服务发现、高效灵活的服务器伸缩和就近调度的能力,帮助开发者快速构建稳定、低延时的多人游戏的部署环境,并节约大量的运维成本。
容灾体系能否第一时间恢复数据成为容灾体系是否合格的核心指标,对于业务连续性来说也至关重要。腾讯云数据库灾备解决方案的最佳复原时间目标(RTO)也降低到秒级,彻底解决单机房网络、光缆挖断等不可控故障给业务带来的长时间停服不可用。
为了保障系统可用性, 我们通常会为了应对故障将组件或数据做冗余。常见的类型包括: 变更故障、硬件故障、断电断网、自然灾害, 发生的频率一次降低。
导语 2022腾讯全球数字生态大会已圆满落幕,大会以“数实创新、产业共进”为主题,聚焦数实融合,探索以全真互联的数字技术助力实体经济高质量发展。大会设有29个产品技术主题专场、18个行业主题专场和6个生态主题专场,各业务负责人与客户、合作伙伴共同总结经验、凝结共识,推动数实融合新发展。 今年6月,腾讯宣布内部海量自研业务实现全面上云,成为国内最大规模的云原生实践,累计节省IT成本超过30亿元,充分显示腾讯云的产品、技术和综合服务能力。 云原生技术在云计算 PaaS 的应用已经迈入深水区,腾讯云微服务和中间件
腾讯金融科技(Tencent Financial Technology)是腾讯公司提供移动支付与金融服务的综合业务平台。业务领域包括移动支付、投资理财、民生服务和国际化等,作为支付业务的基石和底座,FiT 致力于建设和发展完善的支付平台能力,在微信支付、QQ 钱包等移动支付产品中持续进行功能和服务创新。
领取专属 10元无门槛券
手把手带您无忧上云