时至今日,企业运作和业务运营对于IT系统的依赖性越来越高,对于IT系统的稳定性和可靠性的要求也越来越高。然而,"天有不测风云,人有旦夕祸福",一旦IT系统因为天灾或人为因素等等意外事故导致系统毁坏而长期无法运行,将造成整个企业在营运上的重大损失。曾几何时支付宝、携程等互联网企业由于IT系统技术故障而相继“瘫痪”,更是从反面说明了容灾系统建设的重要性。
在灾难出现时,容灾系统可以保证用户数据的安全性(数据容灾),或者应用服务不间断(应用容灾),甚至可以提供一个备份的工作场所能够正常的开展业务(业务容灾)。其中,RPO和RTO是容灾系统建设的关键衡量指标:
RPO:(Recovery Point Objective,恢复点目标)是指业务系统所允许的在灾难过程中的最大数据丢失量,用来衡量容灾系统的数据冗余备份能力。
图 1 容灾的RTO恢复点目标
RTO:(Recovery Time Objective,恢复时间目标)是指信息系统从灾难状态恢复到可运行状态所需的时间,用来衡量容灾系统的业务恢复能力。
图 2 容灾的RPO恢复时间目标
国务院信息化办公室印发的《信息安全技术信息系统灾难恢复规范》将信息恢复能力等级划分为6级,分别对应于不同的RTO/RPO范围。其中,1级能力要求最高,对应的RPO为0,RTO时间为数分钟;而6级能力对应的RPO为1-7天,RTO时间为2天以上。
由此可见,容灾系统的建设从来都非易事。不同于简单的数据备份或系统容错,建设容灾系统的目的是为了防止由于自然灾害等导致的整个系统全部或大部分发生问题,并且能够在灾难发生时,全面、及时地恢复整个系统。容灾系统的构建通常采用多数据中心的模式,包括主备双中心、两地三中心、分布式多中心以及对等式多中心等。灾备数据中心的建设不仅需要基础设施、数据链路等初期成本投入,还需要持续的能源、运维等后期成本投入。容灾系统的恢复目标要求越高、涵盖的应用范围越广,相应的建设成本投入也就越大。因此,需要综合评估灾难风险、业务中断造成的影响、建设成本等因素,进而确定灾难的恢复目标和恢复时间范围,包括业务范围(全业务或关键业务)、容灾级别(应用级、数据级、业务级)和恢复能力级别(1-6级)。
图 3 容灾建设的重要原则
作为一种新型的资源使用和交付模式,云计算在数据中心建设中得到了广泛的应用和实践。构建云化数据中心不仅可以帮助实现IT信息系统的整合优化、提高数据中心运营管理效率,而且可以大大节省数据中心的基础建设、运维管理以及能源消耗成本。
云化数据中心是一系列新技术集中应用和面向业务服务运营管理的集中体现,通常采用虚拟化、自动化、并行计算、安全策略以及能源管理等新技术,解决传统数据中心中普遍存在的管理日趋复杂、成本增加过快等问题,并通过标准化、规范化的动态基础架构、自动化的弹性部署以及自助服务的架构方式实现对业务服务的敏捷响应和服务的按需获取。
图 4 传统数据中心与云化数据中心的比较
面向服务是构建云化数据中心的核心理念,即由业务服务需求决定底层的IT资源组织和供给方式。从整体架构上,云化数据中心可以分为服务和管理两大部分。在服务方面,通常包括基础设施即服务IaaS、平台即服务PaaS以及软件即服务SaaS等面向用户的标准化服务;在管理方面,利用云管理平台实现整个数据中心的集中管控,确保数据中心安全、稳定地运行,并且能够被有效管理。因此,管控简化,能力优化,技术标准化和服务自动化是云化数据中心的关键特性。
云化数据中心以服务为核心进行资源的整合和管理,打破了传统数据中心由业务条线或应用构成的资源竖井。因此,云化数据中心的容灾建设也相应地从面向项目的传统容灾建设方式转变为面向平台的容灾建设方式。
与传统数据中心相比,云化数据中心的标准化、规范化整合基础架构可以大大提高资源利用率,减少基础设施的建设成本;同时,结合自动化资源调度管理体系,可以方便的进行周期性的数据同步和备份,并在灾难状态下自动进行评估的应用迁移及数据迁移,在满足业务连续性指标的前提下完成应用系统接管。
在具体建设上,云化数据中心的容灾解决方案需要从如下方面进行考虑:
常用的灾备数据中心模式包括:
模式 | 主备双中心 | 两地三中心 | 分布式多中心 | 对等式多中心 |
---|---|---|---|---|
灾备模式 | 所有业务系统的生产资源放在生产中心,同城灾备中心实现全业务系统或部分关键业务系统的灾备 | 同城的两个中心共同承担所有业务系统的运行,并互为灾备,异地实现关键系统的灾备。 | 三个生产中心承担所有业务系统的运行,且通过一定策略互为灾备。 | 数据一致性通过应用层面实现;应用一致性通过流程管理实现;此时已不再有灾备中心的概念。 |
灾备 建设成本 | 基准值 | 高 | 更高 | 最高 |
灾难 影响程度 | 基准值 | 低 | 更低 | 最低 |
其中,分布式多中心和对等式多中心是灾备建设的未来发展趋势,在建设成本和实现难度上均较高。现阶段的云化数据中心的灾备建设都是以主备双中心和两地三中心的模式为主。通常可以以主备双中心的模式作为基准,通过详细规划和逐步建设,向两地三中心的模式演进。
灾备数据中心的拓扑架构可以采用对称式和非对称式。其中,对称式拓扑中的主备数据中心采用各个层面上采用完全一致的技术和配置(例如,主备中心均采用相同的硬件);而非对称拓扑中的主备数据中心则具有不同的基础设施和软硬件配置(例如,主生产中心采用物理部署,而备份中心采用虚拟化部署)。
事实上,与对称式数据中心相比,非对称式更加难以实施和管理。而云化数据中心采用标准化的技术规范体系,因此,从降低灾备实施和管理的复杂度的角度考虑,对称式架构是云化数据中心容灾建设的最佳选择。
灾备级别主要考虑应用级容灾和数据级容灾(业务级容灾主要是面向非IT系统的范畴),在具体执行上,又可以分别采用双活和主备两种工作模式,因此,灾备系统的灾备级别包括:
应用主备 数据主备 | 应用双活 数据主备 | 应用双活 数据双活 | |
---|---|---|---|
工作模式 | 应用和数据仅在生产中心运行,并通过异步方式备份到灾备中心。 | 应用在两个中心同步运行,各自承担一部分工作负载;数据仅在主生产中心运行,并通过异步方式备份到灾备中心。 | 应用及数据在两个中心同步运行,互为备份。 |
建设难度 | 容易 | 一般 | 复杂 |
建设成本 | 低 | 中 | 高 |
恢复点(RPO) | 恢复点较远 数据丢失多 | 一般 | 实时数据同步备份 几乎没有数据丢失 |
灾备级别的选择通常取决于业务应用的重要性,对于重要性最高的关键业务应用,可以采用应用和数据均为双活的模式,以减少灾难造成的影响;而对于一般的辅助性应用的灾备则可以采用主备模式。
图 5 数据一致性的挑战
数据库是容灾建设的关键,数据的一致性是实现同步双活灾备需要首先考虑的问题,这需要通过在主备数据中心之间建立数据的同步机制来保障。维护数据一致性通常采用同步数据复制和异步数据复制相结合的方式。其中,同步数据复制需要对应用进行改造,使其支持主备数据中心的数据库进行同步读写,每一本地的I/O事务均需等待远程复制的完成确认信息才予以释放,从而在灾难发生时实现零数据丢失的数据恢复,因此,同步数据复制一般应用在距离相隔较近的数据中心之间,对于通信数据链路带宽要求也较高;异步数据复制不需要对应用进行改造,对于通信链路带宽要求较低,通信距离也较远,可以在灾难发生时实现分钟级别的数据丢失,一般应用于异地的数据中心灾备。
在传统数据中心中,建设同步双活级别的灾备系统需要在生产中心和灾备中心中配置对等的基础资源,而云化数据中心的建设则可以大大降低灾备建设成本。在日常使用状况下,可以在灾备中心采用减配资源配置,仅承担少量负载;而在灾备恢复时,则可以利用云化数据中心的自动化资源调度能力快速进行资源扩展,实现全部的业务接管。
数据备份是进行灾备恢复的前提。根据设定的灾备中心工作模式和灾备级别,需要在主备中心之间进行同步和异步的数据备份。其中,应用和数据库之间的数据备份基于其不同软件内在的同步机制,通过主机的数据网络进行复制,而存储卷之间的数据备份则可以基于存储网络实现同步或异步的数据镜像复制。
图 6 数据备份路径
与传统数据中心不同,云化数据中心的备份执行不需要人工干预,通过在云管理平台中定义周期性的备份任务,即可按照预定机制自动进行。
建设容灾系统的目的是有备无患,但这并不意味着容灾计划在平时可以束之高阁。在容灾系统建立之后,必须通过日常的模拟演练验证容灾计划的可行性,以免在灾难发生时出现异常情况而无法按计划进行数据恢复。
容灾的执行过程包括数据网络、应用及数据库的切换。云化数据中心
(1)在存储虚拟化设备上激活所有同步镜像的虚拟卷;
(2)在灾备中心的云平台中进行服务启动和资源扩容,并按照生产环境进行匹配;
(3)网络切换,更新DNS服务器,将应用外网地址变更为灾备中心地址。
待生产中心恢复后,系统回切流程为:
(1)启动从灾备中心向生产中心的存储镜像同步;
(2)在维护窗口,停止灾备站点的应用,启动生产中心的应用系统及数据库;
(3)网络切换,更新DNS服务器,将应用外网地址变更为生产中心地址。
云化数据中心的灾备执行还可以借助自动化工具实现灾难恢复的自动化,在主备数据中心之间进行灵活和无缝切换。云化数据中心的自动化灾备工具通过客户化配置和脚本将灾难恢复流程集成到工具中,当进行灾备演练或灾难发生时,自动执行恢复流程。利用云化数据中心的自动化灾备工具,可以实现:
•减少灾备服务中断时间;
•在灾备演练和实际发生时,无需人工进行干预,防止人为错误;
•便于灾备系统的日常演练和验证。
传统的容灾架构中,灾备中心往往被定义成成本中心,因为业务连续性定义灾难时关键业务需要快速恢复而灾备中心大部分时间处于闲置状态。云化数据中心的建设则可以改善容灾的投资回报,实现灾备中心更多价值。例如,在保证数据同步备份的前提下,灾备中心的服务器资源在平时可用于开发测试、质量保证、甚至一部分非关键业务;在灾难发生时,则可由云管理平台快速进行灾备环境的快速扩容和软件自动部署以匹配生产环境。同时,与传统数据中心相比,云化数据中心在运维、能源成本也具有明确优势。
在容灾执行过程中,云化数据中心采用的规范化IT资源和自动化资源管理体系也可以使得容灾的执行更加简单和高效。综上所述,云化数据中心的容灾方案具备以下优势:
•一体化的灾备管理
•通过云平台进行统一配置和调度;
•支持快速的自动容灾切换流程;
•应用级容灾的快速实现
•自动完成同步和异步的数据备份;
•有效节省容灾投资
•灾备中心可采用减配资源配置,减少基础设施投资;
•优化数据中心管理,降低运维和能耗成本。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。