为什么要做容灾?
你知道吗?自然灾害、设备故障、人为因素等都会造成业务中断。如今数字化时代,IT系统故障更会对公司业务造成难以估量的巨大经济损失。
1
数据统计
“2/5的公司在经历大灾难后再也不能恢复运作,另外1/3在2年内也接着倒闭。”---高德纳咨询公司
“93%的公司在遭受严重的数据丢失后5年内倒闭。”---美国劳工局
“43%的美国公司在灾难后倒闭,另外29%(或更多)的公司在2年内倒闭。”---维斯康星州大学
2
监管要求
2011年,银监会发布《商业银行业务连续性监管指引》
2008年,保监会发布《保险业信息系统灾难恢复管理指引》
2008年,中国人民银行发布《银行业信息系统灾难恢复管理规范》
现在的公司有责任建立完善的容灾管理体系,当发生不可预见的故障或灾害时,通过成熟的灾难恢复预案实现快速恢复,减少系统服务中断和关键数据丢失,降低业务损失。
3
容灾关键词
RPO(Recovery Point Objective)
数据恢复点目标,主要指的是业务系统最大能容忍的数据丢失量。
RTO(Recovery Time Objective)
恢复时间目标,主要指的是最大能容忍的业务停止服务时间。
容灾体系介绍
1
数据中心
集团公司通过两地建立三个数据中心,通过双活、冷备等方式,实现两地三中心容灾架构。
2
体系建设
系统类型 --- 容灾策略
核心业务系统 --- 两地三活
关键平台系统 --- 同城双活
非关键系统 --- 异地冷备
3
技术方案
异地冷备
恢复能力 RTP≤1h RPO≤5min
选取异地数据中心搭建灾备环境,通过公司统一平台工具实现应用配置同步,生产库与同城库可进行实时同步,同城库与异地灾备库可进行异步同步。
端到端双活
恢复能力 RTP≤10min RPO≈0min
系统在两个地理节点部署所有组件并同时承载业务,当其中一个地理节点的系统组件发生故障时,部署于其它地理节点的系统组件可以及时完成业务接管。
容灾演习要求
每年进行容灾演练,所有核心业务与平台系统均要参演。
异地灾备恢复、同城双活切换、一键式自动化启停等恢复方式不断创新,要求演习规模逐年扩大和恢复效率逐年提升。
- End -