亚马逊S3存储服务最近在美国东海岸的可用区域经历了五个小时的中断。而许多消费者和商业应用程序都依赖云存储服务,因此S3存储服务的中断迅速级联,并且Netflix,Slack等组织的服务出现暂时瘫痪。
发生这样的云中断是正常的,令人关注的是会影响到这么多的企业。最近一次重大的中断是2016年8月AWS服务中断。虽然Amazon S3是为数据持久性而设计的,但并不等于中断之后具有快速可恢复性。与其他优异的云平台一样,他们仍留有一些空白:
•可用区域不等于可恢复性。 S3存储服务的设计可以抵御一个可用区域的网站中断,但是最近的中断事件显示,网络问题可能导致整个地区的广泛中断。
•数据仍然需要备份。行业专家对此进行了呼吁,甚至亚马逊公司也建议备份数据。
•恢复可能是缓慢和乏味的。备份数据是一回事,完全恢复数据是另一回事。故障后恢复数据可能需要几个小时或几天的时间,尤其是超大规模应用程序和数据库。
•数据通常放在一个“篮子”中。如果备份数据与主数据存储在相同的云服务中,则在相同的可用区域中,无法在中断期间恢复数据。
•数据可能会被泄露或进入不一致的状态。云计算本身不会保护数据免受应用程序或数据库级别的损坏或人为错误。
企业需要设计一个数据备份,恢复和连续性策略来考虑云计算。为了确保数据中心可以快速恢复,需要注意以下事项:
•将备份数据保存在另一个服务或区域中。像这样的中断通常会影响整个地区。备份和恢复策略需要包括在其他区域,云服务,甚至私有云中恢复的能力。
•快速恢复过程。传统的备份解决方案和基于脚本的方法无法快速恢复数据,特别是应用程序需要恢复到不同的拓扑的时候。
•具有时间点恢复的功能。由于数据可能会在中断的早期阶段受到损害,所以能够快速将应用恢复到一个时间点也很重要。
云计算服务架构比传统的基础设施更具弹性,并提供更大的灵活性。但是当中断确实发生时,它们也完全不受控制。不要忽略数据的可恢复性和弹性,因为它在云中,并且不要期望相同的恢复过程和工具可用于下一代超大规模应用程序中。