如今,许多企业都在谈论他们的公共云采用计划,而这些讨论经常围绕如何避免受到潜在的云服务中断影响。而其原因是确实发生了公共云服务的中断,尽管这些中断现在比以前发生的要少得多,但企业最关心的是如何减少中断的风险。
好在每个主要的公共云供应商都提供了构建高度可用环境的选项,这些环境可以在某种类型的中断得以恢复和幸免。例如,AWS公司提出了利用多个地理区域的四个选项。这些选项(其他公共云供应商也可以使用)具有不同的价格,并提供不同的恢复点目标(RPO)和不同的恢复时间目标(RTO)。
企业可以选择最符合其恢复点目标(RPO)和不同的恢复时间目标(RTO)的要求和预算的选项。关键是公共云提供商能够帮助客户在其全球基础设施上构建高可用性解决方案。
以下简要介绍一下这些选项,并回顾一些使用公共云构建高可用环境的基本原则。以AWS公共云作为示例,但这些原则适用于所有公共云提供商。
首先,企业需要了解每个应用程序的恢复点目标(RPO)和恢复时间目标(RTO),以便为每个用例提供正确的解决方案。其次,对于利用多个地理区域来说,没有一个万能的解决方案。企业根据恢复点目标(RPO)、恢复时间目标(RTO)、愿意和能够承担的成本数量,以及愿意做出的权衡,可以采取不同的方法。
以AWS为例,其中一些方法包括:
从备份恢复到其他区域,人们将环境备份到S3,包括EBS快照、RDS快照、AMI和常规文件备份。由于S3在默认情况下仅将数据复制到单个区域内的可用区域,因此企业需要启用到灾难恢复区域的跨区域复制。企业将承担在第二个区域传输和存储数据的成本,但不会产生计算、EBS或数据库成本,直到企业需要在其灾难恢复区内生效。而权衡是启动应用程序所需的时间。
在另一个区域进行热备份,将数据复制到第二个区域,这里企业将运行一个缩小版的生产环境。这个环境始终处于活动状态,并且其大小适合恢复业务所需的最小容量。企业根据需要使用Route 53切换到灾难恢复区域。根据需要将环境扩展到全部容量。有了这些选项,企业可以更快恢复数据,但会产生更高的成本。
多区域“Active/Active”解决方案,在这个方案中,数据在两个区域之间同步,并且两个区域都用于为请求提供服务。这是最复杂的设置和最昂贵的方案。然而,即使整个区域出现故障,停机时间也会很少或根本没有。虽然上述方法实际上是灾难恢复解决方案,但这个方案是关于构建真正高度可用的解决方案。
成功的多区域设置和灾难恢复流程的关键之一是尽可能采用自动化工具。这其中包括备份、复制和启动企业的应用程序。利用Ansible和Terraform等自动化工具来捕捉环境状态并自动启动资源。此外,重复测试以确保企业能够成功从可用区域或区域故障中恢复。这不仅要测试工具,还要测试其过程。