上周,亚马逊在东海岸的一个数据中心发生了中断,许多企业和一些联邦机构的运行被迫瘫痪。断电的原因是,一个员工在调试一个计费系统时,意外地使比预期更多地服务器进行了脱机。
甚至更多的服务器在连锁反应下被强制脱机,所有这些服务器都必须重新启动。在此期间,S3无法响应客户服务需求。尤其是亚马逊的云存储,也难以访问。以下是我和其他一些行业观察家的意见。
云服务(如亚马逊S3)的客户,可以通过拥有多个实例,将他们的应用程序在其他区域的数据中心,也就是同一个云的其他部分运行,以预防数据中心中断。或者有一个更好的办法,同时选择另外一个完全无关的云。(例如坐落在美国西海岸的谷歌云和位于美国东海岸的亚马逊云。)
Tintri的产品和解决方案营销副总裁Chuck Dubuque说:“在金融市场上,投资者会通过扩大业务经营范围,以保护自己免受波动影响。或许同样适用于公司和组织部署云服务。”
这可以成为一个组织灾备计划的一部分。有更多保存你的数据和服务的选项——包括数据中心的位置和管理,可以使你免受故障的影响,但是这样通常会提高花费在云服务上的成本,根据你所增加的云服务的数量。
Zert的董事长,Paul Zeiter说:“企业和IT行业的领导者们正通过精心制定他们的混合云战略——可以给他们提供多层次的基础设施冗余保护——使自己能够走在前列,保持关键业务无缝地前进。可能是通过将多种类型的云,包括公有云和私有云结合使用,并确保任何干扰在用户察觉不到的情况下完成修复。”
使用具备存储能力的内部硬件是另外一种方法,但这又会产生额外的费用。很多小型企业无法承受这样的额外服务或购买硬件而产生的费用。要从故障中恢复,大的问题就是访问存储数据。
Nexsan的COO(首席运营官) Geoff Barrall评论说:“从亚马逊S3中断造成的动荡中我们可以看出,可靠的数据访问是至关重要的。很多企业为了保持运行,运维人员经常性地进行数据访问是非常必要的。如果数据保存在一个组织自己的IT基础设施上,那么任何停机时间花费的企业时间成本和金钱会更容易管理。通过先进的文件同步和共享能力,私有云可以根据运维人员的需求提供与本地存储相差无几的安全性和可控性。”
也许最简单、至少最便宜的提供快速恢复的方式,就是将应用程序的多个实例应用数据存储在多个位置(即使备份位置没有被激活)。
企业依靠存储的数据来运行他们的业务。亚马逊云服务中断和其他类似的故障表明,这些服务并不完美,不过没有什么是完美的。公司必须在基于公有云或私有云的冗余花费和主要存储产生故障时所丢失的业务之间互相权衡。