所有云都停机了。但是当你主导市场的时候,你会受到更多的关注。
上周二,美国弗吉尼亚州AWS数据中心的一个认为错误导致了大规模的服务中断,这是4年以来遭遇的大一次公有云中断。不断是否是AWS的问题,考虑到AWS有庞大的客户群,以及使用AWS作为平台的服务提供商为数众多,所以更加放大了这次服务中断的影响。
这样的情况在AWS早期开拓市场的时候并不少见。每年发生两次或者三次大事件是常态,但是现在情况不一样了。
尽管如此,考虑到最近的故障以及它遭受的审查风暴,我们决定对过去进行一次总结,看看哪些事件是AWS最不堪回首的。
风暴席卷:2016年6月
2016年6月悉尼遭遇风暴,AWS在该地区的设施停电,很多EC2实例以及为一些知名公司托管关键负载的EBS卷接连出现故障。在那个周末,澳大利亚AWS可用区域的网站和在线服务中断了近10个小时,使得从银行服务到披萨送货都出现了问题。
DNS拒绝:2014年11月
2014年11月AWS的CloudFront DNS服务出现近2个小时的中断。一些网站和云服务出现脱机,因为在故障期间内容交付网络无法满足DNS请求。
黑色星期五:2013年9月
2013年9月13日黑色星期五发生的这次故障是由负载均衡问题所导致的,部分地区客户受到影响。Amaozn解决了复杂均衡的接入问题,并增加了配置时间以防止后续这种问题的出现。虽然这次中断只持续了大约2个小时且只影响到弗吉尼亚州的一个可用区域,但对Amazon来说,却是一个要制定备份计划的重要提醒。
圣诞节:2012年12月
AWS在2012年的圣诞前夜遭遇服务中断,这使得Netflix无法在这个在线电影交付最繁忙的时候正常运转。这家知名客户因为这次不幸指责Amazon,成为这次事件的一个持久回忆。
背靠背:2012年6月
2012年6月,Amazon位于弗吉尼亚的数据中心出现服务中断,导致运营停止约6个小时,影响到几十家客户。10月22日,弗吉尼亚数据中心的另一个问题导致很多客户的网站无法正常运行。两次相继发生的中断事件使得很多企业领导者对采用云感到不安,当时云这个理念刚刚在企业中开始被接受。
黑暗后的沉默:2011年4月
这是2011年的首次中断事件,引起了人们对云有时候很脆弱的关注,并且说明,随着事情的进展沟通是最关键的。Amazon大的一些客户甚至离线数天时间。
当客户正在努力恢复运行的时候,云计算巨头Amazon却一直沉默。一个星期过去了,Amazon才发布了关于这次事故一个非常技术的、冗长的文章。Amazon归咎于“重新镜像风暴”,并向客户道歉。这次事件被很多人看作是如果不处理服务中断事故会受到怎样的教训。