周二的AWS S3故障暴露了亚马逊规模级的网络瓶颈,同时也暴露了贝索斯客户准备不充足的业务连续性计划和灾难恢复计划。
对Azure和Google,内部IT,混合云支持者和多云网关来说,亚马逊AWS S3的故障无疑给他们带来了福音,但它也暴露了亚马逊的客户不足的业务连续性和灾难恢复条款。
所有人都指向了Jeff Bezos,并说AWS让他们失望。用户意识到自身业务的重要性,表示不应该全盘托付给AWS。用户应该有一个替代方案或混合云战略。
S3(Simple Storage Service)是亚马逊在其公共云中的对象存储设施。2月28日上午9时44分,在AWS美国东1区(北弗吉尼亚州)的数据中心里,带存储桶接入问题的电压互感器由于高错误率致使S3发生中断,许多用户的数据在五小时的故障期间都不能访问,即使Nest视频和智能手机应用程序也受到影响。
其实,对于许多S3应用程序开发人员来说,有两个地区的数据冗余可以防止此类中断。这是一个昂贵的步骤,他们并没有采取。
除了S3之外,还有一些问题:Amazon Appstream 2.0,Athena, CloudSearch, Cognito, ECR (Docker container registry), EMR), AmazonElastic Transcoder, Elasticsearch Service, Glacier, Inspector, KinesisFirehose, Lightsail, Mobile Analytics, PinPoint, Redshift, Simple EmailService, SWF, WorkDocs, WorkMail, Auto Scaling, and AWS Batch, CloudFormation,CodeBuild, CodeCommit, CodeDeploy, Data Pipeline, Elastic Breanstalk, KeyManagement, Lambda, OpsWork Stacks, and Storage Gateway,北弗吉尼亚州是AWS基础设施的一部分。
这些问题大多数得到了解决,但新问题仍然层出不穷,情况十分复杂。今天查看的EC2(弗吉尼亚北部)- US-East-1的AWS EC2状态历史弹出表示以下情况:
弗吉尼亚州的AWS的EC2状态历史弹出窗口
亚马逊没有解释导致这么多故障发生的原因:
AWS状态更新
科技巨头应该做什么?
对于亚马逊来说,美国东部1区域需要分裂成更小的故障区域,还需要分离其在线公共仪表板基础设施,以便它能够在美国东部其他区域数据库故障中生存。
对于替代供应商,这是一个礼物。Egnyte首席执行官兼联合创始人Vineet Jain在评论中表示:互联网和云不是完美的。虽然许多人认为不会轻易中断,但AWS S3的事件证明--发生故障仍然是一个活生生的事实,不能轻率 。无论你是一个小企业,完成交易的能力被停止;或者你是一个大型企业,其国际运营中断,如果你完全依靠云,它或许会对你的业务造成重大损害。
S3中断已经显示了AWS的巨大足迹,但它也显示这些用户需要一个混合部件的解决方案。混合是在云中工作的企业最务实的方法,保护他们免受宕机、资金损失以及像今天这样的中断引起的一系列棘手的问题。
将您的IT运营放在一个公共云供应商的数据中心,不管供应商多么大,已被证明是有风险的。
受到这种中断影响的每个供应商都没有足够的业务连续性和灾难恢复计划。亚马逊让用户失望,但你让你自己的客户也下来了。