AWS S3宕机暴露Amazon规模级互联网中的致命瓶颈_云资讯

Amazon的S3服务宕机事件无疑是送给Azure与谷歌、内部IT、混合云技术支持商以及多云网关产品的一份大礼。但在此之外，其亦暴露出Amazon客户在业务连续性与灾难恢复方面准备不足的问题。

我们当然可以将矛头指向Jeff Bezos，并抱怨AWS的表现令用户失望。然而我们同时应当意识到业务保障的重要意义，且不应将全部管理工作交由服务商负责。客户应当建立一套替代性或者混合云战略。事实上，可供选择的现有解决方案可谓多种多样。

S3（即简单存储服务）为Amazon公司推出的对象存储服务，立足于其AWS公有云。S3宕机事件发生于2月28日上午9：44（太平洋时间），当时其位于北弗吉尼亚州的热门数据中心（美国东一服务区）存储桶发生访问问题并导致错误率上升。对于众多用户而言，其数据在此阶段遭遇无法访问故障，且在持续五个小时的修复期间始终受到影响。另外，Nest视频与部分智能手机应用也受到影响。

对于众多S3应用开发商，AWS原本提供了双服务区数据冗余选项以防止此类宕机事故——但考虑到昂贵的成本投入，大部分开发商并未采用。

除了S3之外，另有其它一系列服务受到影响，具体包括Amazon Appstream 2.0、Athena、CloudSearch、Cognito、ECR (Docker容器注册表)、EMR、Amazon Elastic Transcoder、Elasticsearch Service、Glacier、Inspector、Kinesis Firehose、Lightsail、Mobile Analytics、PinPoint、Redshift、Simple Email Service、SWF、WorkDocs、WorkMail、Auto Scaling、AWS Batch、CloudFormation、CodeBuild、CodeCommit、CodeDeploy、Data Pipeline、Elastic Breanstalk、Key Management、Lambda、OpsWork Stacks以及Storage Gateway等同样处于该北弗吉尼亚州AWS基础设施内的服务。

目前大部分服务已经恢复正常，但仍有部分服务未能上线。具体情况非常复杂，下图所示为AWS EC2（北弗吉尼亚州）美国东一服务区给出的EC2运行状态历史记录：

服务器1