存储“罢工”8小时微软Azure到底经历了什么？_云资讯

存储群集失去电力支撑和Azure闪变是导致此次故障的原因。

broken_light_bulb_with_smoke_shutterstock

在本周三、周四,使用微软Azure存储服务的用户在提供新资源或访问他们现有资源时遇到了困难,故障时间长达8个小时。周三晚上，Azure存储也进行了短时间的“罢工”。

第一次降压严重影响了其服务所覆盖的美国东部地区，微软的状态页显示：“它影响了虚拟机Azure媒体服务、应用程序洞察、Azure逻辑应用程序、Azure数据工厂、Azure站点恢复工具、Azure缓存服务、Azure搜索、Azure服务总线、Azure事件中心、Azure SQL数据库、API管理和Azure流分析。”

虽然第二个事件发生时间较短，但影响更广：微软表示，由于底层存储事件，远在印度的用户将遭受配置存储“故障”。

微软Azure的初次遭遇与Amazon WebServices的“S3-izure”惊人的相似，它也在美国东部的一个地区。但与S3-izure不同的是，此次微软的事件并没有产生多大影响，没有引起像之前亚马逊事件后的那种“我的天哪，一切都让人失望 ”的恐慌。

此次微软Azure服务的中断事件也没有引起用户的强烈不满，有两个明显的原因：第一，这不是一个像S3-izure完全中断的事件。Azure存储用户可能会有一个不太稳定的体验，但他们没有理由停止使用；第二，中断事件出现在周三晚上21点50分，东部时间大约下午6点，不是在需求旺盛的时候。

这些因素意味着：微软Azure的中断没有引起极大的关注是一个奇迹，其云服务不受欢迎，并且还将会错过或因为性能不稳引来批评。当然这样说可能不太友善。

但事件发生的根源——“一个存储集群失去了电源，变得不可用” ——表明Azure可能没有出色的弹性。然而，电力中断却是云运营商无法控制的。比起亚马逊AWS的程序员输错一个字母引起的服务瘫痪事件，微软Azure的中断事件更容易让人接受。