存储群集失去电力支撑和Azure闪变是导致此次故障的原因。
在本周三、周四,使用微软Azure存储服务的用户在提供新资源或访问他们现有资源时遇到了困难,故障时间长达8个小时。周三晚上,Azure存储也进行了短时间的“罢工”。
第一次降压严重影响了其服务所覆盖的美国东部地区,微软的状态页显示:“它影响了虚拟机Azure媒体服务、应用程序洞察、Azure逻辑应用程序、Azure数据工厂、Azure站点恢复工具、Azure缓存服务、Azure搜索、Azure服务总线、Azure事件中心、Azure SQL数据库、API管理和Azure流分析。”
虽然第二个事件发生时间较短,但影响更广:微软表示,由于底层存储事件,远在印度的用户将遭受配置存储“故障”。
微软Azure的初次遭遇与Amazon WebServices的“S3-izure”惊人的相似,它也在美国东部的一个地区。但与S3-izure不同的是,此次微软的事件并没有产生多大影响,没有引起像之前亚马逊事件后的那种“我的天哪,一切都让人失望 ”的恐慌。
此次微软Azure服务的中断事件也没有引起用户的强烈不满,有两个明显的原因:第一,这不是一个像S3-izure完全中断的事件。Azure存储用户可能会有一个不太稳定的体验,但他们没有理由停止使用;第二,中断事件出现在周三晚上21点50分,东部时间大约下午6点,不是在需求旺盛的时候。
这些因素意味着:微软Azure的中断没有引起极大的关注是一个奇迹,其云服务不受欢迎,并且还将会错过或因为性能不稳引来批评。当然这样说可能不太友善。
但事件发生的根源——“一个存储集群失去了电源,变得不可用” ——表明Azure可能没有出色的弹性。然而,电力中断却是云运营商无法控制的。比起亚马逊AWS的程序员输错一个字母引起的服务瘫痪事件,微软Azure的中断事件更容易让人接受。