谷歌云宕机解决了？用户风险依然存在_云技术

日前，谷歌云(Google Cloud)服务宕机和性能下降的问题很快得到了修复，最终对客户的影响也比较有限，但它还是提醒客户：他们必须向供应商施加更多压力，以提高云的可靠性。

3月11日，两项谷歌云服务中断:客户用来管理他们的账户和项目的Google Cloud Console;以及Cloud Dataflow，这是一项用于处理批处理和流数据的服务。

zYj6ZvI

根据谷歌的事后分析，由于其最新版本的谷歌云配额系统的代码更改，Cloud Console在4小时内不可用。该bug导致系统退回到较低的速率限制，从而导致请求被拒绝。

而另一项造成系统滞后超过19小时的Cloud Dataflow问题在3月12日得到了全面解决。谷歌表示，事故原因仍在调查中。

与此同时，谷歌云存储在3月12日经历了4小时的高错误率，以至影响了所有地区。根据事后报告，这个问题源于谷歌现场可靠性工程师(SREs)采取的行动。

3月11日，谷歌SREs发现，连接到谷歌内部Blob存储服务元数据的存储使用量激增。为了减少这种使用，SREs进行了配置更改，导致系统中查找博客数据位置的部分过载，而增加的负载最终导致“连锁故障”，谷歌说。

谷歌应用程序引擎的相关中断导致Blob Store API和应用程序引擎部署出现了问题，这些问题也持续了大约四个小时。

报告称，谷歌还计划改进其隔离存储服务区域的方式，以避免未来谷歌云该中断问题在全球的爆发。

总体云可靠性仍然是一个大目标

所有云服务供应商都会经历宕机问题。然而，考虑到谷歌云在市场份额上远远落后于AWS和Azure，它特别需要解决这个问题。Constellation Research分析师Holger Mueller称，这是买方市场，尽管谷歌的快速补救措施和透明度对客户来说也很有价值，但客户将寻求最可靠的选择。

然而，一些客户可能担心，在详细描述谷歌云存储中断的报告中，谷歌指的是在区域之间增加更多的隔离。

Mueller说:“区域隔离是云计算正常运行时间和恢复能力的关键，如果供应商不能做到这一点，这就会令人担忧。”“他们要想知道谷歌是否成功地解决了这个问题，唯一的办法就是等待它再次故障。”

IDC分析师Stephen Elliot表示，通过使用先进的管理、编排和负载平衡技术，计划外的云服务中断应该会随着时间的推移而减少。他表示:“这是企业客户预期的一般参数。”

相关阅读：

云计算市场马太效益明显，传统IT巨头即将陨落？