谷歌公布了近期的一个事件的根本原因分析结果,该事件影响了谷歌的部分云服务,并在大约32分钟的时间内将错误率提高了33%至87%,后续他们将采取措施改善平台性能和可用性。

该事件影响了很多依赖 Google HTTP(S)负载均衡器 的谷歌服务的客户,包括Google Kubernetes Engine、Google App Engine、Google Cloud Functions、Stackdriver Web UI、Dialogflow和Cloud Support Portal/API。客户在大约32分钟的时间内随机收到502错误码或连接被重置的错误,这是从谷歌工程师接收到监控系统发出故障率警报的那一刻开始到部署修复程序的时间。

Google HTTP(S)负载均衡旨在均衡多个后端实例和多个区域的HTTP和HTTPS流量。它的一个好处是云应用程序可以使用单个全局IP地址,极大地简化了DNS设置。为了在连接设置期间实现最佳性能,该服务利用第一层谷歌前端(GFE)就近接收用户请求,并将请求转发到第二层GFE。第二层GFE构成全局服务器网络,将请求发送到相应的后端,而不管它们位于哪个区域。

事件的根本原因是,为了提高第二个GFE层的安全性和性能而添加的新功能中包含未检测到的错误。该错误是由生产环境中的一个配置变更引发的,它会导致GFE随机重启,而在重启过程中,服务容量丢失。

所幸的是,包含该错误的功能尚未投入使用,因此谷歌工程师通过恢复配置变更来部署修复程序,服务在几分钟后恢复其正常行为,在缓存热身后故障率也恢复正常。

为了预防事件再次发生,除了改进GFE测试栈并添加更多安全措施以防止未在使用中的功能被错误投入使用外,Google Cloud团队还计划改善GFE池不同分片之间的隔离,以缩小故障范围,并为GFE池的配置变更创建仪表盘,让工程师更容易识别有问题的系统变更。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排 行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2019-07-31 10:27:29
Saas 2019年CRM将引爆SaaS聚变
氢弹是威力强大的武器,但引爆氢弹极为困难,引爆氢弹往往需要在内部安放小型核弹,瞬间达到极高温度。如同引爆氢弹一样,SaaS市场的聚变,依靠的是CRM这款核弹。 <详情>
2019-07-31 10:19:00
云资讯 谷歌牵手VMware将虚拟化工作负载引入谷歌云
彭博社报道称,谷歌与VMware正在展开合作,帮助企业更轻松地在Google Cloud Platform上运行VMware vSphere虚拟化软件和网络工具。 <详情>
2019-07-31 10:16:00
云技术 光网络设备资本开支重心转移:云服务提供商异军突起
近日,知名市场调研机构Cignal AI发布了其最新光学应用市场报告。报告指出,云服务和主机托管服务运营商在光通信硬件上的支出在2019年第一季度继续刺激市场的增长。其中北 <详情>
2019-07-31 09:52:00
云资讯 谷歌与戴尔旗下云计算公司VMware建立新合作 试图追赶竞争对手
据国外媒体报道,当地时间周一,谷歌宣布与戴尔旗下的云计算公司VMware建立新的合作伙伴关系,帮助更多企业迁移到云端,从而试图追赶其竞争对手。 <详情>
2019-07-31 09:24:00
互联网 谷歌公布6个重大iOS漏洞:可通过iMessage发动攻击
据美国科技媒体ZDNet报道,谷歌旗下安全团队Project Zero的两名成员日前公布了影响iOS系统的6个“无交互”安全漏洞中其中5个的详细信息和演示用攻击代码。 <详情>