刚刚GitHub通过官方博客发布了21日“挂掉”的事件分析。GitHub指出此次事件发生的原因是在10月21日22:52 UTC进行日常维护——更换发生故障的100G光学设备时导致美国东海岸网络中心与美国东海岸数据中心之间的连接断开。

1

cef98c8dacf486a

更具体地,GitHub分析,虽然两地的连接在43秒内恢复,但这次短暂的中断引发了一系列事件,这才导致了长达24小时11分钟的服务降级。

为了大规模提高性能,GitHub的应用程序将直接写入每个群集的相关主数据库,但在绝大多数情况下将读取请求委派给副本服务器的子集。GitHub使用Orchestrator来管理MySQL集群拓扑并处理自动故障转移,Orchestrator在此过程中考虑了许多变量,并在Raft共识机制之上达成共识。Orchestrator可以实现应用程序无法支持的拓扑,因此必须注意将Orchestrator的配置与应用程序级别的期望保持一致。

2

然而21日,在上述网络分区中,Orchestrator在主数据中心中一直保持活跃,根据Raft的共识机制,它开始了一个取消领导选举的过程。美国西海岸数据中心和美国东海岸公有云Orchestrator节点能够建立合规数量并开始对群集进行故障转移,以便将写入指向美国西海岸数据中心。Orchestrator继续组织美国西海岸数据库集群拓扑,当连接恢复时,应用层立即开始将写入流量引导到西海岸站点的新当选者。

美国东海岸数据中心的数据库服务器包含一段短暂的写入时间,但尚未复制到美国西海岸的设施。由于两个数据中心中的数据库集群都包含了其它数据中心中不存在的写入,因此无法安全地将主要数据库故障转移到美国东海岸数据中心。

3

GitHub工程师发现问题后进行了一系列抢救措施,“最终没有用户数据丢失,但是,几秒钟的数据库写入的手动协调仍在进行中。”

GitHub对所有受影响的用户表示歉意,并表示“我们已经吸取了教训,并且采取了一系列急救措施,我们希望更好地确保不再发生类似情况。”

同时GitHub也表示接下来将解决由此导致的数据不一致问题。

相关阅读

企业要为云端的5种风险承担责任

云环境中面临的传统和新兴威胁

2019年你必须了解的六大新兴信息安全工具

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排 行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2019-07-31 13:38:58
国际资讯 微软加大可再生能源投资 亚利桑那州新数据中心将主要使用太阳能
为了减少数据中心的碳足迹,微软正在加大对太阳能的投资。2023 年的时候,其数据中心有望使用 70% 的可再生能源。亚利桑那数据中心的可持续发展项目,一直受到很多人的关注 <详情>
2019-07-31 09:41:00
国际资讯 英特尔公布Q2财报:数据中心压力陡增,物联网业务实现较大增长
日前,英特尔公布了 2019 年第二季度的盈利报告,实现营收 165 亿美元,同比下降3%;净利润为 42 亿美元,同比下降 17%。报告称,下降主要出现在数据中心业务,而在客户计 <详情>
2019-07-30 15:08:00
国内资讯 投资6亿美元 谷歌在德克萨斯州建第二个数据中心
谷歌在德克萨斯投资的第一个数据中心获得批准,该数据中心目前已开始施工。 <详情>
2019-07-30 13:12:04
机房建设 数据中心机器学习如何优化运营
机器学习和人工智能是当今IT专业人员的热门话题,而在企业的数据中心,它们拥有真正的前景。 <详情>
2019-07-29 20:36:30
UPS电力 发电机组和UPS电源之间的配合问题
近年大型的数据中心的建设得到迅猛增长,将应用越来越多的大功率UPS,由于要控制UPS所用蓄电池数量,大功率UPS的后备时间基本上都是15-30分钟,这样就需要匹配发电机组,为 <详情>