中国IDC圈2016年9月6日报道,9月1日由工业和信息化部指导,中国信息通信研究院、中国通信标准化协会主办,数据中心联盟承办的“2016可信云大会”在京隆重召开。在可信云服务性能和运维论坛上,迅达云副总裁崔康发表了题为“迅达云的高可用架构之路”的演讲。以下是演讲全文:

cuikang

迅达云副总裁 崔康 

我觉得时间过得特别快,这是我参加的第二次可信云大会,应该在一年之前,如果没有记错还是这样的一些工作人员,还是这样的会议室,我当时担任主持人,其实过去一年,包括个人变化也大,我个人也换了工作,包括整个云计算行业也发生很多变化,比如融资,比如一些新的产品。包括我们现在非常火的视频直播技术,行业火热程度又把我们云厂商积极性调动起来了,很多云厂商推出了针对视频直播的产品。所以我也想分享一下迅达云的经验和心得。首先我做一下调查,有多少人知道迅达云。我觉得看起来只有少数同学知道迅达云或者知道Speedycloud,今天迅达云在这边也有一个展台,有一个人问迅达云是不是一个新成立的公司,我说不是,其实迅达云成立于2012年,到现在四年了,我们四年当中不断在对出自己的新产品,包括计算、存储、网络、政务云、桌面云、私有云、混合云等等。服务中大规模企业超过5000家,为什么很多朋友不知道我们这个公司呢?我觉得主要原因是跟公司风格有关系,我们公司口号是加速快速成长,所以很多时候我们愿意站在客户背后帮助客户成长,而不是像现在我站在前台告诉大家我们有多么优秀。在这里我分析一下迅达云在过去四年时间里积累的高可用架构的经验,希望能对大家有帮助。

其实提到高可用,我觉得大家应该比较熟悉了,高可用这个词并不是云计算行业专有名词,它应该是伴随着IT产业,伴随着硬件最早诞生的时候就产生了高可用,像bug除了缺陷之外,还指臭虫、飞蛾。从几十年前美国一个科学家抓到第一个bug开始,我们就认识到了高可用的重要性。今天中午我在一个架构群里面看到某某云华北有一个机房宕机了,一群人在里面骂,我们运维人员由要背锅了,由此可以看到高可用的重要性。还有我对劲看到一个例子,滴滴和快的当年做补贴大战的时候,双方都很有钱,今天我补贴十块钱,明天我就多补贴一块钱,当你不缺钱的时候你比拼的是什么呢?其实就是客户体验,当时滴滴和快的面临很大的问题,因为它的客户增长非常快,高可用就保证不了。当时滴滴老大给马化腾打了电话,说我们这边高可用搞不定了,请你帮忙,马化腾一夜之间调了几十台机器,调了几十个腾讯技术专家,连夜飞到北京,给滴滴助阵,他们花了七天七夜的时间,把整个硬件软件做了重构,从而支持的滴滴这么多年的高可用。所以由此可以看出,在互联网快速发展时代,很多产品都是同质化的,你的产品不是具有高可用性,直接决定了你的产品成功。

接下来我跟大家从四个方面分享一下迅达云的高可用,第一是计算高可用。一、硬件无段点故障。大家知道现在很多机房配置很多机架,物理服务器,这时候经常发生一些网络故障点,包括网卡、网线、交换机等,作为高可用配置来说,需要配双网卡、双网线、双交换机,但是这里有一个瓶颈,如果你这么配置会遇到成本的问题,成本会增加,特别是交换机这样的设备。这时候你就需要一个解决方案。二、存储和计算分离,在迅达云我们存储产品和计算产品,都是在数据中心分别的服务器上,即使某一个产品发生故障,也不会影响另外一个。第三,计算节点之间有一个心跳监测,我们一旦发现一个物理机宕机之后,就会触发一个自动疏散功能同时我们会通过多种途径来进行心跳监测,因为我们以前遇到过一些误报情况,现在我们是通过三条途径进行心跳监测。首先我们发现问题以后,会同内网上做一套网络指令做监测,如果发现内网也出现问题了,我们会在公网上做一次监测,如果三次监测都失败了,我们就确认这个物理机宕机了。那么宕机之后怎么办,我觉得其实客户对我们主要有两个需求,第一是系统尽量不要宕机,第二,如果万一宕机了,请你尽快的恢复。这是非常重要的需求。就像客户也明白,客户对云服务商要求,往往不是说你永远不要宕机,而是说如果你宕机了,请你快速恢复起来。就像客户要求他们的研发人员开发出一个永远没有bug的软件一样,这个时候如果能快速响应,就是我们云服务厂商需要做的事情。在迅达云内部,我们通过专用的调度算法,对故障云主机上问题进行分散,一旦发现有些云主机出现问题,我们会自动的把相应的计算资源迁移过去。而且宕机时间能够缩短的一分钟以内。

二是存储过可用。现在很多的服务都是计算和存储分离的,如果计算非常重要,我想存储就是整个企业的命脉,因为大家都知道,数据往往是一个企业最重要的资源,所以说很多企业都非常重视数据存储的高可用性。第一,多备份。通过多备份方式降低数据安全性,我们可以保证在同一数据内部提供至少三个数据备份,这种思想其实是非常经典的。举个生活中的例子,我们家有了小孩之后,特别喜欢给小孩拍照片,我妈妈洗照片的时候总喜欢洗三份,一份放在北京,一份放在青岛老家,一份放在丈母娘家。我觉得在互联网时代,我已经把照片放到了某个云盘上去,我觉得这应该很安全,但实际上也不是这样,大家可以看到很多新闻说到某个云盘发现自己存储空间充满别的东西。第二,数据条带化,通过数据条带化,把数据访问压力均匀分散在服务器上,提高访问性能。第三,分布式系统。通过无中心化设计,避免了原服务器数据瓶颈,提高了系统性能。第四,宕机之后数据如何自动恢复,我们云管理平台能够保证任何数据节点宕机之后,根据副本自动恢复确实的数据。

三是云管理平台的高可用,刚才我们提到计算、存储的高可用,都有宕机之后的自动恢复,这个自动恢复完全依赖于云管理平台的个可用,由此可以看到它的周期性。在云管理平台首先我们做到采用数据库集群,第二是在公网环境下多路径消息传输机制,因为我们的云的管理平台,它是跨数据中心的,所以我们不是内网管理。大家也知道整个中国公网环境是非常复杂的,如何保证公网环境下消息流通畅通,我们也做了一些工作。另外是集群式任务处理系统,我们可以自动选择主节点进行任务管理,宕机之后会自动触发重新选择。

最后一点是网络高可用。刚才我提到对于企业来说最重要的就是数据和存储,对于云服务厂商来说,我们现在听的都是网络,谁的网络好。在这方面我们也是做了很多的事情。第一,网络设备无单点,网络设备实现主备双核心,同时数据中心之间实现双路由光缆的主备互联互通。二是BGP动态网络,这个是比较烧钱的投入,在国内厂商里面,当然除了互联网巨头之外,现在有少数几家能够做到这一点,为什么我们要去投入巨资做BGP动态网络呢?举个简单例子,当你没有BGP动态网络的时候,假设你要开车从北京去青岛,这个时候你可能边开边问路,是心里没底的状态,如果你有了BGP动态网络,你可以做到什么呢?在出发前你有一张地图,你知道怎么走,非常清楚。所以说BGP动态网络能够实现多段IP地址,多家运营商动态广播,采用BGP方式接入运营商骨干网络,建立公司IGP网络,实现AS绿色网络。三是自动化流量调度,当网络发生异常的时候,可以自动实现网络流量环回保护,二是实现二层三层网络有效的自动协议和流量保护。

刚才我主要从四点归纳了一下云服务在高可用架构的经验,其实对于高可用性能来说有很多的因素和做法,但是我觉得最重要就是这几点,希望这几点能够给大家带来一些启发。但是对于我们自己来说,我们觉得这方面还有很多事情可以去做,因为高可用这样的东西,不是一蹴而就的事情,它需要在服务客户的过程当中,不断去摸索和不断优化,才能做到不断的更好。最后做一个简单的小广告,这个是我几个朋友建了一个社区,这个社区致力于给大家组织一些线上线下我们觉得比较好玩,比较新潮的技术沙龙活动,交流活动,希望能够把技术人员聚集在一起,把我们中国的技术社区做得更好。上周我们组织了第一次活动,关于视频直播技术的优化实践,当时现场来了两百人,效果还是不错的,我们接下来会有更多活动基于这个平台发布,这是一个二维码,里面也会定期发一些好的文章,欢迎大家投稿参与进来,甚至做我们的讲师,我们都是非常欢迎的。谢谢大家!

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排 行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党