中国IDC圈2016年9月6日报道,9月1日由工业和信息化部指导,中国信息通信研究院、中国通信标准化协会主办,数据中心联盟承办的“2016可信云大会”在京隆重召开。在可信云服务性能和运维论坛上,世纪互联蓝云事业部技术运维总经理汤涛发表了题为“高水准云运维打造安全可信云服务”的演讲。以下是演讲全文:
世纪互联蓝云事业部技术运维总经理 汤涛
很高兴再一次带可信云服务论坛上跟大家交流一下我们过去几年在云领域方面做的一些工作,特别是从后台运维方面。在正式讨论议题之前,我常常喜欢跟大家来分享一下我们的过去,现在和未来。
云计算作为一个大的趋势或者作为一个不单单是IT行业发展的趋势,现在已经影响到各行各业,所以当我们看行业,看技术的时候,我们往往要跳出来看。从这个意义上讲,我们不能不提整个IT行业发展的历史。在过去五十年,IT行业迅速发展,已经发展到什么程度呢?人类在整个历史发展过程当中,大概经历了几次大的变革,从最早的农业革命,到工业革命,到今天的信息化革命,分别是影响了人类历史上大的三次变革。而这三次变革,信息化浪潮是一个大程度的变化。因为,它已经影响到,深入到我们每个人生活的各个层面。如果信息系统宕机,假设所有信息系统宕机一天,可能全世界都会面临巨大的灾难,这个灾难有可能是超出我们想象力的。因为我们核电的基础运行有赖于我们的信息系统,我们军事、部队、日常水电气等等所有的都是信息化控制的。
上个世纪末有一个著名学者写过一本书,这本书就叫《第三次浪潮》,他曾经预言人类发展,第三次革命将会比前面任何一次都要广,都要大。今天我们就站在这个转折点上,为什么这么讲呢?因为我们说我们前面所有的信息化,过去三十年,五十年,大部分都是在把我们传统服务行业转向IT行业。也就是说,我们很多以前是传统服务业的表现形式,今天我们都是以IT方式来表现,所以我们称之为过去30—50年,叫服务的IT化。换句话说,很多传统意义上的服务行业的一些处理方式,都在走向信息化。应该说从过去三到五年到现在,或者从现在再往后推三到五年,我们将逐步的由服务IT化转向IT本身服务化。所以这就是云计算其中的一个代表。
由于云计算是一个IT行业走向服务化的标志,所以无论从今天作为一个转折点,再往后看30年、50年,当我们看到今天所有热门的技术,包括AR、VR,以及万物互联等等这一切,我们说它的底层,它的基础都离不开我们今天在这边所看到的云计算。因为所有的这一切,都取决于一个重要的特点,取决于云计算里面一个重要的因素,就是云的可伸缩性,极大地方便了我们,包括人工智能,万物互联,因为在所有的任何一个信息系统里面,我们服务于5万人、10万、100万人、1000万人、1亿人,如果我们用传统IT来做,它的架构完全是一样的。但是在今天是完全不一样,我们现在的用户数往往是不可预测的,比如像很多手机应用,有可能瞬间会从1万用户到100万、1000万用户,传统IT往往很难适应这样的需求,所以说在第三次信息化浪潮变革当中,将面临这个挑战,这个挑战就在于互联网也好,大数据也好,还是社交媒体,移动互联,人工智能等等这一切,都是相辅相成的。
在第三次浪潮变革之初,它已经由量变走向质变,所以现在有很多学者开始提出一个新的论断,认为信息化已经由第三次浪潮转变为第四次浪潮,已经不单单是把我们传统行业信息化渗透进去,更重要的是我们已经开始走向无处不在,万物互联,以及IT服务化。也就是说,未来我们可能借助于可穿戴式设备也好,智能设备也好,我们人怎么样定义都会打问号,因为有可能我们未来很多的延伸设备可以植入到人体。所以在这个转折的点,我们站在这个交汇的点,我们后端的云计算就变得很重要。这就回到我们今天讨论的主题,就是我们的性能和运维的问题,因为我们说过去当我们一个行业的服务依赖于信息系统的时候,我们就要搞定后台这个行业所依赖的信息系统就好了,但是我们今天的云计算,我们有可能多种多样的行业,有可能甚至会影响到人的生存这样一些行业。所以,我们的后台的这些稳定和性能就变得非常关键。下面我们给大家简单看一看从我们传统IT运维走向云的运维,中间到底有什么差别,以及我们如何更好的实现像自动化运维,或者它们之间到底是什么样的关联。
在讨论之前,我们先来看一下云它给我们带来的价值,这个价值实际上我们可能已经每时每刻都在享受这个价值,主要是我们没太看到屏幕背后它的变化,它的变化体现在哪里?我们看传统IT,就像台阶式的蓝色曲线一样,传统IT有一个特点,当我们要布一个系统,针对5万、10万、100万、1000万用户的时候,我们需要设计一个容量,规划一个环境,我们设计的容量有可能是10万用户容量,系统从刚开始慢慢用户开始多起来,到某个阶段我们发现按照这个趋势,我可能在我扩容,比如扩容需要三个月,在扩容的时间我根本满足不了,所以我们需要提前做布局,但是布局到某个阶段,用户增长的时候,我们传统IT是无法应对的,这时候我们有一部分用户是服务不到的,所以这就是在我们今天IaaS发展非常迅猛的情况下,我们日常生活都依赖信息系统的时候,这就会变成灾难。所以这就引入一个话题,我们的云未来可以说渗透到生活方方面面,不管你愿不愿意,我们今天半个脚已经踩进去了。这样一来我们再来看,对于我们的云来讲,实际上更确切的说,我们要充分拟合这一条实际应用的企业,要拟合怎么办呢?这里面就会涉及到自动分配的问题,我们的资源怎么样自动分配,以致于我需要这么多,我会分配这么多。所以这里面就会涉及到不单单是后台自动运维问题,还会涉及到以前我们很多云都是手动来分配资源,我们如何能够自动让我们云分配资源,这是很重要的议题。当我需要的时候,我不需要人工干预,但我监测到用户数是10万的时候,我原来设计的是5万,我自动增加应对5万用户的虚拟机进去,满足他们的需求,基本上达到满足附载的功能曲线。所以这里面自动化程度是分成两个层面,一个层面是用户资源自动化分配,另外一个层面是后台自动化的监测和应对故障的手段。所以我们讲自动化实际上我们要从前端开始。
接下来我们再来看,既然云已经渗透到我们各个层面,我们看默认情况下,我们有很多类似这样的场景,比如有时断时续的业务,有快速增长的业务,以及难以预测的业务峰值,以及季节性波动,这时候有什么价值呢?比如季节性波动,就像我们很多服务于叫了大中小学的应用,现在一到放假的时候基本上都掉下来,一到上学的时候,业务量都会变成峰值。这时候我们说如果用传统IT应对的话,就会变成极大的麻烦,因为在这个过程当中,我们有大量的资源就要浪费掉,所以对于云来讲,不单单是要拟合用户的附载,更多是要实现一定程度的自动化,这就提到一个很重要的特点。这时候大家肯定要问,既然云的自动化变得这么重要,这时候我们就要来看一下整个云从前端到终端,到后端,它的相互关联是怎样的,我们说对于传统IT来讲,我们只要把单台、两三台服务器搞定就好了,但是对于云来讲不是这样,云不单单是技术本身,是IT的服务化,所以既然是IT服务化,不单单包含IT,还包含后面两个字“服务”。所以对于云的运维,或者云的运营来讲,变得非常重要,在云服务提供商里面,技术可能占到40%—50%,另外50%—60%是服务,很简单一个例子,比如我们现在时时刻刻需要访问那些服务,比如我们煤气监测,假设我们在半夜三点出现问题,服务出新中断,这时候我们一定需要有云服务的支持,或者后台工程师的支持,所以这就意味着对于云来讲,我们往往都需要7×24小时云服务的支持,这里面的支持就有大量技术含量,以及标准化流程,包括我们今天这个议题,就是我们大会的叫可信云。
如何来可信?可信的层面不单单是服务本身是否足够稳定,更重要的是我们服务是不是可以依赖,是不是可以信赖。所以在这个当中,大家看到我们今天给大家列出的模型,实际上是来自于一个著名的投行的分类,它今天几乎在全国范围之内都探索出在云服务上面的分类标准,这个标准是什么分类方式呢?实际上是分成两大层面,一个是部署本身,一个是服务本身,换句话说,云不单单是技术,另外一块是服务,我们的服务好不好,直接关系到服务云的质量问题。所以从这个层面来看,我们又分成五大类,第一类似是我们通常讲的私有云,也就是企业或者组织自己拥有数据中心,企业或者组织自己运维服务,这个服务既然是个云,我们上面应用的怎么样,最短的那块板,高的要求将决定云服务的要求,换句话说,假设云上有100个应用,其中一个应用要求7×24,另外的云是5×8,对不起,云服务的要求定7×24,所以对于云服务本身,后台运维就变得非常关键。所以云的运维本身有一套标准化体系、规范和内容,而我们今天可信云的主办方,包括承办方数据中心联盟,在这方面做了大量工作。就是如何替用户评价云服务商的规范程度,这里面是相辅相成的,这是完整的私有云,硬件、软件以及它的服务。这块可以由我们组织自己提供。
另外是我的软硬件,包括数据中心,我的云运营是由第三方实现的,可以是我们,也可以是任何第三方。这里面我们知道,涉及第三方就会涉及到评估标准问题,也就是我们的规范,以及我们的SLA。这是用户自己有基础设施的技术,第三方来负责。第三种是我们企业是托管式的,就像我们今天世纪互联有很多机房,很多企业都可以把机架托管到世纪互联的机房,承载着世纪互联的机房上,并且我们也由第三方实现,因为我们知道这里面服务本身7×24小时很重要,技术不用多说,有很多这样的技术。第四种是共享,基础设施也是共享的,我们的服务也可以是委托第三方,这相当于是叫不同的选项。第五种是存的公有云,完全不是物理隔离的,前面三种都是物理隔离,基础设施物理隔离。第四种开始是逻辑隔离,第四种是我们的硬件和网络资源可以是共享的,但是逻辑上做隔离,服务上做隔离。第六种是物理基础设施,数据中心,网络都是做逻辑隔离,服务是共享服务。所以这样各位就了解到,云不单单是讲技术,还讲服务。这是运维角度的参考模型,我们说把云分成大块,为什么要分成三大块?这就跟我们主题密切相关,我们分别看一下三大块,首先是云服务的技术提供商,相当于我们今天有很多云服务软件提供商,比如谷歌的云,亚马逊的云等等,我们有技术提供商,我们有公有云、私有云等等多种多样技术提供商。技术提供商更着重的是我们产品的研发,包括Bug的处理,紧接着是云服务提供商,云服务提供商相当于刚才我们讲的云不单单需要考虑技术,还要考虑服务,而服务本身就是跟我们运维密切相关。我们看一下云服务提供商,它必须有标准化流程,必须有严格的服务质量以及可信赖。在这里面同样从服务角度分两块,一个是标准业务服务,一个是运维服务。作为运维服务来讲,是我们日常讲的工程师来提供的服务,我们业务服务是跟用户打交道的,比如用户的相关支持,还包括商务的支持。在云服务商我们有基于SaaS、PaaS、IaaS等等,IT服务本身也可以当成云。我们基于这些基础设施,我们有不同角色来服务。这些角色里面就会有标准的运营工程师和服务工程师,包括安全保障工程师,有合规的工程师等等。也就是说,在这里面我们需要严格的分开我们服务的操作方,和我们服务监管方,这个就是有力的保障可信赖重要的层面,为什么因为现在在全球范围之内,包括云服务,出钱数据泄漏和数据问题,超过60%是内部出问题,所以如何来区分我们服务运行方,监管方就非常关键。
另外是云的使用用户,在云的使用用户方,为什么还有一个自己的IT呢?原因很简单,就是由于我们今天一再讲到叫混合IT的概念,也就是说,我们云服务商提供基础的服务保障,但是我们在云服务基础上,运营部分是用户在做,我们可以进行外包,所以我们把这两块合起来就叫做IT。作为传统运维来讲,我们要搞定服务器,这个服务器可能是单台的,可能是两台,可能是四台的。今天我们在云模式下,我们相当于数据中心的服务器,看成是一个大的服务的基础设施,在上面我们部署云的操作系统,在云操作系统上,再由我们一系列虚拟机承载服务,都是一个大一个小,一个承载进程,一个承载操作系统。这就意味着原来我们维护单台机器就搞定的事情,现在我们要搞定整个数据中心,意味着我们运维复杂度,运维的难度都走向了一个更高的程度,所以这也对我们今天运维构成很大的挑战,正是由于传统业务逐步走向云的迁移,所以我们可以看到传统IT,一定会逐步缩小成我们应用领域运维,应用领域的服务,而我们云的要求就越来越高,要求越来越高就必然引入自动化的问题,我们今天对于数据中心来讲,我们不能说要重装数据中心,可能半年时间就过去了。所以对云的运维构成了很大的挑战,这也我们工程师构成了极大的挑战。这里面就会引入另一个话题叫自动化,我们的目标80%是自动化,我们现在离这个还有一段距离,为什么这么讲呢?原因又是跟我们业内另外一个技术密切相关的,就是人工智能。我们知道运维自动化取决于我们指标的量化,当我们任何一个指标可以量化的时候,多个指标可以量化的时候,自动化很容易实现,因为我只要达到一个阈值,我就可以进行操作。但是很多情况下,当我们指标没法量化,需要引入人脑判断的时候,这时候自动化就要打一个问号了。所以我们自动化,当我们某一天能不能实现自动化,取决于人工智能的发展。这是我们传统的运维,我们的解决方案,也就是传统IT走向萎缩和向上层变迁,走向解决方案。而云运维会越来越发展状大,而云运维的自动化也会同步发展起来,而自动化我们的目标是80%能够实现自动化,而自动化程度取决于人工智能的发展。因为量化的指标才能自动化。
我们再看一下我们蓝云提供的服务,从IaaS、PaaS、SaaS都有覆盖,包括基础设施的监控等等。在云的数据中心里,都有我们的蓝云数据中心,都有数以百万计传感器,传感器会往我们云运维中心发送信号,当我们收到信号以后要做一些处理,我们会根据业内分类标准,会把这些包括影响的范围,影响的程度,这就是我们前面讲到的我们信息的分类,能不能量化,如果可以量化,就可以开发很多自动化工具应对它,当我们到A阈值的时候做什么处理,B阈值做真正处理,指标是否相互关联,比如十个指标相互关联,这时候我们就可以开发自动化工具,所以需要一整套标准化流程做处理。
然后我们再来看目前我们从运维角度,整个蓝云有四百多人的庞大运维团队,这个团队包括7×24小时软件、硬件响应和系统开发团队,这个开发团队不仅开发后台运维支撑,更重要的运维自动化需要每时每刻来调整,因为指标有可能是动态变化的。有可能两个月前,我的带宽指标达到某一个比例需要触发一定的速度,到今天有可能这个比例会降低,这也就意味着我们自动化运维也是在不断发展,所以我们需要有这样一个团队自动的帮我们实现动态的自动化。客户支持、商务支持不多说。我们还有一个团队专门负责安全和合规,我们如何来防止因为后台数据导致的问题,我们参与可信云认证的时候,也是提供了非常很多的可追溯数据、日志和操作,我们任何一个工程师在任何时候的操作都是可追溯的,这样可以保证我们服务可靠性,而且不单单是追溯,而且是两双眼睛,就像大家取现金一样,当你取现到一定数额,柜员一定会叫他的老板过来刷两张卡。可信云除了我们后台保障,前端怎么让用户调查到这些状态,所以我们在业内也是首次公开标准规范,我们后台云服务什么时间可以用,什么时间有问题,用户可以随时都可以查到,可以保证用户看到的信息。
由于时间关系,我们就讨论这么多。谢谢大家!