牛晓玲:各位来宾、各位专家朋友们:大家下午好。
我来自中国信息通信研究院,是云计算和大数据研究所的运维主管,今天的主题是运维标准权威解读。
今天的内容主要分为五个部分:第一部分是云时代下IT运维发展背景,第二个是金牌运维的标准解读,第三个是DevOps系列标准的解读,第四部分是标准组的一些工作进展,第五是下一步的工作计划。
首先我们需要考虑一个问题,到底运维是做什么?如果你是一名运维人员,你是不是遇到过以上的这些问题。比如说有一天网站又打不开是什么原因,现在IT系统越来越复杂,怎么样管理。24小时的值班监控机房哪里出现了故障,如何快速定位,复杂的环境怎么保证,这些问题都困扰运维人员。随着信息化支撑的作用越来越凸显,企业生产管理业务活动越来越依赖运维工作。为了提升运维的精细化管理水平,保证企业运维的一个安全运行,运维现在已经变成了一个当前通信的一个重要的工作之一。而且企业对运维人员提出了越来越多的一个要求,比如说要求你能力覆盖面广,综合能力强,优势服务意识和自然整合能力。
运维发展,我认为大致分为四个阶段。第一阶段是救火式运维。每天疲于奔命,缺乏智能判断。凭以前做过的一些经验判断。第二个阶段是监控式运维。通过集中监控系统,集中管理和监控所有的这些主机设备等等。第三阶段是规范式运维。运维事务较为完善,响应时间在不断缩短。第四阶段是智能化运维的阶段。从业务集群、故障自动响应,保证业务不中断。
传统的运维出现问题之后,IT运维管理转型是大势所趋。什么是IT运维管理?比如说软硬件环境,业务环境,IT运维人员的综合性管理。是为了连续性、综合性。包括两方法,一个是服务,一个是产品。服务是根据服务对象主体不同,分为原厂运维服务和第三方服务。产品是对产品进行监控和管理。
运维的目的是什么样?第一点是保证网络不断、系统不瘫,数据不丢。从服务理念、人员形式、自动化程度、工作模式等五方面对比一下传统IT运维和云运维有什么不同。传统理念比较落后,是技术驱动的。云运维是先进的,由客户需求来驱动。服务形式来看,传统的单一,多集中在机房、数据中心。现在云运维的形式多样化,把范围拓展到桌面端、移动端、云端。对自动化程度来说,传统运维是自动化程度比较低,云运维自动化程度高。工作模式,传统运维是第一阶段响应救火式的运维,云运维是自主自动化的模式。
从以下三点看云运维兴起的原因。第一是市场需求。随着互联网各种业务的剧增,数据中心作为一个基础设施,需求呈爆发式增加。主要的对象是银行、电信、政府,因而市场需求是云运维兴起的一个推动力之一。数据中心现在规模持续扩大,年复核增长率将近40%以上。巨大的市场需求也是推动云运维重要的原因之一。从我们信通院的数据我国的公有云市场2017年达到264.8亿元,比2016年增长55.7%,预计2018年将达到906.2亿元。私有云市场预计2018年将增加到955.7亿元。下面是一个趋势图。
从技术方面来看。云计算并不是一个新的技术,从我们最开始的并行计算,多种资源解决问题的过程。到现在分布式计算,你需要将你的巨大计算能力的这些问题切分成许多小问题,最后综合你的结果。到后来的网格计算,比如说动态的多组织机构,参与你的虚拟组织协同共享资源和需求,解决问题。再到我们今天的云计算。技术的进步推动传IT运维的转型。时买时运的特性缓解传统运维的压力,越来越多的企业将自己的核心业务迁移到云端。这种方式解决了传统IT运维的架构成本比较高的一个问题。IT架构倒逼了升级。
从政策环境来看。分三阶段。第一是起步阶段,2010年工业和信息部发布了一个云计算服务创新发展试点工作的通知,涉及到北京、上海、深圳、无锡、深圳。第二是2015年关于促进云计算创新发展培育信息产业新业态的意见,2015年11月,指南的出台,2015年9月,6项国标准发布。我们还推出了中国银行业的信息科技“十三五”发展规划,监管指导意见,强调了云计算相关标准的制定。这17项国家政策是其中一小部分,国家对云计算发展的支持,我们也可以看出来,发展是一个指南的趋势。
第二部分是金牌运维标准的解读。在解读之前我想说一下标准化的意义。我举一个简单的例子,如果你经常出国,除了带手机、护照,可能还要一样东西,就是屏幕上插座。为什么?就是电源插座的典型案例,因为各国现在没有把插座这个问题统一,包括各国的电压都不同,所以插座就是咱们屏幕上显示的,万能插座。然后包括我们现在的手机充冲的接口也没有统一,包括道路左还是右行驶没有标准。这些标准推动了各国相关的接口和发展。
我们做标准化的作用是五大作用。第一是互联互通。第二是安全可靠,第三是规模经济,第四是市场开放,第五是用户选择全。标准化是协商一致的过程,做标准化的时候要满足以下要素,第一是尽可能快。很多新技术出来之后没有相关标准的规范,它可能会出现一个市场混乱的情况。第二是得到尽可能多的认同。只有大家认同标准,咱们一起往前走才能把标准推更远。第三个原则是相当一段时间内有效,不能说我可能这个标准做了有一个月,下一个月失效,这样也不是一个标准,在相当时间有效。标准涉及到多方的利益问题,它注定一开始就是意见不统一的,这很正常,因为有不同的利益驱动,不同解决方案,认知水平不同,交互的理解误解,都会造成标准难以成形。协商一致的过程最后就是一个相互妥协的一个过程,就是你退一步,我也退一步,大家形成一个标准。
简单介绍一下OSCAR联盟和TC608的简介。OSCAR是中国信息通信研究院联合多家开源公司成立,是我们研究院的一个品牌,为了促进云计算开源技术在中国的发展,致力于培养中国云计算产业生态,引领行业最佳实践,也会开展一些评估认证,包括一些政府政策制定,培育一些开源技术人才。TC608它是为了推进云计算相关的一些标准和开源的应用和发展。底下可以看到一些工作范围,包括政府支撑、人才认证,标准推广、学术研讨、测试评估、行业交流、开源治理、开源运营、国际合作等等都在范围之内。
组织结构是这样的,就是可信云大会有很多的大会也是由云计算工作组推进的,包括多云、云网协作工作组,运维、安全,咱们这个论坛其实做的一些相关的标准也是来自于这个工作组的。包括政务云的工作组,保险、银行、交通,曲线里面是马上要成立的一些工作组。这是工作组的组织结构工作情况。
现在我再介绍一下我们的金牌运维的一个标准。它是一个什么样的标准?其实这个标准是来自于可信云服务评估里面的一项:运维管理系统审查。在审查的过程中,我们发现了有各种各样的一个问题,比如说你的一些文档流程制度,运维人员管理的制度不规范,监控层方面的监控不到位,业务层的监控,故障处理,软硬件的安全管理都很不到位。这样的话,我们就想,通过推动金牌运维去增强你的这个云服务提供商的运维能力。因为运维前面讲到很重要,怎么样增强能力?所以我们联合2015年的11月份联合了阿里、百度、奇虎360、IBM、世纪互联等完成了金牌评估的第一部分,面向云服务商的运维管理指南的标准。这个工作的目的是为了让云服务提供商更关注运维的能力,并且如果是你没有能力建设很好的运维建设,那么这个标准可以引导你去建立一个完善健全的运维管理体系,提高你这个企业在行业中的一个竞争力。
一个标准的事例主要评估是从完备性、规范性、自动化三方面进行评估,后面也会详细说到。在做这些标准之前跟国内外的标准认证体系做过对比,比如说ISO20000,4SA,信息安全等级保护,云计算网络安全审查,这些都是耳熟能详的标准认证。我们对比了基础信息、基础服务、云计算、服务质量、信息安全、流程制度、运维安全等等。我们发现这些没有专门针对云计算的一个评估。当然了,云计算网络安全审查是针对云计算的,但是它的侧重点不太一样。那么我们正好金牌运维的出现想弥补市场的空缺,所以它才产生了。
它的对比优势在以下方面。比如说这个金牌运维评估是涵盖了基础运维和云运维两方面,综合了服务和安全,能适应DevOps的一些技术和先进理念,适应性强。侧重于你管理系统的完备性、自动化能力等等。
主要分为以下三方面。云服务运维管理的流程指导,围绕着服务台、事件管理、问题管理、发布等等等这些问题。第二大部分就是云服务运维管理系统功能的完备性,从资产管理,监控管理、告警管理、拓扑管理等方面考察系统功能是否完备。第三部分是运维管理系统自动化的管理能力,包括网络全生命周期管理等等。
这个评估一共涵盖了213项的审查指标。我们采用打分制,每一项满足了要求可能得1分,没有的话就是0分,申请企业达到180分以上才能过评估。包括我们还设立了专家评估小组的一个评议机制。从分布来看,我们运维管理系统的流程指导占22%,功能完备性是占69%,自动化管理能力占9%左右。
包括我们设计的内容,比如说服务台、事件管理、变更管理。下面有一些子项,后面很多,不能详细展开,还有配置管理、发布管理、版本控制、测试、颁布发布等等都有涵盖。包括你的知识库的管理,你有没有本公司的知识库,有没有各种类型的报表的考察都有涉及到,涉及面比较全。
第二个是系统功能完备性。包括了我们的监控管理、权限管理、报警管理、拓扑能力、日志管理、软件管理等等都有涉及。因为第二部分比较全,后续还有统计报表,资产管理,工单、计费、安全。安全也是审查内容会比较多,涵盖的比较全面。
第三个是自动化管理的能力。包括你网络管理的一个自动化能力,包括机器全生命周期管理的能力,操作系统环境管理的自动化能力都有考察。
目前,这个指南我们的评估依据是根据可信云服务专项评估。第一部分是面向运维指南目前完成了4批8家的一个金牌评估工作,以下的企业华为、浪潮、中国移动、腾讯、阿里、迅达云都通过了金牌运维的专项评估。右侧是证书的事例,通过的企业会放到可信云的一个官网上面可以查询到,这边有一个评估的标,如果你通过的话这个标会亮起。
第三部分是云计算运维平台参考框架和技术要求的标准解读。这个标准其实是在我们跟蓝鲸合作的一个项目。2017年4月20日蓝鲸智云开源了一个项目,参与的可能有4000家以上。在7月26日可信云大会上,蓝鲸又宣布了PaaS集成平台即将开放,为了帮助企业自动化运维的快速构建。2017年的3月期间,就是说它们其实在成立那个之前,我们就已经和它们开始合作,联合了多家企业,高效运维社区、优维科技、理想科技、齐治科技等,现在到了送审稿的阶段,本月月底开展相关的评估工作,也是国内首先针对云运维产品的评估标准,这是为了指导企业完善云运维的平台,选择最优最适合你的云运维产品。
运维所面临的新挑战也证明了一件事情,就是说你运维的平台化是势在必行的。我们会遇到以下一些“挑战”。第一是规模越来越大。随着互联网模式的多样化,以及移动互联网的接入需求,平台规模快速扩张。第二是技术战复杂。比如说多种操作系统,虚拟化平台,中间件、业务配置选项加大了运维管理的复杂度。第三是流量增大。比如说移动互联网的发展使这种用户量呈爆炸式的一个增长,渠道接入的流量加剧了现在流量大的局面。第四个挑战就是变更频发。大量的需要上线更新,比如说你的游戏、秒杀活动,促销等等业务的变更是非常频繁的。所以这使得配置管理会更加复杂。这个是云计算运维平台参考架构的架构图。从管控层、原子平台层、集成平台层到运维场景层大致是这四个层次。后面会展开一下。
我们其实考虑是从三方面考虑。一个是运营保障,一个是运营供给,一个是运营决策。先看运营保证,是为了解放双手,从外部自动化到最终的无人值守的能力。可以看到这里面有配置平台,作业平台,网络管理系统,DB管理系统等等。包括你的再往上有一些服务的组建,再往上是接入各种各样的运维管理系统都可以接入。
第二部分是运营工具。运营工具的话我们用这个,就是评估内容有一些PaaS平台的要求,能不能做运维管理,自动部署,日志管理,监控告警,数据存储安全等等都在运营工具这一层里面。这一层是以这种DevOps去推动工具文化的落地。
第三部分是运营决策层。就是你的数字化去驱动你的一些运营数据的分析,最终实现的一个智能的决策。包括过程可能是包括你的数据源,数据怎么采集包括怎么传输、汇聚、计算、数据存储、应用等等都这在一层。
我们的这个云计算运维平台参考框架及技术要求是下面一些要求,基础信息,指标要求,指标真实性验证。你是否达到这些能力,你的真实性怎么需要进一步的验证。
第四个是DevOps标准的一个解读。说到DevOps,我简单讲一下它是这个,它的由来。由比例时的一个工程师提出来的,能不能把敏捷的实例引入Ops的团队。他当时做一个政府项目的时候,分别跟运维团队和开发团队都工作了一段时间。之后发现一个问题,就是Dev或者是Ops的种种原因,为了自己的利益,各持己见,而且他们的工作完全就是在两个世界里面。这样就会出现一个问题,他分别跟两个团队工作一段时间,发现这两个团队没办法团队,当时提出来能不能把敏捷引入这两个团队。2008年加拿大的多伦多的一个人遇到了一个知音安德鲁,发表了一个演讲。他觉得终于遇到了知音把敏捷这个词提出来。2009年6月在美国圣荷西第二届大会上有一个轰动的演讲。在2009年同年10月份,比利时的根特发起了一个DevOps的大会,他提出了DevOps,他缩写了一下,这一词当时在社区就建立了。在2010年发表了一篇文件What is DevOps?里面包括概念,是一个清晰的雏形。DevOps的作者之后发表了一个演讲说对不起,DevOps来的晚了一些。2010年至今是一个产业关注的阶段,DevOps现在不再是只停留在社区讨论,而是开始慢慢落地,去实践。像比如说嘎特娜(音)等等也开始注意到DevOps可能是一个发展趋势。
随着DevOps含义越来越丰富,很多人理解,比如说有人说DevOps就是自动化运维,就是运维会开发,是用容器,就一种最佳实践,没有办法统一规则。然后出现了右侧的比较经典的盲人摸象图,摸哪一部分都是DevOps。
关于DevOps我想给出一个正解,你摸到的也真的是DevOps,但是只是一部分。DevOps包括了一些开发代码、通过持续集成构建、测试自动化、程序包应用、预部署、管理版本、配置基础设施、监控性能等等,都涵盖在DevOps里面。DevOps的定义是它是一组过程方法系统的统称,更强调人员与IT专业人员,就是开发测试运维三个部门,在服务生命周期中的协同和沟通,强调组织之间的一个合作,以及交付和基础设施的一个变更、自动开发,从而你实现你的持续集成、持续部署、持续交付。它是一个敏态的IT实现之道。
DevOps带来哪些转变?我认为是五方面。第一是开发过程的转变。从以前的瀑布模式,你需要分别做计划、分析、设计、开发、设计、修改、整合,过程没有重叠。但敏捷开发,我先设立一个项目,分析设计开发,这个阶段加入一些测试,会发展做一些单元测试,到最后的一个发布。到现在的DevOps就是我除了在立项之后,还要分析设计开发测试,把发布也加入进来,做这个持续发展的流水线,我觉得对开发过程有一些影响和改变。
说到开发,我这里提一下DevOps的工具链。有一些持续集成、版本控制、自动引擎、代码构建、自动化部署、控制工具、制品管理工具等等。底下列出它能做什么,还有技术应用的工具,还有监控预警、日志管理、性能管理、安全防护,其他的云服务等等,配置管理工具,制品管理工具,协作工具、问题跟踪的工具等等。
第二个改变是应用架构的转变。从之前我们的一个单体架构应用和数据分离的架构,变成后来我们SOA的架构,现在也有在用,前端后端分离,服务化。到现在的这个最新发展的微服务的架构,这个是对应用架构的一个变化。
部署与打包也有变化。我这边举了一个很形象的例子,以前我们部署在物理服务器上,都是独栋别墅,独立地基,有独立花园,后来到虚拟机部署,共享花园、共享的模式,把一套房分成多个小隔间,像胶囊住户。共享花园、卫生间、厨房等等。
到后来应用基础设施的转变,分三个过程。一个是数据中心型。以前是企业先比如说做云计算的可能我先自建一个数据中心,在没有云计算之前,都是先自建数据中心,当时自建数据中心就也是火了一阵,现在国家可能不再去倡导你自建数据中心,更多的是用云服务。以前这个服务器所有的这些购买等等,成本都落在数据中心,我可能要花很多钱做这一块。后来是托管服务型,向企业提供托管服务,提供服务器和存储,你自己不用购买设备了,直接用就可以了。到后来的云计算的数据中心。它是提供这种计算能力和IT的可用性,随想随用。也提供了一个DevOps的标准和可测试的平台。有了平台就可以测试、生产。DevOps可以使企业系统很好的与软件相匹配。为什么很多文章出现过说过DevOps和云是天生一对得。
最后一个改变带来了企业文化的转变。《2017DevOps现状调查报告》,其实DevOps现在开始应用于各种规模的这种企业中,那么DevOps的使用比例的团队从2014年只有16%到2015年19%,2016年22%,2017年增长到27%,你可以看到增长比较快。这个表明了DevOps需要面向业务目标,助力业务成功。有一些衡量标准,是否提高了企业在市场的占有率,应收利润,能不能顺畅高质量交付有用的价值。包括我们可以看到,这个高效企业和低效企业对比来说,高效企业比低效企业的部署高46倍,时间高440倍,降低失败5倍,故障恢复时间提升了96倍。这也是一个巨大的改变。
我们为什么做DevOps标准?有两个目的,一个是三正,一个是三明。三正,一个是正概念,正框架,正能力,你应该要达到什么样的能力才是达到了DevOps。三明是明流程、明组织、明实施。你要知道是什么样的流程,什么样的组织,怎么去实施。
说到这里我讲一下现在标准指定的进展。2017年9月,我们联合高效运维社区、腾讯云、讯达云、YY直播、阿里云、浙江移动、万达网络、京东、华为、中国银行、中兴、中国电信共同进行标准编制工作,2012年12月,通过三送三审,在CCSA和G5组成立项。
研发运营一体化能力成熟度模式。我们建成为COCM,我们都知道CMMI和CMM,是侧重于管理的,包括软件采购,产品工程,人力资源,系统集成等等。然后CMM是侧重于软件开发流程。我们的评估是侧重于管理和技术,包括开发、测试、运维的全流程,强调高效化、协同化、闭环化,这是它的范畴和目标。
介绍一下DevOps标准能力成熟度模型的体系。可以看到我们的DevOps系列标准主要分为四大部分。第一部分是研发运营一体化的过程。在这个过程里面,我们分为了敏捷开发管理,持续交付,技术运营。第二大部分是研发运营一体化的设计部分。第三部分安全和风险管理,第四是组织结构。敏捷开发管理里面,过程是很庞大的,敏捷开发管理包括了价值交付管理,包括你的敏捷的一个过程,包括你的组织模式是怎么样的。包括持续交付,我们里面涵盖配置管理,构建与持续集成,部署和发布管理,还有环境管理,数据管理,度量与反馈。技术运营可以看到是一个大的部分,包括监控管理、事件管理、容量管理、成本管理等等。后面还会展开讲一下。目前标准的进展。我们这七个部分的征求意见稿目前全部完成了。
我再单独讲一下前面的架构。第一部分是总体架构,第二部分是敏捷开发管理,可以看到涵盖了一些价值交付管理,比如说你的需求的共建,活动,测试用力怎么编写,测试用力的辩证、管理,需求管理,分析,需求验收频率,反馈的效率怎么样。包括你的敏捷的过程管理,价值流、仪式活动,交付计划,人员组织等等。第三大部分是敏捷组织的模式。包括敏捷的一些角色,哪些角色是在敏捷的这个职责里面。包括你的角色应该具备什么样的能力,包括角色协作,还有一个团队的结构,你的团队组成是怎么样的,规模多大,团队如何协作。
第三部分是持续交付。现在也是成熟的部分,涵盖了很多内容,包括你的配置管理,版本控制,变更,第二大部分在持续交互里面是持续集成,实践和持续集成。还有测试管理,代码质量公约有没有,检查方式怎样,反馈处理,自动化测试,测试怎么进行的,开发执行还是分析?还有不属于发布管理,部署方式、部署过程、部署质量,部署流水线,协作模式,流水线的过程,过程可视化如何。还有环境管理,环境是什么样的类型,环境如何构建,环境依赖和数据管理。测试数据和数据变更怎么做的,度量和反馈,度量指标有没有定义,包括度量驱动改进怎么做的。这是第三部分的持续交付的部分。
第四部分是技术运营。可能看不太清,就是它包括了一些比如说你的监控管理,刚才说到的监控管理,事件管理,变更管理,流程协作、用户体验系统,运营一体化平台,在这个标准里面都有涵盖。后续的话我们公布的时候把图片再放大一点,让大家看的更清楚一点,这是技术运营的基本内容。它内容比较多,我不一一细说。
第五部分是应用设计。包括了应用接口、应用性能、应用扩展、故障处理等内容。
还有安全风险管理,总体风险,开发过程中的风险,交付过程中的风险,技术运营过程中的安全都有涵盖。
第七部分是组织结构。组织形态、文化塑造、人员技能、创新管理、变革管理都有涉及。这里标准实力,现在能力成熟度模型分为五级,右边是标准的事例。
编写成员所在的单位,有中国信通院、产业联盟、高效运维社区、DevOps时代、中国银行、BAT、京东、中国移动、电信、华为、携程、用友等等都有参与。我们看到参与成员单位比较庞大。
这些是核心的贡献者,总体架构的,敏捷开发管理的,有移动的,平安科技等等。有持续交付,有技术运营的。我们知道技术运营是非常庞大的,所以编写核心的专家也非常多。应用设计的有阿里、京东、用友的专家。还有安全的专家,万达的。组织结构是百度的专家担任的组长。
这个是两家参评的现场照片。一个是中国银行软件中心,一个是中国移动的浙江公司参与的评估。它们两家都通过了研发运营一体化能力成熟度模型第三部分第三级的一个成熟度的评估。
我们看一下标准示例,通过我们的评估和科学的算法可以发现,在这个表中很明显看到你自己在持续交付的过程中,你的这个能力的一个百分比,你可能一块配置管理做做的比较好或者是比较差,或者你的环境做的好还是差,在这个表里一目了然,你知道自己的问题出在哪里,哪些问题需要改进,包括我们在后续的评估报告中,有专门的专家输出,给很中肯的建议,你自己今后的改进的方向和目标在哪里。
这是流程介绍,右边有一个征求意见稿,感兴趣可以下载。
这是一个评估团队。运维带来了一些挑战和机遇,带来四方面的转型:技术转型、模式转型、定位转型、体系等等。可以看到它的趋势就是趋势一比如说智能化、自动化、可视化可能是未来三大趋势。第二是BSM、APM会迅速崛起。第三是AlOps,将是运维转向高级发展的一个路径。
简单介绍一下什么是AlOps。AlOps是基于算法的IT运维,也是现在新定义的一个类别,源于ITOA,将现在的算法用于自动化服务,为了解放和进一步运维工作而产生。为什么要用AlOps?它为什么成为大家的首选,有以下的原因。第一个就是数字化转型,第二是智能DevOps。第三是智能部署,第四是减少故障,更快的故障恢复时间,更大的可见度,告警通知,原因分析,数据驱动,不断增加价值。右边是一个示意图,我把这个ITOA和AlOps做了一个对比,可以看一下。AlOps是由ITOA演变而来,能处理网络状况的实时数据。
看一下DevOps的未来和AlOps的未来。DevOps是先进的方法落地实践的,它是文化实践工具的一个集合,能快速交付应用和服务,用敏捷的方法实现开放部署,监控自服务的解决方案,是一个整体的一个考虑。AlOps是强调更多的是这种增强级,IT运维平台的增强级,为了消除人工错误,节省时间,自动的识别和响应一些事件。包括组建比如说大数据和机器学习,也可以为运维团队输出有用的数据分析,供运维团队使用。
讲一下进展。目前我们前面说到的运维工作组,现在完成了很多项标准工作,第八部分评估方法和第九部分的系统和工具是正在编制当中。还有两项,智能化运维正在申请当中。也很欣喜的是,现在我们的DevOps标准也输出给ITU,就是国际电信联盟作为国际标准,我们也是7月份刚刚立项成功,也希望后面如果您也想为云计算或者是DevOps标准,AlOps标准也好,你想为中国的标准化尽一份力量也欢迎你加入我们的标准讨论成为一种一员,感兴趣的话可以会后联系我。今天的演讲内容就这么多,谢谢大家。