中国IDC圈2016年9月6日报道,9月1日由工业和信息化部指导,中国信息通信研究院、中国通信标准化协会主办,数据中心联盟承办的“2016可信云大会”在京隆重召开。在可信云服务性能和运维论坛上,北京蓝汛通信技术有限责任公司云中心运维总经理张天石发表了题为“云时代自动化运维的探索”的演讲。以下是演讲全文:
北京蓝汛通信技术有限责任公司云中心运维总经理 张天石
大家下午好!其实刚刚汤总已经说了,现在在云服务行业都是实现基本自动化了,在这里我也是针对于自动化运维方面,做一下自己的简单的分享。下面开始我的分享,相信在座的各位有人对蓝汛有所了解,有些人不太了解,首先我先对蓝汛做一下简单介绍。
这幅图是蓝汛成立这么多年的缩略图,蓝汛成立于1998年,由于CDN业务为互联网所熟知,在2010年蓝汛挂牌美国纳斯达克,成为中国CDN行业在美国上市的第一家云服务提供商。到2016年蓝汛经历了十八年,十八年的专业服务经验,造就了蓝汛在中国CDN行业的领先地位,目前蓝汛主营业务有CDN、IDC、互联网交换中心个云计算。蓝汛从2008年开始从事IDC业务,并在2013年自行规划建设了第一个数据中心,这个数据中心目前是北京占地面积大的一个数据中心,在顺义天竺。蓝汛在2015年与荷兰互联网交换中心合作,规划在中国建设互联网交换中心,目前已有北上广三个阶段,也有用户在接入。蓝汛云是从2009年开始运营,一直专注于IaaS层面,蓝汛云是国内首批云服务提供商当中的一员,也是国内首批通过可信云认证的云服务提供商,截止到目前,蓝汛云共服务客户数量800余家,包括政企、游戏、电商等多个行业。这些客户的业务量是上千台服务器所支撑,如此规模的业务量,如果单由IT人员人工运营的话,会很费时费力,为了保证业务可持续性,蓝汛云也引入了自动化运维系统。
相信各位对自动化运维并不陌生,我还是先说一下什么是自动化,我举一个秋收玉米的例子,其实传统大家丰收的话,是靠人工一点一滴去割玉米、剥玉米等等经历几个过程之后,才会将玉米田里的玉米变成玉米粒,那有没有一些简单方法可以把这些事情更容易的实现呢,答案肯定是有的。玉米直收机,将玉米直接收割、剥皮、切碎、回填,极大地提高了玉米的收割效率。用互联网比较潮流的词叫一机式服务。在这张图里面我们能够看到,自动化带给行业的好处,同样自动化在运维也会有怎样的表现呢?这里我说一下传统IT人员的一些痛点,传统IT运维都是在IT故障发生以后,由运维人员采取相应措施,这种运维管理方式有时候让运维部门很头疼。首先是运维人员被动,效率低,二是缺乏一套高效运维机制,目前很多企业在IT运维管理过程当中,都缺少一些自动化管理模式,也没有明确的角色定义和责任划分,使得一些问题出现后,很难快速准确的找到根本原因。也不能及时的找到一些相应的人修复和处理,或者在问题转换以后,没有流程化的故障处理机制,而在处理的时候,也没有规范化的解决方案,也没有进行一些全面的分析。第三,缺乏高效的IT运维技术工具。随着信息化建设深入,企业IT系统也是日趋复杂,越聚越多的网络设备、服务器、中间件、运维系统,让IT人员很难从容应对,即使加班加点部署管理,也会因为出现一些设备故障,而导致业务的中断,严重影响了企业的正常运转。出现这些问题的原因,是由于企业缺乏高效IT运维工具,没有IT运维技术工具做支持的话,故障也很难得到准确及时的处理。现在的IT系统也是复杂度很高,已经要求IT运维必须能够实现数字化与自动化维护。那么什么是自动化运维呢?这边我是从网上找了一个比较官方的解释,自动化运维将静态设备结构转化为根据IT服务需求动态弹性响应的策略,这句话其实当时我的理解也是比较繁琐的。所以我不妨把这句话做了一个翻译,就是自动化运维是将多个可独立运行的模块,根据业务需求,从逻辑上组成一个业务系统的思路。在这句话里,我把模块与静态的设备结构做一个对等的组串,下面的业务需求和上面的IT服务需求,做一个对比,还有下面的动态弹性响应,对应组成一个业务系统。这样的话,对于自动化运维概念了解就比较简单了,从这句话上我们协调可以看到自动化运维的愿景,自动化运维的愿景就是如何让多个系统之间以最优的方式实现联动,这个联动的词相信在座也是比较了解,其实大家很多系统目前都是做到联动,包括可能是API等等一些策略。但自动化运维的目的,就是提升IT运维的质量,降低成本。就是刚刚汤总在整个演讲过程当中,也是一直在重复现在运维的自动化等等。其实通过自动化我们的运维一些工作上效率会提高很多,也就变相的提高了我们的质量,而且人员成本也会降低很多。
每个公司都有自己的自动化运维系统,也都是根据一些运维的工作流程去做的,我们这边既然说到运维的风险,我们就先了解一下运维体系的内容,这是蓝汛运维体系,包括内容、安全、运营、配置、建构、应用管理。接下来我们看一下蓝汛运维自动化架构,架构当中包含多个组成部分,每个部分都有自己的角色和功能。我来做一下简单的介绍,监控系统是整套自动化运维系统的开始,它从四个方面对整套系统做了监控,包括物理硬件、虚拟化业务、业务系统应用,调度系统。调度系统就是起了承上启下的作用,它有两个职责,一个是向数据库和自动化配置系统传递需求,二是向监控系统反馈需求,信息数据库中储存了一些与运维相关的信息,后面我们还有一些图例做解释。自动化配置系统,就是一个需求的执行过程,业务系统整套云业务所使用的底层应用系统和管理系统,信息展示系统是整套自动化运维的展示界面,展示的是所有与自动化运维系统相关的信息,包括用户的资源使用情况等等。下面是我们的监控系统图示,这是我们在监控过程中使用多的微信报警信息,报警信息内容是说某运营商的链路不可用,原因是端口为关闭状态。
这是信息数据库,这里面储存的是运维工作相关的信息,我举几个例子,像最左侧的图是所有数据中心的信息,包括数据中心的名字,以及它的地理位置,当然名字这一列都是根据业务和地点自定义的信息。中间的图是一个机架的信息,这里面大家看到的只是机架上我放置了哪些设备,以及设备的状态,比如绿色是代表设备正常运行的,红色代表的是设备是有问题的,有待运维去检查。当然还有一个界面没有展示出来,是说这个机架在数据中心的位置,包括楼层的具体位置。最右侧的是服务器的信息,大家也可以简单看到一些,包括它的位置、生产厂家、型号、序列号、配置、状态,也就是它在系统中运行是什么状态。既然说到自动化运维系统,那也有自动化运维工具,这里我们列举了一些大家熟悉的,也是大家用到的自动化工具。这幅图我们前几天有一个运维系统上线的服务器,这是我们对新上线的几台服务器部署的实例,这个图里面的内容是我们修改配置文件中的主题表。
下面说一下自动化运维的展望,自动化运维是策略,自动化运维系统是工具,有好的策略就有好的工具,所以可见工具在整个自动化运维系统的重要影响。我在想如果自动化运维如果有下面的这些功能的话,那我们及时作为一个运维人员,我们工作会有怎样的变化呢?第一,自动化修复功能。这个功能就是系统能够自我修复,能够实现这个功能,我觉得是有两种方式,分为主动和被动。主动方式其实就是系统能够自我检测,发现问题以后,能够实现自我修复。被动方式就是通过外部工具对我的系统进行监测,发现问题以后能够协助系统进行修复。实现了这种功能,我觉得我们的运维应该不能说是特别特别的比较闲,但是对于它在功能中至少会减少它的一部分工作量。第二是一键式自动化操作,这个功能很多企业可能会用到,我觉得需要一个条件,一个是企业产品种类比较多,二是产品之间会有相同点,三是同一个运维团队,会同时维护多个产品。我觉得只有满足这些条件,做这个功能才有意义,实现了这个功能,运维可以在同时操作几个系统,维护几个系统,这样我觉得也会简化它很大的一部分工作量。所以希望各位在将来能够打造属于自己业务的自动化运维系统,能够使IT工作真的可以做到一触即发,点一下OK就完成。也可以将我们的运维带到一个美丽的新世界,谢谢各位!