很高兴来到这个会场跟大家分享我们企业在云化2.0的实践经验,这场分享我以技术的名义来一场真诚的分享。伴随着IT新技术的发展,像虚拟化、云计算和大数据对大家来说已经不再陌生了。在企业里面信息云化实施的时候,各种新的技术在优势显现的同时,其实我们也发现随之而来带来的问题也比较多。有的时候我们反而感觉上了云之后,我们面临的问题反而越来越多。有时候我们没有感觉到轻松反而更累了。问题出现在哪儿?我们IT是变得简单还是复杂了。我们的思维是否还禁锢在传统的IT和传统的固化模式里面。下面我这片子将为您展示我们在云化过程当中的思考与实践。
我的分享分为三个部分,第一个就是企业云化演进的阶段分析。第二是我们在云化2.0面临问题与思考以及我们的实践。第三是企业云化的未来展望。
我们看一下云计算,云计算其实从2006年出现到现在已经经历了大概10余年的时间,最早大家知道06年谷歌有一个101计划正式推出云的概念,当时是谷歌的克里斯朵夫(音译)向当时CEO斯密特提出自己的云计算的想法,得到了斯密特的认可,谷歌推出101,正式有了云的概念。我们后来看到KVM这种虚拟化是在07年进入到了Linux内核,我们又看到LXC是在2008年就发布了第一版,大家看到现在的容器比较火,最早也是源于LXC。HyperV,微软虚拟化是在08年发布。紧接着VMware2009年推出Vsphere。我们再看到CloudStack于2010年开源,这个也是咱们现在开源的一种。当然现在明显大家感觉势头没有Openstack火,Openstack是2010年由NASA和Rackspace发起。在这个时候,其实大家看到中国企业的市场,其实大家对于云还没有是完全的一种新的认识。大家可以看当时的报道,2011年的时候李彦宏说云计算是新瓶装旧酒,当时腾讯总裁说云计算实现像水电一样的基础设施至少上百年。当时马云说阿里如果不做云计算会死掉,但是我们现在看阿里云的发展在国内已经占到了云计算市场31%,成为中国的领军企业。这种发展趋势和我们对云计算认识直接决定你在云计算市场发展的地位和你发展的前景。
技术落地期,从2010-2015年,云计算得到了飞速的发展。私有云开始兴起。中油2012年底提出要搞云计算,2013年正式起步云计算。现在我们规模已经达到了将近15000台虚拟机,5000台物理机的规模。混合云这时候风起云涌。第四个特点云端融合是一种新的趋势,看现在的移动化的互联网发展也是非常的迅猛,Openstack得到了广泛应用和推广,很多云计算创新企业大部分也就是带这个时候开始起来的。像九州云和其他创新企业,大部分都是在这个时候开始起步。软件定义成为共识,大家觉得都应该通过软件的方式能够更好把硬件管理起来,实现效率最佳化,实现资源利用的大化。
我们看未来十年,从2016-2015年,这个期间又有什么样的特点?这期间大家发现国家出台了很多相应的一些文件。无论是习大大在一些会议上说,还包括最近出了云计算三年行动发展纲要都对这个事情给予了相当高的重视。第一开源技术生态将会成为行业技术发展的一种重要力量,云计算进入了一个新的繁荣发展期。第二,基本上现在大家都已经认可云了,很多单位和企业已经有了云的基础设施,这时候有一个重要的特点就是由以前的基础设施为主转向支撑云的应用和服务为主这样一个主要的变化特点。第三现在的企业是云化的主角,行业云将成为云计算的主战场。你从什么样趋势可以看出来?大家看到现在很多以前搞公有云,像阿里云,AWS,再像其他一些有云都在向传统企业进军,因为传统企业是未来云化的主角。他现在在云方面的投入将会一年比一年多,而且远远比中小企业投入要更多。第四个特点就是人机物融合,而且万物互联时代到来。这样的时代云计算成为一种重要的基础,而大数据是一种提供重要的佐料。我们人工智能是建立在云计算和大数据这样的基础之上。
再来看企业云化演进的阶段分析,在我们从2013年开始建立自己的私有云到现在已经走过了三年,我们对过去三年用了六个字总结,就是由分散到集中再到集成,在以往是分散的。不管是在以前的能源行业还是在以前的制造业业务系统都是分散在各个部门,由不同的部门来进行主管你的业务系统。到了云之后,企业是强制各个业务系统都要上到云之上来,这个时候是实现了一种简单的集中。集中之后,还有一个必须要走的路就是要集成,因为你的各个系统都上了云之后,怎么能够在云的大环境下能够让它更好的运行实现最佳的效率。你要把它进行统一调度,统一管理,这就必须面临一个集成。包括你机房的集成,IT设备的集成。大家看我们把服务器收归到一块实现计算资源统一管理,把存储设备收归到一块实现存储资源的统一管理。这些设备集成之后,我们在上来建立了自己的云平台,进一步把下面的各种设备,各种资源池统一进行纳管。再往上面就要把企业内部的一些计费系统、视频会议系统还有其他一些可视化运维,包括一些数据完全集成起来。这叫我们的CT能力的集成。再往上走就是业务平台集成,统一门户、虚拟桌面、OA、ERP、CRM和HR系统都要集成在整个云平台之上,大致你回顾一下你的企业云化之路也是走过这三个阶段,从分散、集中到集成。
在云化1.0里面,我们思考经过讨论总结了四点。第一个云化1.0这三年来我们到底做了一些什么事。第一点就是统一规划,我们对软硬件资源实现了统一规划。企业的IT实现了高效管理和资源整合。在以往他各个业务部门都可以报自己的需求,我要采购多少服务器,采购多少存储。往往他的需求都是超量,他的设备存在大量浪费。某的业务系统一下买了50台、100台服务器,每个服务器利用率只有20%甚至10%以下。对于企业来说造成了巨大的浪费。在云上最主要一点是实现统一规划,第二点是按需分配,我们按照虚拟化的技术,通过云平台的智能调度和均衡算法,我们按需分配。你这个业务系统需要多少资源我给你分配多少。提高资源整体利用率,实现资源价值大化。我这个存储可以分给若干业务系统,大家可以合理规划自己的存储,云上统一监管你的资源使用率。第三点互联互通是非常重要一点,各个业务系统在云里面他们之间企业的业务系统之间都是有互相的联系,包括有的是前偶尔,有的是松耦合,都有很大的联系。这时候资源实现互联互通之后,就为企业今后实现大数据和应用的集成打下了良好的基础。第四点就是要统一管理,我们看到很多包括参加其他的会议,听到很多嘉宾的分享,做什么事?实现统一管理,统一监控,统一调度链,统一你的流程和事件管理平台,统一你业务的服务。这个云上数据的统一管理,为企业的数据备份和容灾也提供了基础。也更加适合我们管理和扩展的要求。云化1.0主要就是这四点。
未来云化2.0,企业下一步将要实现什么?绿色运营—数据智能—开放架构。为什么要提绿色运营?大家知道数据中心每年IT基础设施我们就不说别的,我们就说它的电,这个电非常大的一个消耗,一台服务器平均一年制冷+用电费用一年需要一万块钱。你有五千台,就是五千万,这是多么大的一笔开支。第二是数据智能,你的IT与DT业务平台集成,机房数据系统集成,业务数据分析系统,大数据分析系统数据集成。都需要你做数据的智能分析更好使我们的业务系统最优化运行在我的云平台之上。企业级云平台要求你什么?要有很高的扩展性,药业很高的安全性,为什么企业要建私有云,因为安全性相比你的自主可控要更加重要。所以很多大型企业必须要建自己的私有云,而不是把自己的业务全部放在公有云上。
另外一点开放兼容,开源东西非常多,技术发展也非常快。企业以前用的传统商业软件反而进步比较慢。现在很多传统企业积极拥抱开源和走向开源,开放架构也很重要。大致你来看企业云化2.0主要就是这三个方向。
我们看2.0面临的问题和思考,第一是绿色运营,绿色运营现在大家知道环保是一个非常重要的课题,看国家重要很多领导人的讲话都提到了绿色发展和绿色运营。在未来几年成本压力以及法规遵从以及社会企业责任推动下,企业IT必定走向节能减排的行列。而且还强调去炭化,去煤炭,今后走向清洁能源和走向太阳能。你看到能源企业面临压力非常大。服务器虚拟化前后的耗电也也明显的区分,服务器消耗额定功率一般是50-67%的电能。空闲服务器也要消耗30-40%的电能,这都是很大的开支。
我们看某数据中心用电量统计和相应的PUE。7、8月在比较炎热的季节可以看到它的PUE值比较高的。1.76、1.64,到9、10月向下降,1、12月比较冷的时候,PUE值是1.35到1.33。平均每天用电量可以看到基本是一万多度。对企业来说是很大的开支。
业界探索有集装箱式的数据中心,还有微软的海底数据中心,包括Facebook在北极圈建立自己的数据中心。业界国内游阿里在千岛湖搞水冷数据中心。最近前期我们看到在微信朋友圈里面转的比较多的阿里的浸没液冷服务器集群,PUE值可以逼近极限,1.0。这是非常好的探索,这些能够圆满实现,对数据中心节能来说是很大的福音。
企业级的PaaS云平台,企业级的云平台里面,我画了立体图,可以看到以最下面的计算、网络、存储到了上面这一层你要实现你的网络管理系统、计算管理系统和存储管理系统。云平台这块不管是计算网络和存储,你在建立虚机的过程当中它是统一服务的过程。你建立虚机的时候分配网络资源,这些都是一体化一步到位,讲师讲我们的云可以一步上云,前期把这些资源做好了,一步上云是可以实现的。对传统企业来说你的PaaS平台设计需要什么功能?云化的关键点是什么?上云如何进行改造,都是你在企业云化过程当中必须要思考的问题。一种平台是否可以解决所有运用,有的是用VMware商业平台,有了Openstack之后,怎么把两种平台进行对接和交互。这里面临很多问题需要我们去思考。
对企业来说你的平台设计需要什么样的功能,我们经过这些年的实践总结出来一个总的原则你要根据业务需求和企业的使用场景来决定你的平台应该具有什么样的功能。很多时候你发现很多厂商在做产品的时候只想到自己的产品可能需要什么样的功能,他没有对企业的实际需求进行调研。你这样做出来的产品可能就不适合企业。大家知道有一个成语叫削足适履,你的产品能让企业削足适履吗?肯定是不可能的。你必须要按照企业的足进行量身定制来做你的产品,你的产品才能最佳匹配企业需求,才能获得企业付给你的价值。
上云的次序,先外围后核心。一般没有哪个企业敢把自己的核心系统先上云上,没有人敢贸然做。第二先新后旧,先把这两年新的业务系统可以考虑放到新的平台,包括Openstack这样的开源云平台。但是以前旧的业务系统,一些比较庞大的不管是技术人员还是领导,都不敢去拍板说直接把它拿来放到开源云平台上,企业要追求大的稳定性。
第三就是先小后大,先把小的系统放到云平台上,来验证你的运行效率,然后再逐渐把大的业务系统依赖关系比较复杂放到云平台上。你的功能要实现界面个性化,云平台的管理员和资源使用者包括业务的管理者,你看到界面应该是不一样的。我作为云平台管理者,我看到这里面所有业务系统占用的资源包括你的计算和存储,你作为业务系统的管理员,只能看到你这个业务占用的计算资源、网络资源和存储资源,这是完全不一样的界面。
第二要支持运行和开发中间件,很多业务有自己的中间件,你是否可以兼容。第三支持开源的工具和软件,为什么支持开源的工具和软件?很多业务系统使用开源的数据库,以前的商业业务系统比较多的使用Oracle。支持多租户的SAAS引擎,支持多种服务的开通能力。在云平台上都可以一键实现,统一监控、统一计费,统一用户权限分配。你感觉起来很简单,真正去做发现这里问题很多,不是你拿来一个产品就能完全匹配企业的需求。很多产品我们都拿过来测试,包括阿里专有云,包括华为云,我们都拿来我们机房进行测试。我们发现很多问题,像阿里的专有云,是依据阿里的业务发展起来,是作为一种技术输出,对外提供一种专有云的服务。但是他的专有云平台依据他的业务发展起来,他是依据能源业务发展起来的吗?不是。所以会发现他有很多不同点。这里不同点在这里不一一介绍,你真正测试过有很多,他的网络有吞吐限制,包括平台管理架构有很多虚机不可建,有很多问题。这些问题你看起来不是,他看起来不是问题,对我们企业的管理者来说,这些地方是问题。他不是完全适合我们的业务和我们的管理想法。
下面我们看一下VMware和Openstack对比,为什么我们尧趋对比这个东西?因为现在Openstack已经成为实施开源的云平台标准,很多传统企业大型企业都在积极拥抱Openstack,但是原有VMware的业务,运行在VMware上已经很稳定,包括业务系统的人都没有特别大的动力想要换到Openstack上面来,你怎么实现业务系统的迁移?不同云平台的迁移?我们需要做一个详细的测试和POC。经过这些测试和POC,我们得出以下的结论,第一个综合比较Openstack在设计方面七分,VMware九分,为什么这样说?VMware是一个商业产品,它的各个性能是经过这么多年企业不同虚拟化场景实现,VMware产品09年有了,到现在有8年时间。而Openstack真正的推出应用到企业里面才几年时间,最多也就三四年的时间。它经历场景考验肯定没有VMware多,VMware很多功能的设计是要超过Openstack的。第二是功能,功能上可以看到Openstack占6分,VMware9分,在使用场景上VMware和Openstack是持平。很多场景可以使用VMware,可以选择Openstack,这是完全没有问题。另外就是价值,从价值上看Openstack得了10分。怎么去看这个问题?Openstack是开源产品,它的各个组件更新和变化都比较快,它未来的生命力肯定是非常强的。从它的发展趋势和生命力上我们认为可以得10分,VMware是9分。功能看,我们看虚拟机生命周期管理非常重要,虚拟机从建立销毁中间有一系列的管理,生命周期管理。至少我们看一下VMware和Openstack都有。但是虚拟机高级特性,VMware会比较丰富一些,不管是它的HA的实现,DIS的实现等等都要好于Openstack,可以通过测试发现。Openstack的高级特性不能说没有,也有,但是比较少一些。包括虚拟机的高可用,你经过测试发现。动态资源管理VMware比较丰富,Openstack有,但是比较少。
最后我们从可靠性上来看Openstack是中,VMware是高。我们得出这些结论不是说随便画一个表格放在这里给大家看,我们经过大概三到四个月比较详细的POC测试才得出这个表,另外稳定性VMware比较高,Openstack的运维复杂度比较高。曾经有朋友做Openstack的迁移工作、升级工作,他当时跟我说一个消化,客户说升级我在两小时给你搞定,客户说两小时少了,我给你五小时。结果这个升级五小时都没做完,厂商花了10小时把升级做完了。大家知道Openstack升级和运维比较复杂,没有VMware简单。VMware的升级,大概只需要一个小时甚至半个小时升级完,但是Openstack的升级你半个小时能搞定吗?肯定搞不定。另外桌面云的支持Openstack一般,VMware比较好。使用成本Openstack是比较低。有时候也不低,你买商业产品,公司生产特别定制版也有比较高的费用。VMware主要是Lenss(音译)费用比较高,他每年Lenss(音译)费用上千万,几千万,这上面来看它的费用比较高。
云化的关键点主要是五点,第一个系统的弹性伸缩,你的业务不断的变化和发展,弹性伸缩相当重要,我们能够自由在线扩展。另外应用集群化部署,我们尽量能够做到分布式而不是集中式,你一旦集中式,你某个资源比如你的存储资源出现问题,你的应用就会大面积不可用。另外应用与数据分离,尽量不要捆绑在一起。数据分布式部署,我们现在都提分布式,不要把所有的业务系统都放在一个存储上,放在一个相应的区域之内,这样才能实现你的高可用。另外数据的平台化,你通过平台化之后,可以减少很多人工的不必要的错误。很多时候我们做运维很多人肉,然后自动化脚本,把脚本放到平台里由平台统一操作和调度,减少很多中间环节,使用起来非常快,非常方便。如何改造,将应用进行梳理,将不同应用分类,底层采用不同集群支撑。比如把业务分为计算密集型,IO密集型,同时综合考虑波峰波谷和业务特性根据这些来进行配置,你才能实现资源最合理的利用。
数据智能,我们经过一些部门专门的研究发现,最重要你要是能够合理采集到不同的数据源,包括内部和外部的。像外部公开来自于淘宝、京东、公司网站、社交媒体数据。内部你们自己的行为数据、运维数据等等,把这些数据都采集过来之后抽取放到一个知识库里面,最后把这些数据进行相应的建模,再根据你的业务需要来做相应的数据挖掘,最后把这些数据总结出来作为规律的认识作为价值的传递。这是将来云平台建立之后需要重点做的一步,你各个业务上了之后,数据业务要集中,数据集中之后很多还是层级。你怎么能够把数据资源调动起来,能够让它实现在流动过程当中,在动态过程当中能够实现资源最佳配比和优化利用。这里要通过一些数据分析软件来让数据更加具有智能,这也是今后大数据要发展的方向。
我们看到市面很多企业的大数据产品,基本就是前端展示和监控类和日志分析类,真正用到企业里面你发现没有特别好的产品,这一块还有很多技术点需要突破。
再有开放架构,兼容并蓄,软件定义,拥抱开源,联合创新,这是我们领导提出口号,我们跟开源企业积极合作。
架构云化2.0我们有几个思考跟大家分享一下,第一架构角度再思考突出问题,我们发现重点的问题就是产品堆积,缺乏架构设计。你建了云之后,不是简单把虚拟化,包括你监控这些东西堆积起来都放到云上就可以了,对你的业务和整个资源进行合理的架构设计。云衣服要有配比,上面穿什么,下面穿什么,鞋子穿什么,不是你随便穿就好看,它有一个合适的搭配。在云平台里面也是一样,我们买了很多产品,又买了VMware,买了这样那样的存储管理系统,我们发现这些商业产品都是各自按照厂商自己的想法设计。没有按照我们的需求来统一定制,我们也没有对他进行一个比较深的思考。我们在云化当中发现突出的问题,产品堆积,缺乏架构设计。如果有厂商你能够看到我们的问题,你设计的产品肯定就能获得企业用户的喜爱。
那些架构里面踩过的坑,第一是虚拟机的跨平台迁移。VMware的VSphere平台虚机跨平台迁移到KVM环境中,发现问题出现在哪些方面?像驱动,你在VMware里面很多驱动是专有,你把它放到Openstack平台里面会发现你的驱动完全是不适应的。你在VMware平台里面,在KVM平台里面跑不起来。另外快照,你把VMware里面虚机移到KVM环境快照丢失,网络环境不一样。VMware里面有分布式和虚拟交换机,把它移到Openstack环境里面会发现网络很多地址需要自己重新配。不是买一个虚机移过去就可以了。再一个是磁盘文件,VMware可以建多个磁盘文件,迁移到Openstack把相应磁盘文件合并,多个迁移过去非常慢,有时候会丢磁盘文件。像磁盘格式,像你的VMware是什么样的格式,你迁移过去因为你的磁盘不一样,很可能一下起不来。这些问题如果你意识不到,你做两种平台的融合中间会有很多问题你解决不了。
第二延时对于集群的影响,Rac的节点驱逐,OSD死掉有很多的问题,这里不说了。虚拟化大流量网络,巨型桢的开启。你在虚拟化的环境里,有时候为了提高效率,加强后端的效率需要改为9000,你不改你的测试效率和实际效率都会比较差。分布式的双活和容灾,Openstack的方案对于企业真正的双活和容灾相差较远,虚拟机上跑数据库,是否能跑数据库,我们经过很多探讨。
去O的思考,今天不在这说了。后面可以看我们的PPT。管理角度主要是关于CMDB的思考,CMDB在大型数据中心里面是非常重要,很多时候你需要对它资源有一个合理的定位和评估,在这个时候像很多企业里面做的CMDB很静止,你更新比较麻烦,很多都是手工。我们希望实现一种自动采集和动态更新,包括你的裸机、虚拟机和容器,资源调度和安排,能够很好的融合在云平台里面。
运维角度主要是自动化和标准化。开发角度主要是你的企业文化和流程再造,像DevOps在这阶段提的比较响,实际上它在传统企业里面不是一个热点,因为你DevOps不光是开发和运营之间相互融合过程,也要体现你流程和各种企业服务改造上面才能很好的把DevOps用起来。
安全角度信息安全和自主可控对传统企业来说是非常重要的强新需求,这里有典型事件不再一一说了,经常关注技术的人都会了解。近年网络隔离,还有炉石传说,还有AWS宕机事件,愚人节的北邮机房之火。
企业云化的总结三句话,不以解决问题为目的的系统都是伪装系统、耍流氓。第二搭建完善的企业IT系统需要多维度进行考量,绝非一蹴而就可以解决的事情。第三一种架构或一个云产品不能解决所有问题,你的产品都是有各自使用的场景。任何产品不可能解决一个企业所有的问题。
企业云化的未来展望,分享几张片子,大概思考一下我们企业对它们的认识。第一个是基础设施云计算进入商业应用关键阶段。云计算高可用、容器技术和云端融合是将来发展的方向。其二传统企业的数字化和智能化上升到国家层面。现在中央领导们都在一些重要的会议上强调加快信息技术的建设,推进互联网和实体经济的深度融合,加快传统企业的智能化和数字化。其三我看到一句话,当时感触非常深,跟大家分享。他说即使你什么错都没有,错就错在你太老了。因为现在技术发展太快,传统企业有时候跟不上形势有时候也会死的很惨。企业在这个时代的焦虑和尴尬,无疑来自我们正在经历各种商业革命和技术革命。过去不再成立,未来看不清晰。比被征服更为可怕是你不知道被谁征服。
时不我待,加强合作,提升能力。最近很多分享我们都看到大家强调一个认识IaaS公有云的机会已经结束,现在大量发展私有云。解决私有云技术能力是关键,面对一个行业的垂直领域现在还在探索阶段,我们抓住机遇,抓住企业的市场。
最后企业的未来是云计算+大数据+商业智能。最后我的结束语未来已来,预见才能遇见,悟到才能有道,谢谢。