大家好,我来自上汽集团,今天我主要想跟大家一起回顾和展望上汽云计算中心,这几年走过来云计算道路,从五个方面跟大家介绍。第一是云计算,上汽的云计算是什么样的状态。包括我们为什么要做云计算以及我们在云计算当中我们到底做了什么。第二我们会分享一下大概上汽云计算的结构,以及我们当中遇到的各种技术挑战。最终我们想讲一下我们在云计算当中其实回顾看到我们不是在做云,我们跟大家一起共同建设开源和云的生态。
大家可以看一下上汽云计算中心2015年10月份启动,2016年我们正式上线,到今年5月份我们计划将进行一次大的版本迭代。我们主要的目标是支持我们上汽整个云计算中心的互联网+应用以及我们上面IOT应用,包括车联网以及下属企业各种创新及IOT以及互联网+应用,2016年我们完成500台物理服务器左右,2000个OS以及1PB的分布式存储。
2017年支持50万辆以上互联网应用,最近可以看到我们现在上汽跟阿里合作的互联网汽车,包括正在远程支持2017年上海汽车车展互联网现场。以及乘用车、商用车、C2B定制化车型以及远程订购和电商采购的电子营销业务。计划2017-2018年将会建立两地三中心,大约是一万个操作系统左右的规模。我们整体来讲基本是以支持上汽集团互联网+和IOT两类应用的云计算平台。
下面我们可以看一下我们大致的结构,这个结构基本上脱胎于我们Openstack的结构。我们也做了一部分的改动更多是探讨的我们讲云计算,我们开元的平台包括Openstack平台,怎么在企业当中真正落地,在企业中更好的使用。包括企业正常的流程和企业展望新的流程当中。我们左侧分成三块,左侧是一个比较“传统”的Openstack的结构,硬件结构以及上面的调度层。中间这一层是我们主要的功能,有一些功能包括一些新的功能我们在今年上半年都开始上线。包括自动编排功能,某种角度来讲大家其实现在后面会去讲到都在谈IaaS和PaaS和VMware和容器之间的关系。我们也做了一些思考,我们在这里后面会去讲。
最右侧这边的结构是什么?右侧的结构是我们在开源的Linux生态环境,可以看到我们会有开源的监控解决方案以及自动化的一些软件。这些都是基于开源,我们在新兴领域基本上在推动整个业务的变革以及我们的平台变革,我们可以在整个上汽的云计算平台我们都在推动整个业务,包括业务走向分布式以及推动我们的OS的变革,包括我们整个生态的变革以及应用开发的变革。
这个图大家非常熟悉,我们只是把最普通的图稍微画了一下。只想表达一个意思,我们是最通用的。任何X86都可以用,我们不会去选择。这个图上可以看到我们上汽在云计算中心大量使用国内华为交换机以及我们大量X86服务器,并且这些X86服务器我们是使用最通用的X86服务器,对品牌和各种特性要求并不高。后端我们可以看到在上面提供的服务,这个图上来看提供的服务相对来说这层比较丰富,传统和非传统都提供了。我们大量推行企业在内部应用变革,包括业务层,包括OS层,包括平台层。大量使用开源软件和大量使用Linux和大量使用合作开发的模式。
这是一张我们整个上汽云计算中心逻辑的解构图,大家可以看一下下端我们主要的生产环境,最重的生产环境是在Openstack架构下,这是Openstack标准的模式。我们有控制节点、网络结点以及计算节点包括我们的调度节点。上方在Openstack平台上我们使用了主要是以在开源路线上的扩展的模式。这种模式我们遵循我们开源发展原则,在这个原则当中尽自己努力和贡献自己力量。跟开源一起不断往前走,不走偏离,这是我们在上汽云计算中心当前一个最主要的原则。
前面其实大家讲了很多,前面这几个图大家到处都可以看到。后面我们讲讲在这个建设当中包括我们建设到现在,我们看到的包括我们遇到一些事儿,包括遇到一些坑,大家是做技术的同事跟我们稍微回顾一下。
一个是我们在建设当中,前面大家可以看到我们整个项目建设时间还是比较快的,我们从定义开始做,大概在2015年下旬我们开始定义做这件事,真正上线在中旬。第一批提供出来平台服务,首先部署就遇到很多问题。比如可以看到多品牌多配置,云平台概念无论是Openstack技术角度来讲比较复杂。这里看到多品牌、多配置不同的结构,多指令集,上线频率高,部署数量多。大家做云在企业制造业做云把有一种感受就是变化,我们在传统行业谈容量管理,预估管理,这里酒席变化,怎么适应变化,那就做吧。我们通过团队协作,我们把团队柔在一起工作,而不是团队分成一个个角色。硬件配置一些模块,云平台自身自动部署实现快速建设。我们快速建设是批量进行,这样就可以达到比较快速的构建云平台以及快速无缝横向扩展云平台。
云平台构建好了我们开始投入计算,大家都说云计算计算什么?我们提供辅助资源,提供服务,这些可以看到遇到挑战又来了。上汽还是一个做汽车行业,但还是比较传统,应用也是比较传统,应用要改,我们平台也要改。怎么改?应用类型很多,计算密集型,计算密集型,内存密集型,IO密集型,谁说?不是应用说,是我们说,更快更精确发现和寻找这些应用特征,为这些应用提供不同有差异特征我们的集群。看到很多高可用,一个企业对高可用看的比较重,高可用如何做?在走向云平台以后,大家对一台物理机宕机大家会更关心,怎么去多。我们多种应用匹配多种系统的配置规则,更多在虚拟化层包括容器层跟底层有千丝万缕关联,任何一个参数,任何一个细节都可能造成很大的影响。我们也是跟平台跟应用在一起去分组,超分,包括密度以及内核标准化以及内核一些特定制化,再对亲和和反亲和调度进行优化,再增加一些高级功能,把这些功能跟特征关联起来,实现我们的计算。
做云当中,我们经常感觉到早晨最后讲大合的时候谈到网络,我个人也是网络工程师出身,网络做起来就知道在云平台当中最难就是网络。有多集群网络规划,大家如何去沟通以及如何分配以及具有网络特征应用或平台对网络一些特殊需求。还有我们一些安全,我们也是一样。因为这点就是我们每个人来到这里,大家开源带来好处就是可以把知识共享出来,我们可以和很多兄弟姐妹找到很多解决方案,我们也是这样。我们跟我们网络也可以遵循他们的VLAN规划,可以共同探讨VLAN分配,包括Neutron不足。实行双层NAT技术,病人扩展一些Openstack默认协议,提高整个网络适配性以及网络性能。
存储这里基本使用Ceph是行业内主流的技术,我们也遇到一些坑,可以看到有些IO性能需求的差异,大家其实去租一台云主机没有几个人想我要哪一种,计算密集型、存储密集型还是IO密集型?那就上去,有同志告诉你应该使用哪一种。存储当中我们遇到这样的情况,应用系统上线之后,部署当中我们发现它的特征以及共同去优化它,以及包括我们对一些存储池的优化。前期我们会比较理想化,我们会把一些存储池人为定义成某些池,人为指定一些应用。我们经历一段时间回顾来看,其实这样似乎我们也可以做的更好一点。我们也做了很多事,把平衡的参数还有横向扩容或者故障处理参数进行优化,让软件定义存储变得那么稍微完美一些。
云计算过程中,讲云计算讲到这里讲运营。云计算可以走的很快,我们又不敢走的很快。我们应该走的很快回头看自己的根基会不会再稳,我们在运营这块投入很大力量,云平台这里我们会有人员专门跟运维对接,我们运维也同样有专长做云计算的同学。我们应用系统和云平台确实是一个紧耦合状态。对出现一些故障,一些波动很难定位。可以看到一些大规模的扩容,这些窗口,云平台一些比较重的应用,大家对性能包括对窗口其实非常敏感,我们也是这样。我们一开始对窗口也非常的敏感,大家都喊很多IOT,IOT几乎没有窗口。我们讲在运营当中一个是监控、巡检是比较传统的方法,我们会用另外一种技术来实现或者来解释它。然后开发容量,前面讲的没有容量,我们还需要容量来考虑。集成的监控和巡检一些自动化的事情。
开源当中,无论是开源还是闭源有一个东西绕不掉,就是Bug。其实大家都在讲开源很好,云很美,Bug一定有,我们也遇到,Bug的解决方法就是这些架构师的方法,就是用技术上或者是用一些工程的方法,或者用一些可以规避的方法去绕过去或者是接受这个Bug,上应用不受任何的干扰。
下面讲就是安全篇,上了云平台之后,安全问题也是会拿到桌面来讲。因为现在很多安全,包括安全审计体系都是针对物理或者一个垂直应用架构一些安全的标准。走到这里我们也遇到了操作系统各种层的漏洞以及网络安全以及应用安全包括备份安全。这块我们现在走的路也跟大家都差不多,一个是身份授权,包括我们对互联网入口的是否前置也一直在谈,最近我们跟一些公有云谈混合云的方式。将数据中心变成核心数据处理工厂,让数据采集点到外面来。
我们讲到云计算有一点绕不掉,大家今天在这个会场上,前面看的都是Openstack,我们讲是做什么?什么样的新技术我们走什么,容器这块我们从去年下半年开始准备做这件事,容器这块我们也调研了当前的一些容器的一些技术,包括容器现在各有特点,包括容器在什么样的软件层次或者什么样利用场景使用容器,客观来讲我们内部讨论非常激烈,我们实际上还是一样,我们考虑从我们现在云平台来讲,提供稳定可靠和高性能跟容器运行环境的灵活接口。因为现在我们还是为秩序集成提供运行基础,并且我们也将希望能从云平台集成容器实现更多多层次的服务。
我们后面都是细节了,容器当中最近也在讨论达到一点共识,怎么样的企业应用和什么样的服务适合容器,什么样的服务适合使用虚拟机,业界没有什么定论。我们达到一点小的共识,三个纬度可以看一下,第一可以看一下用户纬度,用户在一定层次上接受容器,还有一些用户能力比较弱,只会用OS,能力非常高可以自建容器平台,他们更关注是OS,这是用户视角。第二视角本身企业应用视角,可以看一下有些企业应用已经跟着我们一起走向微服务化,走向容器是不错的方法。有些是垂直性,跟OS有非常大的紧密绑定关系,我们还是可以推荐他暂时使用OS的操作方式。第三个视角本身软件自身的特性,大家都可以知道容器上其实都可以做,究竟推哪种?最简单可以看到持久化和非持久化,本身这个软件达到什么程度?我们现在的软件层次达到跟容器紧耦合的状态,也比较适合选择容器。有一些跟OS资源绑定的软件,大量提供数据库服务,短期内不会走向容器。
我们看一下发展篇,来源于从Openstack走出来的,我们现在其实在整个开源方向继续往前走。我们可以看一下遵循整个是开源的原则,我们整个操作系统包括整个云平台系统都是以Openstack,包括开源基础作为研发和相应版本迭代。并且我们原则也是基于开源原则,不过多自定修改,不远离开源原则。2.0版本增加一些组件,在企业内或者公司内这些组建都有需求,我们有一些编排,包括我们会有一些网络上的SDN改动,SDN的发展。我们计划是在今年年底会走向3.0,更多走向一些裸机管理。以及我们会对容器化的支持,现在的视角来看我们认为云平台对我们来说更多是调度,调度虚拟化是先有两分制,一个是Openstack,一个是容器。
下面很多都是开源生态,整个过程当中我们理解到云计算不是作为一个东西,云计算不是产品,我们做的也不是产品,而是生态。这个图是示意图,我们想说一件事,大家如果要去做云计算中心,我们是上汽云计算中心,我们如果去做云计算中心,百尺竿头第一步有可能把小的生态做出来。平台服务,比如我们一个平台服务,一个运维服务,一个基本性服务以及一部分的数据中心、云计算中心级的应用服务。这些服务可以看到平台服务,虚拟化的操作系统。容器,软件定义存储,软件定义网络,软件定义安全,这可能是最基本。大家经常会讲Openstack,大家讲的更多就是这个平台服务。光有平台服务我们可能如果是在企业或者说拿出去用,可能还是有一点点欠缺,总有一点点缺失或者一点点遗憾。这时候就会有同事告诉你还要装DNS,时间,安装员还有自动部署、代理服务N多的轻量型,数据中心不可或缺的服务。我们给云计算中心给自己和租户使用。上汽自己也有开发团队,自己开发中心,开发中心会提供看到持续级的开发服务,无论是开发部署测试以及发布运维,我们这些服务不仅仅我们是对用户提供服务,我想表现不仅仅是针对我们用户提供服务,我们本身对自己也要提供服务,我们的软件也要管理。同样可以看到右上角运维服务,云计算往前一走,都会变成我们一个思考了。前面大家缓一缓,一旦往前走,大批量资源上来就缓不了了。包括我们应用性能监控,应用分析,还有一些自动化日志分析以及服务管理,这些服务可以让云计算活的更好更健康。
右下角我们也会有一些服务,将来有可能右下角的服务会越来越多,我们现在已经在做了,这些服务是一些开源的服务,轻量级的应用服务,有可能将来慢慢变大,有可能将来服务用户。第一点他一定服务我们自己,这些服务跟我们平台服务包括运维服务结合在一起的话,可以看到我们就成了一个云,是一朵小小的云,这些云扩大之后就会越来越大。这里想表现一点一个云不是一个简简单单的虚拟化或者只是提供用户服务,而是有很多模块组成。今天这个时代很好,开源软件都可以找到,用的很多用的很好,我们是这样做的。
未来展望这个图画的很早,当时也没想好。我们现在做的云上汽这个云企业走出来,向企业一个走向混合,第二走向行业,往上是私有云,将来是什么?我想没有人知道,我也不知道。右侧也会出现一些云的延伸的一些服务和应用,这些应用将来会不会成长,我也不知道。再上面承担当然在上面承担上汽的应用,有传统,有非传统,这些应用如何适应云。在这个云上做的不仅仅是迁移,也许如果做我们以前做云计算可能更多是如何应用迁移。我们在上汽做云不仅仅是迁移,还有一个工作我们在引领包括推动整个企业应用的改造,这点很可能上云是第一步。正是由于这样,企业云发展更快,也许会发展更完美一些。
最后一个其实我只是画个图,也没太想好,今天整个大会都是以开源为目标的图。我们也讲一下在这个过程中刚才讲了这么多技术开源,开源代表什么?开源代表我们更多的分享,大家集中努力做事。举个简单例子,我们在团队原来我们可能都是一个个小隔间工作,在云计算中心团队不是这样,大家坐在一起,为共同目标做,互相组合,大家是互相信任,这些来源开源,来源于团队合作。我们在云建设当中,整个时间蛮紧,这个时间当中我们在大量使用很多时间也在分享。一个分享我们会跟我们团队分享,还有我们会跟行业内分享,还有我们会跟更多的技术,因为这些技术人员,有些人我们也不认识,可能就是求助。他们会告诉我们,也会帮助我们,同样我们也会帮助大家。
还有生态,前面那个图讲的是生态。我们遵循一种学习就是一种自由,协同包括共享和开放。包括整个上汽的源码都是开放。企业真正云计算在企业当中给云带来什么?大家经常讲IT变革,现在看到云计算,云平台。第二看到人工智能,比较明确在变化。这块开源对企业来说一些战略领域变化,组织理念也在变化。像上汽云计算中心是非常扁平化的组织结构,扁平到整个集团IT里只有一个领导,剩下都是作战部队,会有非常多的作战部队,我们就是这样。整个过程当中就文化的人才,人力物力都是我们在上汽过程当中所过来的。
我再地下四听了两天的会,我最后写了几个不知道是不是有意义,我们在这么多云计算,到底获得什么。我们在上汽整个云计算做完了以后,我们个人没有获得太多价值,就是集团产生价值。大家知道互联网汽车,上汽和阿里合作,整个互联网汽车整个平台就是在我们云计算建设,也在上面运行。荣威投放市场,去年正式投放市场之后每月销售量3万,增量144%,被评为2016年增长最快的品牌,就是荣威这个品牌。我们刚才讲的在云计算的过程中,我们还有一个体会,我个人体会前面我听那么多会,大家都在谈怎么规划,怎么考虑架构,怎么考虑未来。明天都说不清楚,更别说未来了。我引用一句话混乱才是互联网的常态,万事成竹在胸,只能说明你的速度不够快。
非常幸运我们今天在开源创造未来的路上,我们上汽云计算中心跟大家一样,我们有好的汽车,好的软件,好的云计算团队,我们为了共同的目标也跟大家一起一样,为共同目标日以继夜工作。我们也希望跟大家一起在开源领域中一起跟大家一起往上走,谢谢大家。