9月1日,由工业和信息化部指导,中国信息通信研究院、中国通信标准化协会主办,数据中心联盟承办的“2016可信云大会”在京隆重召开。在云计算超融合架构论坛上,青云QingCloud超融合产品总监廖洋发表了题为“青云QingCloud超融合系统实践”的演讲。
青云QingCloud超融合产品总监 廖洋
以下是演讲全文:
因为今天是可信云,我尽量不说虚的东西。青云是做技术的公司,业界对青云的评价都是技术非常强的公司。从我个人来说,我非常不喜欢超融合这个词,因为这个词过度包装了,包括云计算这个词也是过度包装了。大家想想超融合把计算、存储、网络融合在一起,大家看iPhone,上面计算、存储、网络也有,它是不是算超融合呢?
实际上这个名词并不新鲜,我记得IBM在1979年就实现了虚拟化的技术,从分布式存储系统来说,也早就有非常成熟的技术了。超融合是在2013年、2014年火起来的,包括大家刚才也分析了很多,联想朋友也分析了一下超融合架构的那张图,大家注意到没有,那个图增长点上谁在用,是谷歌、亚马逊这些大的厂商使用这些架构,那么他们为什么使用这个架构呢?我从我们的实践来谈一下。
首先我们公司是百分之百做研发的工作,我们要提供服务,实际上云计算提供的服务是取代传统的销售模式,我需要一个IT系统,我要买硬件,要有机房,要有管理人员,然后搭配成一个IDC这样才能提供服务。在云计算时代,亚马逊是全球的云计算领导者,它怎么提供服务呢?如果你需要一个IT系统,在网上申请一下就可以了。基于这样架构实现的话,对于我们搭建架构有什么要求?对任何一个客户去采用一个产品,他无非要考虑三件事,第一,这个能不能帮我解决问题。第二,能不能帮我省钱。对于云计算来说还有一个要求,就是能不能帮我赚钱。那么青云整个架构,从我们在三年前开始创业,从一家只有三个人的小公司,到正式青云上线的时候,公司所有人员都是技术人员,没有市场人员。
三年前我们公有云已经上线了,内测了半年时间,中间有一次大的修改,到那个时候我们是几十台服务器已经在公有云上线了,发展到现在,青云很有信心了,目前已经得到5万级企业应用了,在青云上更多是To B的公有云。在IDC方面自营和合营的已经有20个IDC了,如果在网站上看的话可能只能看到三四个,这是因为我们给客户注册的时候注册方式不同而已。比如你要在北京二区,现在北京二区已经满了,已经不可以再进行注册了。
我之所以讲这些,很重要的就是在于我们建设了如此大规模的公有云,在建设的时候经过了非常长时间的思考,我究竟采用什么架构,是传统存储机构还是服务器架构。我们研发的前身研究人员很多是在IBM实验室工作的,当时他们使用IT资源的时候就面临非常困难的问题,因为资源不够,只有这么多设备,这么多开发者需要硬件,这个时候就说你今天有哪些资源就上线,上线使用以后再部署它,出现问题以后再调整它。所以我们就想能不能有一个通用架构,弹性灵活的方式给上层应用提供统一的资源调度平台,实现到现在来看,当时做这件事情的时候,应该是十年前06年左右,那时候甚至还没有Openstack的概念。
要在现在通用的应用上实现灵活的应用,带给我们几个挑战,第一个挑战是虚拟化。当我们申请亚马逊的云服务、谷歌云服务、微软云服务、你会考虑到它用了哪家的虚拟机吗?如果我们买虚拟化软件,我们还要想买哪家的,但是做云服务的时候你不需要考虑这些,因为在现在云服务里面,你可能不是跑在VMware上的,所以在云计算里,首先好解决是虚拟化。所以青云在大多数研发方面,我们核心上选择一个开源软件最厉害部分,但是这些代码都是青云自己做的,所以我们现在的代码、管理计费、包括OS末米都是青云自己定制的,而不是利用开源实现的。
青云能够提供什么?青云最早提供公有云的时候就提供IaaS的服务,其中包含了主机、镜像,以及镜像迁移服务。第二层是基于IaaS上提供大数据的服务,数据库的服务,所有的目标都是要实现IT资源自动化,让用户会使用IT就行了,就像我买车一样,过去我们要知道怎么踩离合和修车,现在我们买车都是用自动挡,你根本不关心它到底怎么换挡,我们只是关心换挡是不是灵活。所以我们关注的也是性能、存储怎么样,根本不需要了解平台是怎么搭建的。我们关心的是业务交付数据多快,应用数据交付多快,所以机器上架是时间上可以调控的,我想超融合更多的解决问题是我怎么样简单的使用它。
青云提供的超融合服务,如果全是用超融合解决的,那是不可能的,因为使用超融合的时候,首先要考虑哪些东西可以放在超融合上,我谈到的超融合是类似超融合的架构方式,它的特点是存储和数据放一块,这种业务会颗粒分得很细,比如VDI。我们知道最早炒作超融合的时候就是VDI,因为它的业务模块非常小,都是放在不同的服务器小,每个VDI用户之间交互非常少。所以在青云内部,在使用上是分几层角色的,如果是一个小的用户,我们搭建私有云,我们的软件可以做到一个笔记本上交付给他,技术上完全可以实现,但是这么做是对用户的不负责任。
如果是一个特别小的用户,我们是可以实现把所有这些组件,全是模块化的,可以把组件装在同一个笔记本上,所以青云可以基于每个数据中心的规模,一般我们会以你的虚拟技术和网络技术。比如如果你的业务比较小,我们可以做负载均衡,网络功能和备份功能放在一块,这个是动态的过程。对于不太适合计算存储放在一块的业务,我们可以实现计算存储分离。针对能够放在一起的,我们可以做资源归属,放在同一个计算存储里面。就像前面大家讲到的软件定义的方式,其实做云计算里面,最重要的是要实现硬件和软件的结合,甚至我们可以定义的每个负载均衡器,每个虚拟网络控制器,它到底是独立跑,还是跟我们节点一起跑。那我们谈了这么多,我们怎么运维它。像我们北京二区,虚拟机数量少说也是百万级别的,那怎么运维它?我可以非常自豪的告诉大家,20个IDC情况下,我们运维人员不会超过十个人,我们把大量的工作交给谁呢?交给代码去实现,我们把它包装一下这个词语叫做机器人的自动化运维,实际上它就是自动化的脚本,它的故障处理都是通过软件实现的,这样就可以实现降低我们的运维成本,这个对公有云运维非常重要。
第二,我们硬件成本怎么降低?我们采用标准的服务器,我们有浪潮、华为、戴尔的服务器等等,我们我们说我们的软件只能跑在某个平台上,这对我们来说是非常糟糕的,所以整个架构都是非常弹性灵活的架构。
讲到超融合,我们把软件装在某一个硬件上,它就是以超融合的方式可以简单部署到用户的数据中心里面,这就是帮助用户怎么样简单的上云。其实在青云的概念里,我们不喜欢分公有云、私有云,之所以有公有云、私有云,完全是因为的用户习惯,可能你现在还不习惯于把你的业务放在公有云上,或者考虑到安全的问题,但是你如果想使用我们青云的话,可以找几台服务器,找到适合的标准,我们可以把软件部署在你的数据中心,因为青云和公有云使用相同代码。
为什么我们有超融合服务器呢?因为首先青云要降成本,它带给用户几点,第一,解决它的几个问题。刚刚大家谈到管理上的问题,我们怎么样实现高性能的问题和简化IT的问题。另外是我们简化你的运营成本,因为大量配置工作,容灾工作都不需要你考虑,像在青云上使用虚拟机的时候,根本不需要考虑是不是高可用。在成本方面,青云之所以在三年工作中有盈利,很大程度是在于我们对成本的节约。那怎么样节约成本?一种方法是满足你性能的同时节约成本,另外一种是分布式,我们研究了很多开源软件系统,像Openstack的系统,在青云最开始,我们在一些节点上试过,但是后来发现节点数量太大以后,六十多台以后,这种分布式系统就出现一个很大的问题,就是它在大规模服务的时候,会把一个故障从一个点扩展到整个面。
如果从一个点扩展的一个面好处是什么呢?好处是把硬盘的性能集中起来了,你可以得到高性能的盘。但是坏处是什么呢?一旦这个集群里面坏一个盘,上面所有性能都会受到影响。所以我们怎么做呢?一方面是控制故障率,让坏盘故障率降低到最低,同时我们做块存储,这样降低了开销。因为现在一般文件系统里,对它的磁盘利用率做得好的能到30%,青云很荣幸,能够把磁盘利用率做到百分之七八十,我们通过SAS硬盘,不需要SSD缓存,就已经能够提供跟SSD同级别的性能。大家可以想一下,三年前SSD成本几乎是现在SAS硬盘的十倍成本,它的成本现在已经得到大幅降低了,从每GB成本来讲,原来每GB成本是两三美金,现在已经降到0.4美分左右,到今天为止,SSD完全可以取代SAS盘。我们今年也会发布我们新的SSD盘,这个盘的架构是往另一个角度去优化的,就是我们的性能要适合SSD的介质,因为我们知道SSD会有写的寿命,还有满盘巨大寿命损耗的问题,我们怎么在新的系统里避免它,这一定是我们在研发时候要考虑到的。
这张图是我在去年7月22日用户大会讲过的一张图,现在我再拿类似的这个架构来讲,第一代超融合就是传统的IT厂商,实际上帮助用户实现快速上架,然后再集成各方面的VMware软件。实际上它本质上还是传统+存储+刀片这样的架构。第二代就是以现在大多数超融合厂商做的,他们做的更多是分布式系统,虚拟化再上面的网络虚拟化也加入了,这个在我们来看可能有点不好,因为对于用户来说过于复杂,对用户选择太多,因为给用户选择太多的话,会导致很多运维的问题。就像刚才联想分享到的时候,我要排除硬件问题、软件问题,在这个时候我们是不是还要排除VMware的问题,排除存储的问题等等,因为大家都会说自己没事。
那么青云是怎么做的呢?我们可以实现用您的服务器,再加上您喜欢的硬件、软件,这样我们可以把您在公有云上看到的功能,百分之百安装在您的服务器上,当您有一天拥有超融合的架构,感觉实在没有必要的时候,那这样的用户就成熟了。那我们就可以直接用公有云,因为如果一个用户虚拟机规模在50台左右,如果老板真的信任公有云,我不会搞一个小机房,找一些运维人员运维这些设备,因为这些问题公有云都可以解决。因为超融合是传统IT架构到云计算的过渡,它帮助用户知道什么样是云计算,真正到云计算那个认识高度上,相信很多成熟用户都会直接选择用公有云的方式实现,除非你有一些特别法规上严密的要求,比如银行,它不是不想把它的业务放在云上,而是法规要求它必须部署在IDC。我们业务也有这样的,核心业务放在自己数据中心里面,部署青云系统,然后面向互联网的应用,比如搞一些抢购之类的放在公有云上,因为它可以实现弹性。但是在私有云里根本无法实现弹性,因为你的硬件就这么多怎么弹性,这不大可能实现弹性,而公有云就可以实现这种弹性。
我们使用的技术就是KVM的,青云在上面做了一些优化,比如出现故障的时候怎么替换掉原来的故障节点,让它可以继续使用。这个架构的好处在于我们可以非常大的单一集群扩展得非常大。以北京二区为例,物理机上千台,如果你采用一个数形的管理架构,要进行弹性管理是很难的,所以青云最早是使用P2P的方式,来实现整个的扩展。在存储上我们提供多样化存储选择,块存储是最常用的,青云确实只有X86服务器和万兆网络,当你使用共享存储的时候,我们会开启一个服务器提供共享功能,其实就是把块存储提供给多台服务器使用。
第三个是对象存储,对象存储非常适合非结构化数据,比如我们有的用户做民间借贷的,名字叫借贷宝,它有什么需求呢?它有很多聊天记录以及图像信息,如果它存在块存储架构里面,它就面临问题,单个服务器存储容量是有限的,如果存储太多的话会导致性能不好,它说我的数据访问没有这么热,而且非常碎,每个头像只有几K,这个放在文件系统是一个挑战。青云在这个月我们会在公有云上正式开放对象存储,我们公测了将近一年,正式开放给公有云用户使用。在私有云领域已经有很多企业在使用它了,以借贷宝为例他们存了大概三十页的小文件,他们也是基于X86服务器,青云的软件会让这些服务器部署的时候,下载对象存储的模块,这样它就成为了对象存储的节点了,当它不需要对象存储的话,也会动态的变换它的角色。
我们怎么实现隔离?如果你是一个用户,私有云里你会认为这个不重要,因为都是云的企业,只是不同部门在使用。但是在公有云上,我们都是不同企业,不同部门使用,你肯定不希望自己的网络被别的厂商看到。因为那个时候我们在云服务厂商里面只能选虚拟机和存储。青云在三年前我们开放我们的公有云,应该是国内第一家在上面让你选路由器、交换机,选你自己的VPC环境,在上面可以看到我们有自己的路由器,都是属于每个用户自己的路由器交换机,并且可以实现百分之百的数据隔离。可能我们跟硬件厂商方案不太一样,硬件厂商都是希望我们隔离在交换机上硬件实现的,当然硬件实现有一个好处,比如我的性能很高。
但是会有一个很大的问题,两台虚拟机在一个物理平台上的时候你怎么隔离它,刚才华三说可以做引流,做隔离,做安全的工作,隔离完以后再放回去,小规模环境绝对不是问题。但是你想你有十万台设备的时候,你的设备需要多大的流量才可以去做,这也是一个很困难的事。所以青云我们两种技术都支持,我们自己使用的技术是把自己的路由器安全设备,嵌入在每台服务器内部,因为流量在内部的时候,流量就可以在内部做到体现。再往上提供数据库集成服务,这个更偏向PaaS的服务,用户只要点击一下鼠标,我们在一分钟以内帮他自动化实现存储和读写能力。包括还有大数据平台服务,青云现在提供的大数据服务,包括Hadoop,包括数据仓库解决方案等等,所有解决方案,青云与其他厂商不太一样的是,我们不需要买一套硬件专门来跑,我只是需要在同样的硬件上面,我们通过资源的划分,划分一部分资源用来跑大数据就可以了,所以你买台服务器,你说要跑VDN没关系,上面可以同时跑你的业务和大数据平台,对于用户来说可以减少投资,不用买重复的资源。从利用率来说,我们同样的设备上都能跑同样的服务。
应用编排,你可以将你的任何应用,通过拖拽的方式生成一个模板,做一个运行规划,我刚才看到深信服也在做类似的操作。青云是做的全局的,比如你在北京二区部署这么大架构,在你的模板里看到的只是一个模板,如果你想部署在广东,它会在几十分钟之内就部署到广东,所以说它是全局性的。管理方面,我们青云是把我们的运维系统统一了,比如一个企业把自己的多余资源通过云计算方式,租给同行业的金融企业来使用,它形成自己的金融云,它就需要一套什么系统呢?需要一套跟公有云一样的运维系统,包括拓扑管理,工单系统,KPI系统,计费系统都在青云架构里面可以提供。这是一个简单展示图,最上面是我们的IDC,点开以后可以看到计价状态,每个物理机也可以看到每个主机的状态,也可以看到云的消费趋势,有多少用户在使用,每个用使用情况怎么因,主机是不是该扩容,都可以通过这个系统实现统一管理。计费这是青云比较有特色的,青云所有资源创建都是几秒钟可以实现,VM3—5秒钟就可以实现创建。而我们计费是按秒收费的,比如您上面使用了10秒钟我们就收10秒钟收费,为什么我们强调按秒收费呢?因为我们强调的是弹性,如果什么时候都收费,谈弹性还有什么意义呢。其实这样的应用非常多,比如前段时间比较火的应用叫足迹,它在我们系统上使用了,我们还有一个自动伸缩的功能,我们判断用户的服务器是否需要扩展,如果需要扩展的时候我们服务器就会进行扩展。从管理上来说,无论是公有云还是私有云用户,都可以实现统一的管理,这就是实现了混合云的概念。
最后分享一下我们的用户,金融行业里,如果说金融行业可能青云案例是最多的,包括阳光保险集团,我们最早的用户是招商银行,我们当时在招商银行用的服务器还是联想的。中国银行也是比较典型的,它的资源系统完全是基于青云的架构,下面的服务器也浪潮有华为的,阳光保险集团是用我们自己服务器,当然我们不是做硬件的厂商,我们现在跟联想、戴尔等等都有合作。我们不会主推我们是做超融合的厂商,但是我们更希望和实际的超融合厂商合作。虽然大家今天听我讲超融合都有点奇怪,青云是不是真的超融合,我告诉大家,青云的超融合真的很多,而且我们也是按这个目标去实现的。以上就是我今天的分享,谢谢大家!