2019年7月3日,2019云计算开源产业大会在北京国际会议中心隆重开幕。2019云计算开源产业大会以“计算无处不在,开源引领未来”为主题,由中国信息通信研究院主办。华为技术有限公司基础云服务开源生态总经理蒋晓黎先生与会,并做《开放创新,打造智能时代的数据底座》主题演讲。
华为技术有限公司基础云服务开源生态总经理蒋晓黎
蒋晓黎先生表示,我给大家分享的是智能时代我们怎么更好地变现数据价值。围绕着生产要素来看,在农业经济的时候,土地和劳动力是主要的生产要素,人多产能就大,土地多就能获得更多的粮食。工业经济的时候是能源+机器,通过机器代替人,这样大幅提升生产力,通过石油、电力这些能源赋予机器更大的动力。数字经济生产力发生了比较大的变化,数据、智能成为新一代的生产要素,尤其是数据,它实际上是数字经济的能源。但是这个能源是否能够更好地去支撑企业的数字化转型是一个很大的问号。
首先看现在数据+智能正在改变各行各业,包括政务,在政务这边通过数据+智能,能够大幅降低普通市民办政务的时间,提高效率,通过“一门一号一窗一网”,市民在一个地方就可以把事情办了,这是数据带来的好处。再看交通,通过智能赋能城市交通,通过智能交通,不是让车看灯,能让灯自动根据情况疏通车道,这样能够提高交通的效率。再看金融,能够及时地识别出洗钱、高风险的交易。通过智能,能够把风控响应时间压缩30ms,这对银行的资金安全是非常有价值的。
围绕智能时代,各行各业都在构建数据基础设施,但是数据是一笔无形的资产,但是并不知道怎么变现,这不是一个技术问题,应该涉及到企业的文化、企业的数字化程度,只有这样才能更好地挖掘数字价值。我们所提的数据基础设施是什么?实际上包含三层,一层毫无疑问,数据要想更好地挖掘价值,要有算法,而且要有多样化的算法,才能把数据挖掘出来,再往上是存储,数据要存起来,而且不仅要存,还要取,存下来之后怎么取出来,取出来之后再对数据做处理,不管是大数据也好,还是数据库也好,包括AI也好,你要做数据处理、数据分析,才能真正地让数据变成有价值的数据,这三层构成了数据的基础设施,去加速实现数据的价值。
现在看到数据价值在实践过程中面临三大挑战:第一大挑战是算力的缺失,而且它是比较昂贵的,为什么这样?现在我们看到这个业务是多样化的,包括银行交易、金融决策、图像分析、无人驾驶。多样化的系统ERP、CRM,数据也是多样性的,有文本数据、图数据、流数据、视频等等。在多样化的情况下,原来的算力是单一化的算力,就是X86,这种单一化的算力并不能满足需求,因为每种需求、每种业务要求的算力是不一样的,这种情况下我们希望算力更加多样化,而且多样化的基础上要更加普及,成本要降下来,只有这样才能真正地让数据的价值变现。存储也是一样,存储也是业务瓶颈,后面会讲为什么会成为业务瓶颈。第三个是数据处理费时费力,这三方面是制约数据价值变现的三大挑战。
多样化业务需要多样化算力,比如把数据提炼出来生成各种报表,报表能让我的主管清晰地看到当前业务的情况,客户的需求是什么。这种决策支撑至少需要每秒亿次的算力。银行的交易里面的交易量越来越大,而且交易的时效要求越来越高,而且要把风险分析出来,这种至少要每秒十亿次。人脸识别,AI起来以后,网络深度越来越深,原来十几层变成二十几层,到上百层,这个时候的算力是海量的算力,要求每秒上千亿次。无人驾驶就不仅仅是图像了,包括周边的车流数据、天气数据,还有其他各种的交互信息都会输入进来,来指导这个车进行自动驾驶,这样的算力可能每秒要到万亿次,从这个算力的发展来看,相当于从原来的兆到T,到千万次,到亿次。从最早的2013年到2019年来看,算力基本上增长了30万。摩尔定率是每1.5-2年整个系统翻一番,这个算力已经远远超出摩尔定律的增长,这导致了需求增长非常快。摩尔定律大家知道,我由原来的60纳米到40多纳米,到现在16纳米,到现在6纳米,出来以后你会发现这个曲线越来越平滑,增长越往后难度越大,到5纳米、4纳米、3纳米的难度不是两年就可以完成的,可能需要四五年,而且这块生产线成本相当高。这一块其实是目前面临大的问题。
挑战二是存储,为什么存储成为业务瓶颈,大家都用存储,但是大家仔细看一下,这个存储经过了第一代到第二代,第一代是集中式存储,第二代是分布式存储,分布式存储是不是能解决问题?在存储里面有几个问题,第一个现在海量多样性数据需要融合存储,包括文本数据、流数据都需要存储,目前的这种存储架构并无法适应多样化存储的需求,因为每种数据要求的性能不一样,流数据需要性能比较高,但是图像数据吞吐量要足够大,每种的数据要求不太一样。第二是有更高业务实时性,目前的情况下并无法高效地进行并发数、时延、一致性的矛盾,要提高吞吐量在一致性上一定会受约束。第三个就是在设备管理层,因为现在的存储规模越来越大,尤其是做分布式存储要有大量的节点,要做及时的同步、及时的更新,这种情况下怎么对数据进行更好的设备管理以及数据管理,当前缺乏一个数据的全生命周期管理,导致管理复杂,维护成本高。
挑战三,数据处理费时费力,这个数据源,包括里面IoT或者生产设备上获得数据源,从财务系统获得数据源,这些数据源加起来大概130万张报表,需要上万个数据接入点,怎么把数据接入点汇聚起来,怎么从130万张报表里面找出你所需要的数据并把它提炼成一个真正能够使用的数据,这个我们认为是非常费时费力的。
有这三个挑战,华为认为要重新定义一个数据时代的底座,数据时代的底座是什么?就是FusionData,它是智能数据解决方案,使数据价值快速变现,它从三个方面帮助我们解决瓶颈:
第一,多样化计算的问题。华为围绕数据多样化的需求发布了系列化芯片,从鲲鹏920,这个性能能够满足算力服务增长的需要,还有面向人工智能时代的解决算力瓶颈问题。面向各场景的,不管是做人脸识别也好,还是做OCR识别也好,还是做AI训练也好,都能够加速学习。鲲鹏TaiShan服务器,以及ARM原生和HPC,它的性能足以满足应用需要。
第二,重定义存储架构。第三代存储是什么?我们认为第三代存储是要去重定义存储架构,大幅提升效率,引领存储智能。光存储是不够的,一定要是智能的存储,智能存储是包括三个部分,第一个是极致效率,能够支持多样化数据。第二个是极速体验,尤其是分布式存储性能,怎么提升我们页面上的性能,同时是智能管理,支持全生命周期的智能管理,让整个存储效率大幅度降低。下一代智能存储,这是我们跟招商银行进行合作的案例,大家可以看到速率提升了9倍。基于多样化算力,整个存储支持鲲鹏+AI网络,这个好处是什么?在实时性业务上、即时性业务上性能大幅提升,比如整个时延降低15%,这个速率能够解决在业务上面临的瓶颈。通过存储的云上云下的协同,能让存储管理变得非常智能,从整个设备,从存储开始规划,到存储设备的发放,以及优化,面向IO的优化,吞吐量的优化等等这一套变得更加快捷,而且存储不仅快捷,整个维护做到智能。
第三,重定义数据处理平台。数据处理平台要面向三个特点,原先的时代更多的是球化数据,上面做AI,商业的智能,未来数据多样化以后,一定要做融合化处理,三个是三项合一的,面向这样的需求之下,怎么在数据处理平台之上,包括异构、智能、融合三个要素要具备的。为此华退出了GaussDB,这个数据库第一次提出来把AI嵌入到分布式数据库,而且我们是把AI嵌进去的,这个就是解决刚才我提到的问题,在数据处理过程中,多样化的数据对数据处理的要求是不一样的,要不断调优,原来是靠手工调优,针对不同的业务手工调优会影响业务的时间,再一个成本是相当高的,所以我们认为唯有把人工智能技术应用到数据库里面去,通过人工智能的手段来去优化整个多样性业务、多样性数据的性能需求,这样才能让数据库变得更加灵敏、智慧起来。
这是DaussDB的调优技术,AI-Native使整个性能都得到了非常大的提升。
再一个关于多模,GaussDB是多模数据引擎,为什么提多模数据引擎?现在的数据分为两类,一类是事务性数据库,要求数据即时得到处理,另一类是分析类数据库,这个要求吞吐量比较大,这两类数据库是前后的关系,这两类数据未来一定要打通,不能完全是封闭的,这种情况下就需要我们支持多模的数据引擎,可以支持流数据、图数据、空间数据,满足多模混合负载,能适应面向未来的数据处理要求。
第四,开放式创新。在面向未来打造数据底座,光是闭门搞研究是不行的,一定要是开放、开源的,在开放、开源上面向算力,华为做了Volcano项目,增加更丰富性的算力,这方面我们看到,面向多样化的业务有大的需求,这种能力可能也是不一样的,我们一定需要一个平台能支持多样化负载,目前在支持高密计算上面临很多的问题,所以Volcano把整个多样化业务的算力调优、任务编排做了统一的处理、做了抽象,这样能够更好地支持像Hadoop、Spark,包括AI,以及HPC的高密计算要求,这个我们希望跟大家一起进行创新,也希望大家加入这个项目。
关于OpenSDS存储也是一样,华为推出了多样化的分布式存储,我们打造了这样一个OpenSDS,这个就解决怎么把数据按照全生命周期,包括有保护、备份、各种数据的迁移,在这个过程中发现数据、发现OpenStack就是一个桥梁,能够连接专业设备,连接私有云、公有云,让我们的数据真的流动起来,只有流动才能真正地把数据价值发挥出来,这也是我们希望大家能够一起做贡献的,这个项目已经得到了业界基本上所有主流厂商的支持。
第三个项目是KubeEdge是面向边缘计算的,边缘计算是一个新名词,我相信大家听到很多的边缘计算,边缘计算其实是非常碎片化的,尤其是要把云上的能力迁移到边缘侧,怎么办?华为发布一个KubeEdge,把我们云上的治理能力怎么从云端带到边缘去,KubeEdge进入到原生社区,成为里面的一个孵化项目,这个也希望大家跟我们一起做创新,把这个项目真正变成一个主流的生态。
为此我们认为光开源远远不够,我们更需要把整个数据底座能力开放出来,为此我们跟产业联盟,包括跟OSCAR,还有各种项目一起合作,真正地把数据底座建立更多的生态,目的是让数据支撑各行各业、千行百业的数字化转型,让我们走向美好的智能时代。