中国IDC圈1月8日报道,1月5-7日,第十届中国IDC产业年度大典(IDCC2015)在北京国家会议中心隆重召开。本次大会由中国信息通信研究院、云计算发展与政策论坛、数据中心联盟指导,中国IDC产业年度大典组委会主办,中国IDC圈承办,并受到诸多媒体的大力支持。
中国IDC产业年度大典作为国内云计算和数据中心领域规模最大、最具影响力的标志性盛会,之前已成功举办过九届,在本届大会无论是规格还是规模都"更上一层楼",引来现场人员爆满,影响力全面覆盖数据中心、互联网、云计算、大数据等多个领域。
京东云首席架构师杜宇甫出席IDCC2015大会并在云计算技术与平台服务论坛发表主题为《京东数据云生态》的精彩演讲。
京东云首席架构师杜宇甫
以下是演讲实录:
杜宇甫:非常感谢主办方有这次机会分享一下京东大数据生态。京东云已经服务很长时间,在数据方向我们推出了自己的生态服务,今天给大家介绍一下我们京东在大数据生态中,建造数据服务的时候我们的一些想法。首先给大家来谈一下过去一年当中我们大数据的展望和它的发展趋势。第一2015年是一个大数据的探索元年,2015年大家提出一个话题就是大数据是非常有用,各个行业每个企业建立了自己的大数据的方式和方法,搜集很多大数据。但是这一年来说搜集大数据不是最重要,最就是就是这么大的数据中挖掘出价值要帮助自己的企业。那么数据产生价值,其实这是15年讨论的最大话题。
第二就是大数据带来大责任,当数据多的时候,我们怎么利用数据为企业来提供持续的能量和支持,这成为一个比较重要的一个Power。
第三就是数据的泄露泛滥,其实对于数据来说,近年我们知道数据越来越有作用,每个企业有自己的数据。数据越来越有价值,那么数据泄露变成一个话题。我们认为数据生产的时候是不是应该注重数据的安全问题?
第四就是云分析大行其道,这个很有意思。在数据递增这个年代我们可以看到,不断的运算对于我们来说非常重要,怎么快速在云端快速使用这些数据,让数据由1到100由100到10000,这个时候云的能量就体现出来,只需要租用,快速的增减我们的计算集群就可以,所以云分析其实是最有用的。
第五就是以数据为中心的解决方案的兴起。对于京东来说我们在搭建京东的时候,也是以数据为核心做生意,如果今天只搭建一个商城就有问题了。有一个古话说练武不练功,到老必成空。京东最近出一本书叫数字化运营,大家有兴趣可以看一下。如果你做商业不针对数据做,其实是一个非常有问题的事情。
第六就是数据管理策略,管理方针。随着个人数据不断的增长,对于个人数据是非常重要的话题,如何管理每个人自己数据,或者一个人去世之后他的数据遗留给谁?
第七就是首席数据驱动市场官。我想起来一个事情,简单说一下我自己的看法,2015年上半年经济一片火热,下半年是一个大的下滑。经济学家给出一个结论什么结论?是生产过剩,供给大于需求。每年中国人出国旅游的数量就有一亿人次,每人每年在国外花掉的金钱是五千美元,如果这么计算我们每年中国就有大概3万亿的市场外流。那么这么样一个市场外流怎么说供给过剩?在我看来其实是什么?供给不足的原因就是创新不足,对于我个人来说很少打车,第一打车的态度不好,第二我个人认为比较贵。个人看了一下有了优步之后我的打车不是下降而是增多,中国人买东西是不是这样的想法?在中国买东西是不是花钱太贵,中国人不怕买贵的。那么我们怎么了解用户怎么创新?其实我们要了解用户,我们就要用数据驱动市场,这是非常重要的。
第八就是数据质量是BI成功的关键。那么对于大数据来说,不是小数据。首先谈到大数据,首先是多,第二是复杂,结构化,半结构化,非结构化各种各样的运算混杂在一起。这么多复杂的东西运算在一起,其实有些数据是质量好的,有些数据质量不好,那么你怎么去掉质量不好的?然后在这些数据上创造商业BI,这是非常重要的事情。那么这八点是2015年大数据发展的一个趋势。
我们回忆一下2015年有一个数字预测,中国的大数据市场到底多大?从这个图可以看到,刚开始预期的时候说14年的时候75亿,14年的时候可能达到90多亿,100亿。但是在下一个图,这是14年预测,这是15年开始。15年开始我预测达到100亿以上的份额,但是还有一个数字2016年初预测可以达到200亿,这说明大数据的市场不断的激增,而且增速必须快。那么为什么造成这样的现象,预测不准或者增长快。主要的原因我分析是这样的,因为大数据的整个使用过程中分为数据收集、数据存储,数据分析,最后到数据的使用。那么在这些环节中每个环节中我们需要相应的技术进行支撑,首先第一点在数据收集的时候你知道我收集什么东西?该收集什么?我对于各个行业来说应该收集什么?刚才微软和IBM专家说了,我电梯是不是收集它的以后状态?IOT,还有美国的飞机场减少了飞机延迟飞行的机率,还有美国的风力发电,根据这些来调整涡轮的转向,然后一度电由60美分降到25美分。你收集之后大量数据如潮水一般上来的时候你如何保存?如果你不分级,这么多数据存在比较贵的机器上,是不是成本不断升高?他们的作用是什么?有考虑过这些问题没有?
然后运算的时候又复杂了,大数据分析,我们就是这三种场景。一种是Batch、ADhoc、Streaming,Bacth就是机器学习、六度空间的短和近,那么它的速度比较慢。第二种的话,我们要分析要处理,分析和处理是不同概念。什么是处理,就是这个屋子找出谁最高,这是处理,什么是分析?这个屋子谁跟我关系最好,这是分析。我们看这项就是基于处理,快速在众多数据中找到你想要的。最后一个是毫秒级的,数据流过的快速的产出结果。那么第一种主要用于机器人学习,深度学习,第二种就是在精准推荐,京东做一些精准推荐,快速找一些日志中的问题,是这样的。第三种主要做恶意订单、恶意的查询,恶意的报警,主要用于这样的环节。我们说分析这个阶段就有这么复杂的东西,辅助它的有数据搬运、数据监控、深度学习、图计算、机器学习、数据收集以及数据可视化、数据集成、数据清洗,整个一套我们可以看到比较复杂。所以说在数据分析这个环节又是比较复杂的过程,最后数据应用,你怎么应用?数据可视化或者集成给伙伴去用,其实这是比较重要的,一个比较复杂的过程。
所以今天来说在整个大数据行业,对于企业来说我们的大数据还是一样,奢侈品。首先第一它比较难以使用,第二我们可以看一下,据美国数据资料,70%的企业通过大数据分析订单,产品捆绑在一起。IBM发现60%的企业利用大数据提升自己的竞争力。所以说大数据对于企业来说非常重要,对于他来说这么的复杂和困难。于是我们在想,是不是我们可以帮助企业做一些事情,于是我们做了数据云,下面讲一下在生态中我们怎么帮助用户的?数据开放交易,这几年数据开放和数据交易是比较火的话题。奥巴马上任之后推动美国的数据开放,涵盖50个部门,将近40万数据源,这种信息公开程度达到百分百,但是就医药行业一个行业而言,因为数据开放我们增加的产值是多少?三千亿美金,数据定位的产值是每年增加六千亿美金的产值。所以数据开放起到一个非常重要的作用,我们再讲一个话题,你想建立一个生态光有一个数据光有想法,光有一个平台,我们认为是干涩的。所以我们注入了数据和力量,于是我们京东我们做了一个万象平台。这个万象平台上面可以交易你的数据,可以给你应用和想法输入新数据,可以帮助你实现你的商业价值。
京东我们数据云,我们从原始数据来到数据应用,我们有这样一些产品提供给我们的用户来进行使用,从数据采集开始,我们提供采集的工具,不管是日志还是上传的工具,包括公有云端我们提供数据一站式解决方案,并且提供咨询服务。在你存储的时候我们把数据分热数据,冷数据,温数据,那么在数据处理、数据集成、数据分析我们都有一站式搭建的工具帮助我们的用户搭建自己的数据平台。现在都在谈生态,大家谈我建一个生态?那么什么是生态?生态是体系化的运营,很对,是一个圈子,对的,是一个体系是一个圈子,这两个词涵盖的非常棒。我们看一下什么是生态?是这样一个东西。这个图很有意思,生态是一个体系没有问题是一个圈子没有问题,是由生产者消费者以及分解者有机的结合在一起,成为的这么一个圈环,而且能量不断的穿过这样一个过程。能量从生产者到消费者到分解者,然后到世界万物。你要扮演自己的角色,有不同人帮助你做事情,这就是生态。
今天谈到京东数据云的生态,就是我们万象可以给生态注入活力和能量,这种数据。我们在想如果京东云,我们搭建一个生态怎么做?我们有数据的使用者数据提供者以及数据的消费者。那么在这个其中数据通过这三者不断的流动我们产生利益的价值,这样就会搭建一个数据的生态。那么就是说我们的目的是帮助企业更好的完成它自己的数据的商业价值。于是我们就有这么一个想法,这个上面有各种各样应用,我们搭建了自己的平台。我们右边提供咨询顾问,你在每个环节中有什么人帮助你做什么事情。这个里面有数据专家,如果你没有相应的人,我们在这里会介入我们使用数据分析这种团体,比如大学教授比如跟各个院校合作或者各个公司合作,来帮助企业从自己的数据中挖掘数据。其实不管这个环节中某部分可以参与进来,你可以生产者找到消费者,也可以成为消费者找到分解者。这就是我们整个数据云的生态。
下面介绍一下万象数据市场。那么我们希望搭建什么?刚才我说了我们想把大数据,以第三方的平台的形式我们把数据分到这个上面,你可以通过定义不同种类来获取数据。比如我们自己的数据还有第三方的数据,聚合、通联数据,你可以在上面找到你所使用的数据。当你有数据的时候你要关心一点,你怎么让数据产生价值?数据可以可视化也可以变现,我们来提供这样一个数据网关能够快速的帮助你把你的数据捏成任何一个形状,下面是你的数据,包括数据库或集群,可以通过我们整个的数据网关帮助你管理你的开发者,帮助你实现数据价值。你在这里可以快速把你的数据变成API,那么我们通过这样一个体系搭建起来整个的京东的数据云的这么一个生态。我们希望有更多的伙伴加入我们,跟我们合作。我这里分享最后一句话,京东数据云我们助力大数据的未来,希望在未来大数据的构建中贡献我们的一份力量,我的分享结束了,谢谢大家。