中国IDC圈11月26日报道,不久前的杭州云栖大会上,阿里云大数据事业部总监闫安分享了未来大数据行业的10大趋势。他认为,Data Lake(数据湖泊)将日趋成熟,并被大规模采用,数据架构师兴起,可用不可见的数据安全技术将受关注,云计算大数据深度融合,数据能力成为云平台的核心竞争力。

事实上,大数据已经成为全球云计算服务商的标配。在这方面,中国的能力毫不逊色于欧美等IT强国。Sort Benchmark排序竞赛被认为是大数据界的奥运会,国内云计算服务商阿里云在一个月前用不到7分钟(377秒)就完成了100TB的数据排序,打破了Apache Spark的纪录23.4分钟。

以下是演讲全文,有删减:

我们说数据在爆炸,到2020年将有非常多的设备在线,每年新增数据类型会达到10%。只有大数据平台、大数据应用做的更快,更实时,更易用,才能够真正改变业务。

所以今天分享的第一个技术,是Data Lake(数据湖泊),这不是一个新的概念,2011年福布斯上的一篇文章(注:《大数据需要一个大的新型架构》)提出来这个概念。

做数仓的时候,第一个问题是给数据建模,数据要建模摆放才能把数据引进来。但我怎么建模呢?我不知道问题是什么,我也不知道怎么解决,所以很多建模用户到最后会陷入一个尴尬的境地,我做了很多东西,到最后好像越做越大,把所有需求都满足才行,而别人要改我的数仓也很麻烦。

Data Lake是什么概念呢?就是数据能不能不处理,也不建模,就是把数据扔进来了,谁要用谁建模,怎么用根据你自己的需求来建,所以这个概念很吸引人。这样一看好象民主化了,没有中心的数据,但我加了一个句“让湖水动起来”。这个概念在去年是很火的,15年的时候大家仍然没有解决。概念很简单,但很容易做错,做错了之后就不是一个湖了,是一个沼泽,沼泽地,一片泥浆,根本没有办法用。

第二个技术,是一个很老的问题,实时问题。今年我认为大家最聚焦的是基于场景的大数据,就是斯时、斯地、斯人,实时概念非常重要。这个实时的东西解决了没有呢?其实也没有解决。

我举一个例子,如果用可穿戴设备和社区医院、三甲医院打通,这样心脏不好的时候可以做实时的监测。这样问题也来了,你走到一个信号不好的地方,这个时候要不要做实时?实际上是场景化的事情,实时的场景一定是更复杂的。

第三个是分析工具。今天一如既往的更加强调三个字,存、通、用。首先要有作用,最后形成业务,但是更多的分析工具把存储这个事情管理的越来越好,不同数据之间的打通也做的非常好。

具体讲几个,首先是可视化。分析工具发展了这么多年,今年每隔一段时间都会有一个大公司跳出来,发布最新的功能,所以大家还是一直在往前走,但现在的分析工具还是远远不够用。

比如嵌入,什么叫嵌入呢?我把数据收到数据中心,然后我再进行分析数据。但是我们现在说了,数据无处不在,为什么分析不无处不在呢?能不能在收集的时候已经做了很多处理了。

第四个是预测。根据过去的表现预测下面发生了什么。预测在很多传统行业都已经在用了,像搜索电商、广告视频、用户管理等等方面做了大量的预测,但是在传统行业里面,预测的应用场景会更多。

比如交通,你用着导航软件,它说前面堵了,但实际上是现在堵,等你过去的时候就不堵了。再比如设备,我买了一个锅炉,说能十年,十年到了我要不要换一个新的?但如果我把传感器放上去,你可以预测一下可以活多久。

第五个是智能时代,认知的计算。这个题目比较大,大家看到这个楼里面有很多小机器人,这个小机器人有没有智能?这个大家可以判断。为什么大家一直很热门的研究智能呢?它实际上是一个行业的推手。通过对大数据处理能力、实施能力,包括算法的研发等等对整个产业链都有很大的推动,所以每个大一点的公司都在研究人工智能,这个东西是未来。

第六个是数据架构师的兴起。互联网公司开始进入企业市场,“互联网+”是今年大家都明白的一个词,就是要把互联网思维、方式、工具引入企业,最适合做互联网+的往往是互联网公司,只有少数互联网公司,像阿里有超过4千个数据工程师和数据科学家,每天梳理的数据量超过很多公司一年的量,在这种体量下做出来的平台是值得学习的。未来几年有一个新的职业可能会火起来,就像前几年数据科学家这个词,也就是数据架构师。

第七个是数据国际化,要解决的问题是数据国界的问题。阿里云、AWS把业务做到全世界都是,那数据有没有国界呢?有,有些国家规定数据先不能离开国界。这个问题要解决,有很多技术问题,但已不仅仅是技术问题。

第八个是云计算、大数据的深度融合。在很多场景下需要云计算的弹性,做一款大数据的产品必然要有弹性,这个必须要融合。

从另一个方面来看,云平台之间的竞争白热化,因为最后大家拼的是资源,调度能力,这个很容易引起同质化的竞争,因为定价大家都可以比较。但不同云平台数据能力是非常差异化的, 所以这个是各个平台的必争之地,大家都在拼这方面的能力。

云数据、大计算,这个提法很有意思,大数据是什么?如果数据还是孤岛的话,数据量再多也不是大数据。所以真正理想的情况,不管数据在哪儿,数据一定要融合。所以云数据、大计算才能真正的王道。

第九个是大数据生态。数据生态实际上是一个很复杂的过程,大数据平台可以促进很多行业生态的形成。

比如,心脏病监控救护,涉及了设备生产商、120、各级医院,还有心脏病研发中心,围绕着这些数据和平台可以做成一个生态。在这个过程当中,大数据起到的是生态平台的作用。与此同时,这个生态一定要垂直化到各个领域。什么意思呢?原来各行各业都有自己垂直行业的ISV,比如有些人就是专门给银行做方案,他对银行非常熟悉,但他有可能用的不是大数据的产品,用的是传统数据库的产品,但是今年这些ISV非常积极的来拥抱大数据,我们可以看到,如果这些ISV活起来的话,垂直领域的ISV的生态就起来了。所以整个生态,我认为包括平台、生产开发、服务流通全部环节加起来。

最后一个,安全、安全、安全。如果没有数据安全的话,大家不要谈大数据,没有一个人把数据拿在一个不安全的环境上来用。所以今天一个概念,就是数据可用不可见,如果A和B合作一个项目,A是银行,B是保险公司,如果A能看到B的数据,这种交换其实是很危险的,因为不管怎么保护,它可以用不同的方式,拿照相机拍照的方式也可以把你的数据存下来,所以一定不能让数据离开,一定要可用不可见。

什么叫可用不可见?我在云里面建一个虚拟的黑屋子,大家把数据放上去,可以在一起用,做一些事情,事情可以做,但是你看不到数据是什么。这些技术,今天大家可以看到很多阿里云做的创新创业项目,都是用这个模式做的。

谢谢大家,今天就分享到这里。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排 行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2019-07-31 13:34:00
大数据资讯 贵州省人大审议大数据安全保障条例(草案)
7月29日,贵州省十三届人大常委会第十一次会议举行第一次全体会议,听取了贵州省人大法制委员会关于《贵州省大数据安全保障条例(草案)》审议结果的报告,并分组审议了《 <详情>
2019-07-31 13:28:21
大数据资讯 贵州:大数据服务队为传统企业“会诊”
日前,贵州省大数据发展管理局和国家工业信息安全发展研究中心共同主办的大数据与实体经济深度融合全国行在贵阳举行启动会。贵州以大数据为传统企业的转型升级“把脉问诊” <详情>
2019-07-31 13:23:06
大数据技术 贵州大数据让脱贫攻坚“大”有可为
前几年,大数据这个词在不少人眼里恐怕还是“高大上”的代名词。随着近几年信息技术高速发展、互联网的快速普及,全球数据爆发增长、海量集聚,大数据应用渗透到我们生活的 <详情>
2019-07-31 12:13:13
云资讯 京东云发布《私有云&混合云白皮书》 构建客户想要的云平台
伴随着人工智能、大数据、物联网等技术的不断发展,以及5G时代的来临,企业IT系统的云化成为大势所趋。客户多样化、个性化的应用需求对云厂商提出更多要求。 <详情>
2019-07-31 09:58:00
大数据技术 运用大数据实现扶贫脱贫“精准”性
2019年中央一号文件将聚力精准施策,决战决胜脱贫攻坚作为一项硬任务,明确要求到2020年确保现行标准下,农村贫困人口实现脱贫、贫困县全部“摘帽”、解决区域性整体贫困。从 <详情>