记者注意到,此次大会邀请了Yahoo!、Facebook、百度、中国移动研究院、淘宝、EMC、VMware、Intel、IBM、eBay等国内外著名IT企业到会分享交流技术内容,其中大部分是互联网企业。而且,听众当中也有很多人来自互联网、SNS、电子商务等领域。对于Hadoop为什么受到互联网等企业的追捧,查礼在接受采访时谈到,Hadoop作为一种支撑大规模互联网服务的软件平台和工具集,可以用来解决分布式计算中的很多问题,跟商业软件相比,有两大主要优势:一是实用,效率较高,能够处理许多商业软件如传统数据库不能做的事情,特别是在大规模数据处理和计算方面,Hadoop的优势非常明显;二是开源,成本低,而且容易修改,便于做二次开发,这尤其对于那些新兴互联网业务非常适用。

据了解,Hadoop的软件工具非常丰富,主要提供了一套名为HDFS的分布式文件系统以及支持Map-Reduce的计算框架。此外,还提供构建在HDFS 和Map/Reduce之上的可扩展的数据仓库Hive,结构化数据库HBase,数据流高层语言Pig,高性能分布式协同服务ZooKeeper,以及面向大规模分布式系统的数据收集软件Chukwa等。

自2002年Apache设置相关项目以来,源于互联网的Hadoop也渐渐在互联网领域扎下了根。如Yahoo!使用4000节点的机群运行Hadoop,支持广告系统和 Web搜索的研究;Facebook使用1000节点的机群运行Hadoop,存储日志数据,支持其上的数据分析和机器学习;百度用Hadoop每天处理1PB的数据,进行搜索日志分析和网页数据挖掘工作;中移动研究院基于Hadoop开发了“大云”(Big Cloud)系统,不但用于相关数据分析,还对外提供服务;淘宝的Hadoop系统用于存储并处理电子商务的交易相关数据。

Hadoop技术除已经在互联网领域得到广泛应用之外,同时也受到了学术界的普遍关注。国内的高校和科研院所基于Hadoop在数据存储、资源管理、作业调度、 性能优化、系统高可用性和安全性方面进行研究,相关研究成果多以开源形式贡献给Hadoop社区。在此次大会上,中科院计算所、江南计算所、清华大学、中国人民大学等科研院所专家到会报告了最新研究进展。毕竟,只要有大规模数据处理的地方,就可能有Hadoop的生存之地。

从互联网到学术界 Hadoop社区渐成气候

▲计算所展示Hadoop研究成果

如同Hadoop技术本身,Hadoop社区也还处于发展当中。谈到当前Hadoop的生态系统,查礼将其定位于“正在发展”当中,但已经过了“初创过渡”那个阶段。他告诉记者,现在Hadoop已经有了比较畅通的沟通渠道,比如Hadoop in China大会就是一个典型平台,而且也有很多企业参与其中,大家在不同的点上做开源式的创新。计算所本身也在做Hadoop的研究,查礼所在的系统软件组主要从事的是Hadoop的系统优化研究。

不过,查礼也谈到,国内Hadoop生态系统的运作机制还不够完善,比如在国外有专门的基金会支持开源,而且有企业愿意掏钱资助,但在国内这样的机制还不成熟,Hadoop开源社区运作起来就显得比较松散。计算所希望通过Hadoop in China 志愿者社区和相关会议平台,能够推动Hadoop在中国的发展,促进它成为更加完整、更加有效的开源软件。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排 行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2019-07-22 16:47:56
大数据技术 Hadoop与 Spark - 选择正确的大数据框架
我们被各方的数据所包围。随着数据每两年增加一倍,数字世界正在快速追逐物理世界。据估计,到2020年,数字宇宙将达到44个zettabytes - 与宇宙中的恒星一样多的数字位。 <详情>
2019-07-22 16:45:49
大数据技术 Hadoop现在怎么样了?
之前我们提到大数据的时候就会提到Hadoop,Hadoop是大数据的基础框架,是大数据技术的代表。提到HDFS、MapReduce、Yarn,提到HBase、Hive、TEZ等Hadoop生态圈中的一个又一 <详情>
2019-07-17 16:42:54
大数据应用 Spark和Hadoop的架构区别解读
总的来说,Spark采用更先进的架构,使得灵活性、易用性、性能等方面都比Hadoop更有优势,有取代Hadoop的趋势,但其稳定性有待进一步提高。我总结,具体表现在如下几个方面 <详情>
2019-07-02 17:38:29
大数据技术 大数据的一个时代的结束了,Hadoop还值得你学习吗?
Hadoop从诞生至今已经十三年了。2006年诞生大数据,2008年成为Apache的顶尖项目,成为国内外互联网大数据的标准配置之一。长久以来,想要入行大数据开发Hadoop也是必学。最 <详情>
2019-06-21 14:42:19
大数据技术 Hadoop 不再权威,开源大数据的未来何去何从?
屈指算来,Hadoop 已经诞生 13 年了。它最早诞生于 2006 年,并在 2008 年成为 Apache 顶级项目。诞生后没过多久就成为了互联网行业大数据计算的标准配置,同时也成了 Apac <详情>