记者注意到,此次大会邀请了Yahoo!、Facebook、百度、中国移动研究院、淘宝、EMC、VMware、Intel、IBM、eBay等国内外著名IT企业到会分享交流技术内容,其中大部分是互联网企业。而且,听众当中也有很多人来自互联网、SNS、电子商务等领域。对于Hadoop为什么受到互联网等企业的追捧,查礼在接受采访时谈到,Hadoop作为一种支撑大规模互联网服务的软件平台和工具集,可以用来解决分布式计算中的很多问题,跟商业软件相比,有两大主要优势:一是实用,效率较高,能够处理许多商业软件如传统数据库不能做的事情,特别是在大规模数据处理和计算方面,Hadoop的优势非常明显;二是开源,成本低,而且容易修改,便于做二次开发,这尤其对于那些新兴互联网业务非常适用。

据了解,Hadoop的软件工具非常丰富,主要提供了一套名为HDFS的分布式文件系统以及支持Map-Reduce的计算框架。此外,还提供构建在HDFS 和Map/Reduce之上的可扩展的数据仓库Hive,结构化数据库HBase,数据流高层语言Pig,高性能分布式协同服务ZooKeeper,以及面向大规模分布式系统的数据收集软件Chukwa等。

自2002年Apache设置相关项目以来,源于互联网的Hadoop也渐渐在互联网领域扎下了根。如Yahoo!使用4000节点的机群运行Hadoop,支持广告系统和 Web搜索的研究;Facebook使用1000节点的机群运行Hadoop,存储日志数据,支持其上的数据分析和机器学习;百度用Hadoop每天处理1PB的数据,进行搜索日志分析和网页数据挖掘工作;中移动研究院基于Hadoop开发了“大云”(Big Cloud)系统,不但用于相关数据分析,还对外提供服务;淘宝的Hadoop系统用于存储并处理电子商务的交易相关数据。

Hadoop技术除已经在互联网领域得到广泛应用之外,同时也受到了学术界的普遍关注。国内的高校和科研院所基于Hadoop在数据存储、资源管理、作业调度、 性能优化、系统高可用性和安全性方面进行研究,相关研究成果多以开源形式贡献给Hadoop社区。在此次大会上,中科院计算所、江南计算所、清华大学、中国人民大学等科研院所专家到会报告了最新研究进展。毕竟,只要有大规模数据处理的地方,就可能有Hadoop的生存之地。

从互联网到学术界 Hadoop社区渐成气候

▲计算所展示Hadoop研究成果

如同Hadoop技术本身,Hadoop社区也还处于发展当中。谈到当前Hadoop的生态系统,查礼将其定位于“正在发展”当中,但已经过了“初创过渡”那个阶段。他告诉记者,现在Hadoop已经有了比较畅通的沟通渠道,比如Hadoop in China大会就是一个典型平台,而且也有很多企业参与其中,大家在不同的点上做开源式的创新。计算所本身也在做Hadoop的研究,查礼所在的系统软件组主要从事的是Hadoop的系统优化研究。

不过,查礼也谈到,国内Hadoop生态系统的运作机制还不够完善,比如在国外有专门的基金会支持开源,而且有企业愿意掏钱资助,但在国内这样的机制还不成熟,Hadoop开源社区运作起来就显得比较松散。计算所希望通过Hadoop in China 志愿者社区和相关会议平台,能够推动Hadoop在中国的发展,促进它成为更加完整、更加有效的开源软件。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排 行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2021-12-07 11:35:00
大数据技术 ClickHouse vs StarRocks选型对比
一般来说,ClickHouse适合于维度变化较少的拼宽表的场景,StarRocks不仅在单表的测试中有着更出色的表现,在多表关联的场景具有更大的优势。 <详情>
2021-08-25 11:24:23
大数据资讯 Hadoop大数据“存算分离”,柏科数据 ISCloud分布式存储"提质增效"
业内新扩容方式“存算分离”架构的优势逐渐明显,“存算分离”成了大数据架构发展的必然趋势,成了解决行业用户在使用Hadoop时,面临计算资源浪费、存储性能低、管理成本过 <详情>
2021-05-07 11:11:30
云资讯 随着云计算等颠覆性技术的出现Hadoop将会过时
Hadoop是一个开源软件框架,它在近十年前开始流行。 <详情>
2020-11-26 09:44:25
大数据技术 学大数据需要具备什么基础和知识点?
学大数据基础包含涵盖大数据体系中的技术点,包括但不限于Linux、Zookeeper、Hadoop、Yam、Redis、HDFS、MapReduce、Hive、lmpala、Hue、Oozie、Storm、Kafka、Spark、Soar <详情>
2020-08-18 15:10:27
大数据技术 大数据不再主流受欢迎,然而Hadoop仍然至关重要
如今,开源分析已牢固地成为企业软件堆栈的一部分,“大数据”一词似乎已经过时,并且Hadoop已成为死法已成为人们公认的民间传说。不过,这太夸张了;尽管Hadoop不再炙手可 <详情>