Hadoop迎来了10周年的生日。关于Hadoop,有很多大事件依然历历在目:Hadoop成为Apache的子项目并获得命名,第一版Hadoop代码发布,第一批用户部署了该代码。为了纪念这些事件,大数据供应商的高管们为该分布式处理框架过去十年中在数据管理和分析处理上的影响给予了高度的赞誉。

20160902022300112_meitu_1

很多人在促使Hadoop落地中扮演了重要角色。Doug Cutting是该项技术的联合创造者,他现在是Hadoop分销商Cloudera的首席架构师,他表示,Hadoop架构已经可以让数据驱动业务,而且这是发生在企业核心的。同为联合创造者的Mike Cafarella是一名计算机科学专业的教授并且是分析初创公司Lattice Data的CEO。他说在Hadoop出现之前,企业都是将海量的但确实很有价值的分析工作束之高阁,这都是由关系型数据库的处理限制所致。

Sean Suchter所在Yahoo的Web搜索技术团队于2006年成为Hadoop的第一个生产用户,Suchter现在是Hadoop性能管理初创公司Pepperdata的CEO:他说:“几乎任何一家你能找到的企业都关心数据的Hadoop之旅。”Raymie Stata十年前是Yahoo负责搜索与广告系统的首席架构师,而现在是大数据云服务提供商Altiscale的老板,他称赞Hadoop可以让程序员和分析师直接访问企业的所有数据,并绕过那些传统数据仓库环境中会让一切变得迟缓的数据上的复杂环节。

从前辈那里有保留地接受赞扬是可以理解的。在这种情况下,在那些针对Hadoop的有价值的观点仍有可取之处。

商业界走上数据驱动分析的道路是不能归功于Hadoop的;数据仓库和商业智能系统要比二十年前更能在企业中找到出路。而且自助BI工具在2000年中期出现,它们赋予了业务用户分析能力。但Hadoop架构开辟了用于分析的新的数据类型,而且在技术和经济上还更具可行性——收集,处理和使用进入企业的信息。

就拿Uber来说。该公司曾遭遇分析上的停滞危机,直到去年利用Spark处理引擎和其他技术部署了一套Hadoop数据湖才得以解决。“从前,我们在企业内部所拥有的数据集无法用于分析,而如今就可以了,” Uber的一名资深软件工程师Vinoth Chandar说。“Hadoop环境已经成为所有分析数据的真理之源,”他补充道,他还指出Uber正寻求让每项决策都可以用数据驱动。

General Electric的GE Power Services部门是另一家正在使用基于Hadoop架构的组织,该架构由自助BI软件进行前端收费,他们由此创造了一个更为数据驱动化的文化。首席企业架构师Don Perigo说GE Power Services从四年前的120名员工使用传统BI和报告系统发展到拥有22000名用户的大数据平台。高管们设立了一个目标,就是让使用率达到业务部门的50%,而在某些部门,采用率达到了98%,Perigo说。

德克萨斯州大学MD安德森癌症中心预想同样的事情会在这里发生。“目前,大量数据还处于沉睡状态,无法获取和使用”, 学会分析与信息部的主任Bryan Lari说,“我们的目标是让每一个人,从高管到管理员都使用数据来驱动决策。”

Hadoop 10年的里程碑已悄然来临。Spark正在将很多Hadoop架构中的MapReduce引擎推向一边,还有用可能的数据存储替代品来替代Hadoop Distributed File System——该框架的其他原始核心组件正如雨后春笋一般涌现出来。

Hadoop可能会演变成一组不同的组件,亦或是会慢慢淡出,其他成熟的大数据工具会替代它现有的位置。但即使后一种情况发生了,Hadoop产生的影响将会远远超过Cutting在十年前以其儿子的玩具象命名的时候对它的预期。而且它所培养的数据驱动环境会保留下来,这还是值得庆贺的。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排 行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2019-07-22 16:47:56
大数据技术 Hadoop与 Spark - 选择正确的大数据框架
我们被各方的数据所包围。随着数据每两年增加一倍,数字世界正在快速追逐物理世界。据估计,到2020年,数字宇宙将达到44个zettabytes - 与宇宙中的恒星一样多的数字位。 <详情>
2019-07-22 16:45:49
大数据技术 Hadoop现在怎么样了?
之前我们提到大数据的时候就会提到Hadoop,Hadoop是大数据的基础框架,是大数据技术的代表。提到HDFS、MapReduce、Yarn,提到HBase、Hive、TEZ等Hadoop生态圈中的一个又一 <详情>
2019-07-17 16:42:54
大数据应用 Spark和Hadoop的架构区别解读
总的来说,Spark采用更先进的架构,使得灵活性、易用性、性能等方面都比Hadoop更有优势,有取代Hadoop的趋势,但其稳定性有待进一步提高。我总结,具体表现在如下几个方面 <详情>
2019-07-02 17:38:29
大数据技术 大数据的一个时代的结束了,Hadoop还值得你学习吗?
Hadoop从诞生至今已经十三年了。2006年诞生大数据,2008年成为Apache的顶尖项目,成为国内外互联网大数据的标准配置之一。长久以来,想要入行大数据开发Hadoop也是必学。最 <详情>
2019-06-21 14:42:19
大数据技术 Hadoop 不再权威,开源大数据的未来何去何从?
屈指算来,Hadoop 已经诞生 13 年了。它最早诞生于 2006 年,并在 2008 年成为 Apache 顶级项目。诞生后没过多久就成为了互联网行业大数据计算的标准配置,同时也成了 Apac <详情>