Hadoop是Apache的一个项目,它是一个实现了MapReduce计算模型的可以运用于大型集群并行计算的分布式并行计算编程框架,当然分布式计算离不开分布式存储,Hadoop框架包含了分布式存储系统HDFS(Hadoop Distributed File System),其存储和数据结构很类似Google的GFS。

HBase是Hadoop的子项目,它是基于Hadoop HDFS分布存储系统的一个Google BigTable开源实现(最近看了BigTable的Paper,很受鼓舞和启发),它在存储数据结构上并非关系型,而是疏松分布式的,持久并按多维排序并索引的map型,下次我把介绍BigTable和HBase的文章转载过来。

Google BigTable的paper: http://labs.google.com/papers/bigtable-osdi06.pdf

在初接触Hadoop和Hbase的时候,大多数技术人员只希望通过简单的方法初步搭起框架环境,但我找了好多安装手册都是上来就部署集群分布环境(尽管做Hadoop就是为了这个目的),搭建集群环境的时候要设置ssh协议访问权限,要生成访问公钥,并且slaves配置上的小错误也会导致整个部署问题重重,所以我在部署成功后记录下最简单运行的standalone模式的安装配置过程,希望初学者在需要的时候能找到这个小小的guide,以后有时间我会再把集群配置的方法写出来。

开始:

1.在Apache/Hadoop项目的网站(hadoop.apache.org/)下载hadoop以及hbase的发行包,此处两个发行包的大版本号一定要一致,譬如都是0.18版本:

hadoop-0.18.2.tar.gz,hbase-0.18.1.tar.gz

2.使用root身份登录目标服务器系统(Suse10 Linux),首先安装java虚拟机,这个比较简单,随便找个绿色的解压就可以了,在这个例子里面我使用IBM WAS6.1附带的jdk,它的home目录是/opt/IBM/WebSphere/AppServer/java,我们只需要配置系统的环境变量就可以了。

编辑全局环境变量文件/etc/profile,在文件后面添加

export JAVA_HOME=/opt/IBM/WebSphere/AppServer/java

export PATH=$JAVA_HOME:$PATH

保存profile文件后使用$source /etc/profile命令重新加载profile,然后随便在一个目录下面运行$java -version查看javahome环境变量和path变量是否被正确加载。

另外到/etc/hosts文件中查看主机映射是否存在,例如 127.0.0.1 localhost 或者什么其他的名字,在这里默认配置本机为localhost,如果需要做分布式的话,本机要做namenode,所以要把所有的datanode的host添加到这里面。

3.创建hadoop用户, $useradd hadoop可以用$passwd hadoop修改hadoop用户的登录密码。

4.创建hadoop用户的home目录,如果打算在别处安装hadoop/hbase的话可以不这样做,这里我们默认将hadoop/hbase安装在/home/${username}目录下。

$cd /home

$mkdir hadoop

将目录用户指派给hadoop

$chown hadoop hadoop

改变目录权限,这里我们配大一些,其实只要644就足够了:

$chmod 755 hadoop

5.使用hadoop用户登录系统,将下载的两个发行包文件传到/home/hadoop目录下面,然后给它们加上执行权限:

$chmod a+x hadoop-0.18.2.tar.gz

$chmod a+x hbase-0.18.1.tar.gz

6.解压hadoop:

$tar zxvf hadoop-0.18.2.tar.gz

这样做会在/home/hadoop目录下解压hadoop发行包并创建到/home/hadoop/hadoop-0.18.2目录中,这里可以详细设计目录结构并创建link文件来方便日后升级等工作,这里我们先简单放在这里.

7.修改hadoop环境脚本:

修改文件/home/hadoop/hadoop-0.18.2/conf/hadoop-env.sh,在其中加入JAVA_HOME变量: export JAVA_HOME=/opt/IBM/WebSphere/AppServer/java

HADOOP_HOME变量我们可以不设置,默认的情况是指定HADOOP_HOME为运行启动脚本当前目录的父目录。

8.修改hadoop启动配置:

参照默认配置文件/home/hadoop/hadoop-0.18.2/conf/hadoop-default.xml修改用户配置文件/home/hadoop/hadoop-0.18.2/conf/hadoop-site.xml,hadoop启动的时候会加载默认配置文件,然后读取用户配置文件并使用用户配置文件中的属性替换默认配置文件中的值,这里最简单的情况我们只需要修改如下几项即可,如果需要做分布的话也是要在这个文件里面进行配置。将要修改的配置项简单的放到hadoop-site.xml文件的<configuration/>中去:

<configuration>

    <property>

      <name>fs.default.name</name>

      <value>hdfs://localhost:9000/</value>

    </property>

    <property>

      <name>mapred.job.tracker</name>

      <value>localhost:9001</value>

    </property>

</configuration>

9.格式化nodename及启动hdfs守护进程:

$/home/hadoop/hadoop-0.18.2/bin/hadoop namenode -format

$/home/hadoop/hadoop-0.18.2/bin/start-all.sh

使用shart-all.sh可以方便的启动所有的hdfs守护进程,如果想关闭这些守护进程可以使用stop-all.sh脚本。

启动过程中需要输入登录密码。

启动成功后可以用以下简单方法测试hdfs:

$/home/hadoop/hadoop-0.18.2/bin/hadoop dfs -mkdir dir4test

$/home/hadoop/hadoop-0.18.2/bin/hadoop dfs -ls

$/home/hadoop/hadoop-0.18.2/bin/hadoop dfs -put /home/hadoop/file4test.zip file4test_temp.zip

相当于linux系统下的mkdir ls cp命令。

用浏览器访问http://localhost:50030/和http://localhost:50070/可以查看hdfs拓扑结构和job进程还有hdfs文件系统结构。

10.解压hbase发行包:

$tar zxvf hbase-0.18.1.tar.gz

11.修改hbase环境脚本:

修改文件/home/hadoop/hbase-0.18.1/conf/hbase-env.sh,在其中加入JAVA_HOME变量: export JAVA_HOME=/opt/IBM/WebSphere/AppServer/java

简单启动暂时不需要在用户配置文件/home/hadoop/hbase-0.18.1/conf/hbase-site.xml添加任何替代属性。

12.启动hbase:

$/home/hadoop/hbase-0.18.1/bin/start-hbase.sh

成功启动hbase的守护进程。

启动hbase hql shell:

$/home/hadoop/hbase-0.18.1/bin/hbase shell

在hql shell中可以进行hbase数据操作,如果需要帮助信息可以键入:

hbase>help

简单测试hbase:

在hbase shell下:

hbase>create 't1','f1','f3'

hbase>list

使用浏览器访问http://localhost:60010/可以查看当前hbase信息。

启动hbase REST服务:

$/home/hadoop/hbase-0.18.1/bin/hbase rest start

成功启动hbase REST服务后就可以通过对uri: http://localhost:60050/api/ 的通用REST操作(GET/POST/PUT/DELETE)实现对hbase的REST形式数据操作。

本文转载自:http://blog.sina.com.cn/s/blog_5a70c9910100bmni.html

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排 行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2019-07-22 16:47:56
大数据技术 Hadoop与 Spark - 选择正确的大数据框架
我们被各方的数据所包围。随着数据每两年增加一倍,数字世界正在快速追逐物理世界。据估计,到2020年,数字宇宙将达到44个zettabytes - 与宇宙中的恒星一样多的数字位。 <详情>
2019-07-22 16:45:49
大数据技术 Hadoop现在怎么样了?
之前我们提到大数据的时候就会提到Hadoop,Hadoop是大数据的基础框架,是大数据技术的代表。提到HDFS、MapReduce、Yarn,提到HBase、Hive、TEZ等Hadoop生态圈中的一个又一 <详情>
2019-07-17 16:42:54
大数据应用 Spark和Hadoop的架构区别解读
总的来说,Spark采用更先进的架构,使得灵活性、易用性、性能等方面都比Hadoop更有优势,有取代Hadoop的趋势,但其稳定性有待进一步提高。我总结,具体表现在如下几个方面 <详情>
2019-07-02 17:38:29
大数据技术 大数据的一个时代的结束了,Hadoop还值得你学习吗?
Hadoop从诞生至今已经十三年了。2006年诞生大数据,2008年成为Apache的顶尖项目,成为国内外互联网大数据的标准配置之一。长久以来,想要入行大数据开发Hadoop也是必学。最 <详情>
2019-06-21 14:42:19
大数据技术 Hadoop 不再权威,开源大数据的未来何去何从?
屈指算来,Hadoop 已经诞生 13 年了。它最早诞生于 2006 年,并在 2008 年成为 Apache 顶级项目。诞生后没过多久就成为了互联网行业大数据计算的标准配置,同时也成了 Apac <详情>