hadoop1.2.1+zk-3.4.5+hbase-0.94.1集群安装过程详解

本贴最后更新于 3074 天前,其中的信息可能已经时过境迁

hadoop1.2.1+zk-3.4.5+hbase-0.94.1集群安装过程详解
see:
http://www.cnblogs.com/wanghetao/p/3595442.html

节点:
192.168.12.66 hadoop1
192.168.12.67 hadoop2
192.168.12.69 hadoop3
<!--more-->
hadoop1是master,配置NameNode和JobTracker的角色
hadoop安装目录:/usr/local
hadoop用户: hadoop

安装分为3部分,
1)hadoop-1.2.1
2) zookeeper-3.4.6
3) hbase-0.94.27

环境准备:
root job:
1) 时间同步
*/5 * * * * /usr/sbin/ntpdate -u cn.pool.ntp.org

++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
第一部分:安装hadoop
++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

1. 3台机器安装JDK 1.7.0_51
vi /etc/profile
JAVA_HOME=/usr/jdk
PATH=$JAVA_HOME/bin:$PATH
export PATH

2. 3台机器创建hadoop账户。

3.做三台机器之间做双机互信,
原因master通过远程启动datanode进程和tasktracker进程,如果不做双机互信,会导致每次启动集群服务都会需要密码

3.1 hadoop1/hadoop2/hadoop3
hadoop$ ssh-keygen -t rsa

3.2 将公钥copy到其他2台主机上,做到互信
hadoop1:
[hadoop@test67 ~]$ ssh-copy-id -i hadoop2
[hadoop@test67 ~]$ ssh-copy-id -i hadoop3

hadoop2:
[hadoop@test67 ~]$ ssh-copy-id -i hadoop1
[hadoop@test67 ~]$ ssh-copy-id -i hadoop3

hadoop3:
[hadoop@test67 ~]$ ssh-copy-id -i hadoop1
[hadoop@test67 ~]$ ssh-copy-id -i hadoop2

4. 将hadoop1.2.1放到/usr/local下,且授权给hadoop用户
hadoop1/hadoop2/hadoop3:
[root@test66 local]# chown -R hadoop.hadoop /usr/local/hadoop-1.2.1/


5. 修改参数文件  (先再hadoop1上配置hadoop,然后将hadoop目录传递到hadoop2,hadoop3上)
5.0 3台主机上创建hadoop目录
mkdir -p /hadoop/tmp &amp;&amp; mkdir -p /hadoop/data &amp;&amp;   chown -R hadoop.hadoop /hadoop &amp;&amp; chmod g-w /hadoop/data/
5.1 hadoop-env.sh
echo "export JAVA_HOME=/usr/jdk"  >> /usr/local/hadoop-1.2.1/conf/hadoop-env.sh
5.2 vim /usr/local/hadoop-1.2.1/conf/core-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/hadoop/tmp</value>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://hadoop1:9000</value>
</property>
</configuration>

5.2 vim /usr/local/hadoop-1.2.1/conf/hdfs-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
<property>
<name>dfs.data.dir</name>
<value>/hadoop/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
</configuration>

5.3 vim /usr/local/hadoop-1.2.1/conf/mapred-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>http://hadoop1:9001</value>
</property>
</configuration>

5.4 vim /usr/local/hadoop-1.2.1/conf/masters   (    masters 用于指定,辅助名称节点(SecondaryNameNode)的主机名或主机地址)
hadoop1

5.4 vim /usr/local/hadoop-1.2.1/conf/slaves (用于指定各从服务器(TaskTracker或DataNode)的主机名或主机地址)
hadoop2
hadoop3

5.6 配置slave:将配置的hadoop整个目录复制到hadoop2,haoop3
hadoop1 # scp -rp /usr/local/hadoop-1.2.1 hadoop2:/usr/local/
hadoop1 # scp -rp /usr/local/hadoop-1.2.1 hadoop3:/usr/local/

hadoop2 # chown  -R hadoop:hadoop /usr/local/hadoop-1.2.1/
hadoop3 # chown  -R hadoop:hadoop /usr/local/hadoop-1.2.1/


6. 启动集群
6.1 格式化名称节点( hadoop1上执行 )
与普通文件系统一样,HDFS文件系统必须要先格式化,创建元数据数据结构以后才能使用。
hadoop $  /usr/local/hadoop-1.2.1/bin/hadoop namenode -format

6.2 启动集群
/usr/local/hadoop-1.2.1/bin/start-all.sh

6.3 查看集群是否启动
[hadoop@test66 hadoop]$ jps
5722 Jps
5510 SecondaryNameNode
5602 JobTracker
5327 NameNode

验证:
/usr/local/hadoop-1.2.1/bin/hadoop dfsadmin -report

数据节点上:
[hadoop@test69 ~]$ jps
1749 Jps
1574 DataNode
1673 TaskTracker


7. 各端口解释
dfs.http.address:NameNode的HTTP服务器地址和端口,默认为0.0.0.0:50070;
dfs.secondary.http.address:SecondaryNameNode的HTTP服务器地址和端口,默认为0.0.0.0:50090;
mapred.job.tracker.http.addrss:JobTracker的HTTP服务器地址和端口,默认为0.0.0.0:50030;
dfs.datanode.http.address:DataNode的HTTP服务器地址和端口,默认为0.0.0.0:50075;



++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
第二部分:安装zookeeper
++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

ZooKeeper是一个分布式开源框架,提供了协调分布式应用的基本服务,它向外部应用暴露一组通用服务——分布式同步(Distributed Synchronization)、命名服务(Naming Service)、集群维护(Group Maintenance)等,简化分布式应用协调及其管理的难度,提供高性能的分布式服务。ZooKeeper本身可以以Standalone模式安装运行,不过它的长处在于通过分布式ZooKeeper集群(一个Leader,多个Follower),基于一定的策略来保证ZooKeeper集群的稳定性和可用性,从而实现分布式应用的可靠性。

hadoop1为zookeeper1,hadoop2为zookeeper2,hadoop33为zookeeper3。

1,下载zookeeper-3.4.4解压到/usr/local/下,并修改权限
# cd /usr/local/ &amp;&amp; wget http://apache.fayea.com/zookeeper/zookeeper-3.4.6/zookeeper-3.4.6.tar.gz
# chown -R hadoop:hadoop /usr/local/zookeeper-3.4.6/

2. 配置zookeeper
vi /usr/local/zookeeper-3.4.6/zoo.cfg
tickTime=2000
initLimit=10


syncLimit=5
dataDir=/hadoop/zookeeper
clientPort=2181
server.1=hadoop1:28888:38888
server.2=hadoop2:28888:38888
server.3=hadoop3:28888:38888


3.3台机器上创建snap目录
hadoop$ mkdir -p /hadoop/zookeeper/

hadoop1$ echo "1" > /hadoop/zookeeper/myid
hadoop2$ echo "2" > /hadoop/zookeeper/myid
hadoop3$ echo "3" > /hadoop/zookeeper/myid

4. 复制zookeeper主目录到 hadoop2/hadoop3
# scp -rp /usr/local/zookeeper-3.4.6 hadoop2:/usr/local/
# scp -rp /usr/local/zookeeper-3.4.6 hadoop3:/usr/local/

hadoop1/hadoop2/hadoop3/:
# chown -R hadoop:hadoop /usr/local/zookeeper-3.4.6/

5.在对应的节点上启动服务 (3个节点都需启动)
[hadoop@hadoop01 zookeeper-3.4.4]$ sh /usr/local/zookeeper-3.4.6/bin/zkServer.sh start
三个节点启动完之后,查看
[hadoop@test66 zookeeper-3.4.6]$ jps
3564 QuorumPeerMain
2845 NameNode
3030 SecondaryNameNode
3126 JobTracker
3587 Jps

查看状态
[hadoop@hadoop01 zookeeper-3.4.4]$ sh /usr/local/zookeeper-3.4.6/bin/zkServer.sh status
Mode: follower  --表示是跟从
或者
Mode: leader


+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
第三步:安装HBase
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

1. download hbase (hadoop1)
# cd /usr/local/ &amp;&amp; wget http://mirror.bit.edu.cn/apache/hbase/hbase-0.94.27/hbase-0.94.27.tar.gz &amp;&amp; tar -zxvf hbase-0.94.27.tar.gz &amp;&amp; rm hbase-0.94.27.tar.gz
# chown -R hadoop.hadoop /usr/local/hbase-0.94.27

2.修改配置文件   - hbase-env.sh
vi /usr/local/hbase-0.94.27/conf/hbase-env.sh
export JAVA_HOME=/usr/local/jdk
export HBASE_CLASSPATH=/usr/local/hadoop-1.2.1/conf

#不是hbase自带的zookeeper
export HBASE_MANAGES_ZK=false
export HBASE_HEAPSIZE=1024

3. hbase-site.xml
hadoop $ mkdir -p /hadoop/hbase #3台主机执行。
[hadoop@test66 conf]$ cp /usr/local/hbase-0.94.27/src/main/resources/hbase-default.xml  ./hbase-site.xml

修改1:
<name>hbase.tmp.dir</name>
<value>/hadoop/hbase</value>
修改2:
<name>hbase.zookeeper.quorum</name>
<value>hadoop1,hadoop2,hadoop3</value>
修改3:
<name>hbase.cluster.distributed</name>
<value>true</value>

修改4:
<name>hbase.rootdir</name>
<value>hdfs://hadoop01:9000/hbase</value>

#hbase.rootdir : /hbase是 hbase在hdfs的实际存储为止,namenode运营在hadoop1的9000端口
#hbase.cluster.distributed: false,单机模式,true,分布式模式.如果是false则zk和hbase运行在同一个JVM


4. hadoop2/hadoop3不是hbase
[root@test66 local]# scp -rp /usr/local/hbase-0.94.27/ hadoop2:/usr/local
[root@test66 local]# scp -rp /usr/local/hbase-0.94.27/ hadoop3:/usr/local

hadoop2/hadoop3
[root@test67 ~]# chown -R hadoop.hadoop /usr/local/hbase-0.94.27/

4.启动hbase
[hadoop@test66 logs]$ /usr/local/hbase-0.94.27/bin/start-hbase.sh

5.停止hbase
[hadoop@test66 logs]$ /usr/local/hbase-0.94.27/bin/stop-hbase.sh

HBase HMaster查看hbase信息
http://192.168.12.66:60010/master-status

###
hbase异常
###
[hadoop@test66 conf]$ /usr/local/hbase-0.94.27/bin/start-hbase.sh
Exception in thread "main" java.lang.RuntimeException: hbase-default.xml file seems to be for and old version of HBase (@@@VERSION@@@), this version is 0.94.27
at org.apache.hadoop.hbase.HBaseConfiguration.checkDefaultsVersion(HBaseConfiguration.java:68)
at org.apache.hadoop.hbase.HBaseConfiguration.addHbaseResources(HBaseConfiguration.java:100
解决办法:
打开hbase-site.xml
查找 hbase.defaults.for.version.skip
将值设为true



5,连接hbase创建表
/usr/local/hbase-0.94.27/bin/hbase shell

创建一个名为 small的表,这个表只有一个 column family 为 cf。可以列出所有的表来检查创建情况,然后插入些值。
hbase(main):002:0> create 'small', 'cf'
hbase(main):006:0> list
TABLE
small
1 row(s) in 0.0300 seconds

插入一些数据
hbase(main):007:0> put 'small','r1','cf:a','v1'
0 row(s) in 0.0800 seconds

hbase(main):008:0> put 'small','r2','cf:b','v2'
0 row(s) in 0.0110 seconds

hbase(main):009:0> put 'small','r3','cf:c','v3'
0 row(s) in 0.0040 seconds

查询small表数据
hbase(main):010:0> scan 'small'
ROW                                        COLUMN+CELL
r1                                        column=cf:a, timestamp=1436252912994, value=v1
r2                                        column=cf:b, timestamp=1436252921003, value=v2
r3                                        column=cf:c, timestamp=1436252925324, value=v3
3 row(s) in 0.0290 seconds

行键、列族名、限定符、时间戳唯一标识

查询一行
hbase(main):011:0> get 'small', 'r1'
COLUMN                                     CELL
cf:a                                      timestamp=1436252912994, value=v1
1 row(s) in 0.0150 seconds


disable 再 drop 这张表,可以清除你刚刚的操作

hbase(main):012:0> disable 'small'
0 row(s) in 1.0930 seconds
hbase(main):013:0> drop 'small'
0 row(s) in 0.0770 seconds



+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
启动HBASE
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
1,启动 hadoop (只在hmaster上启动)
/usr/local/hadoop-1.2.1/bin/start-all.sh

2.启动zk (3台都需要启动)
sh /usr/local/zookeeper-3.4.6/bin/zkServer.sh start

3.启动hbase (只在hmaster上启动)
/usr/local/hbase-0.94.27/bin/start-hbase.shVC  HGFD V

  • Hadoop

    Hadoop 是由 Apache 基金会所开发的一个分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

    86 引用 • 122 回帖 • 625 关注
  • ZooKeeper

    ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,是 Google 的 Chubby 一个开源的实现,是 Hadoop 和 HBase 的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

    59 引用 • 29 回帖 • 5 关注
  • HBase

    HBase 是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的 Google 论文 “Bigtable:一个结构化数据的分布式存储系统”。就像 Bigtable 利用了 Google 文件系统所提供的分布式数据存储一样,HBase 在 Hadoop 之上提供了类似于 Bigtable 的能力。

    17 引用 • 6 回帖 • 73 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • RYMCU

    RYMCU 致力于打造一个即严谨又活泼、专业又不失有趣,为数百万人服务的开源嵌入式知识学习交流平台。

    4 引用 • 6 回帖 • 51 关注
  • jQuery

    jQuery 是一套跨浏览器的 JavaScript 库,强化 HTML 与 JavaScript 之间的操作。由 John Resig 在 2006 年 1 月的 BarCamp NYC 上释出第一个版本。全球约有 28% 的网站使用 jQuery,是非常受欢迎的 JavaScript 库。

    63 引用 • 134 回帖 • 724 关注
  • 新人

    让我们欢迎这对新人。哦,不好意思说错了,让我们欢迎这位新人!
    新手上路,请谨慎驾驶!

    52 引用 • 228 回帖 • 1 关注
  • 开源

    Open Source, Open Mind, Open Sight, Open Future!

    408 引用 • 3574 回帖
  • RESTful

    一种软件架构设计风格而不是标准,提供了一组设计原则和约束条件,主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁,更有层次,更易于实现缓存等机制。

    30 引用 • 114 回帖 • 2 关注
  • abitmean

    有点意思就行了

    29 关注
  • C

    C 语言是一门通用计算机编程语言,应用广泛。C 语言的设计目标是提供一种能以简易的方式编译、处理低级存储器、产生少量的机器码以及不需要任何运行环境支持便能运行的编程语言。

    85 引用 • 165 回帖 • 2 关注
  • NGINX

    NGINX 是一个高性能的 HTTP 和反向代理服务器,也是一个 IMAP/POP3/SMTP 代理服务器。 NGINX 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的,第一个公开版本 0.1.0 发布于 2004 年 10 月 4 日。

    311 引用 • 546 回帖
  • iOS

    iOS 是由苹果公司开发的移动操作系统,最早于 2007 年 1 月 9 日的 Macworld 大会上公布这个系统,最初是设计给 iPhone 使用的,后来陆续套用到 iPod touch、iPad 以及 Apple TV 等产品上。iOS 与苹果的 Mac OS X 操作系统一样,属于类 Unix 的商业操作系统。

    85 引用 • 139 回帖 • 1 关注
  • PHP

    PHP(Hypertext Preprocessor)是一种开源脚本语言。语法吸收了 C 语言、 Java 和 Perl 的特点,主要适用于 Web 开发领域,据说是世界上最好的编程语言。

    179 引用 • 407 回帖 • 488 关注
  • GitLab

    GitLab 是利用 Ruby 一个开源的版本管理系统,实现一个自托管的 Git 项目仓库,可通过 Web 界面操作公开或私有项目。

    46 引用 • 72 回帖
  • VirtualBox

    VirtualBox 是一款开源虚拟机软件,最早由德国 Innotek 公司开发,由 Sun Microsystems 公司出品的软件,使用 Qt 编写,在 Sun 被 Oracle 收购后正式更名成 Oracle VM VirtualBox。

    10 引用 • 2 回帖 • 6 关注
  • TextBundle

    TextBundle 文件格式旨在应用程序之间交换 Markdown 或 Fountain 之类的纯文本文件时,提供更无缝的用户体验。

    1 引用 • 2 回帖 • 47 关注
  • DNSPod

    DNSPod 建立于 2006 年 3 月份,是一款免费智能 DNS 产品。 DNSPod 可以为同时有电信、网通、教育网服务器的网站提供智能的解析,让电信用户访问电信的服务器,网通的用户访问网通的服务器,教育网的用户访问教育网的服务器,达到互联互通的效果。

    6 引用 • 26 回帖 • 510 关注
  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    93 引用 • 113 回帖
  • TensorFlow

    TensorFlow 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。

    20 引用 • 19 回帖
  • Sym

    Sym 是一款用 Java 实现的现代化社区(论坛/BBS/社交网络/博客)系统平台。

    下一代的社区系统,为未来而构建

    524 引用 • 4601 回帖 • 700 关注
  • Bug

    Bug 本意是指臭虫、缺陷、损坏、犯贫、窃听器、小虫等。现在人们把在程序中一些缺陷或问题统称为 bug(漏洞)。

    75 引用 • 1737 回帖 • 5 关注
  • 职场

    找到自己的位置,萌新烦恼少。

    127 引用 • 1705 回帖 • 1 关注
  • HBase

    HBase 是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的 Google 论文 “Bigtable:一个结构化数据的分布式存储系统”。就像 Bigtable 利用了 Google 文件系统所提供的分布式数据存储一样,HBase 在 Hadoop 之上提供了类似于 Bigtable 的能力。

    17 引用 • 6 回帖 • 73 关注
  • Vim

    Vim 是类 UNIX 系统文本编辑器 Vi 的加强版本,加入了更多特性来帮助编辑源代码。Vim 的部分增强功能包括文件比较(vimdiff)、语法高亮、全面的帮助系统、本地脚本(Vimscript)和便于选择的可视化模式。

    29 引用 • 66 回帖
  • ActiveMQ

    ActiveMQ 是 Apache 旗下的一款开源消息总线系统,它完整实现了 JMS 规范,是一个企业级的消息中间件。

    19 引用 • 13 回帖 • 670 关注
  • 导航

    各种网址链接、内容导航。

    40 引用 • 173 回帖
  • 服务

    提供一个服务绝不仅仅是简单的把硬件和软件累加在一起,它包括了服务的可靠性、服务的标准化、以及对服务的监控、维护、技术支持等。

    41 引用 • 24 回帖 • 2 关注
  • 锤子科技

    锤子科技(Smartisan)成立于 2012 年 5 月,是一家制造移动互联网终端设备的公司,公司的使命是用完美主义的工匠精神,打造用户体验一流的数码消费类产品(智能手机为主),改善人们的生活质量。

    4 引用 • 31 回帖 • 4 关注
  • Dubbo

    Dubbo 是一个分布式服务框架,致力于提供高性能和透明化的 RPC 远程服务调用方案,是 [阿里巴巴] SOA 服务化治理方案的核心框架,每天为 2,000+ 个服务提供 3,000,000,000+ 次访问量支持,并被广泛应用于阿里巴巴集团的各成员站点。

    60 引用 • 82 回帖 • 595 关注
  • Hexo

    Hexo 是一款快速、简洁且高效的博客框架,使用 Node.js 编写。

    21 引用 • 140 回帖 • 1 关注