CDH Hadoop 安装 step by step

本贴最后更新于 2790 天前,其中的信息可能已经斗转星移

1. 选用了CDH版本

参考:hadoop CDH


2. 选用了CDH最新版本 5.12

参考:Download CDH 5.12.0


3. MRv1和YARN的选择:选用YARN

参考:YARN与MRv1的对比


4. 最后选用了tarball版本,单机测试

参考:

1) Hadoop-2.5.0-cdh5.3.2 搭建单机伪分布

2) hadoop cdh5单机安装


5. hbase,同样选用了tarball版本

参考:CDH5 hadoop-hive-habse单机版配置


6. hive

参考:

1) Hive 1.1.0 集群安装配置

2) hadoop入门第七步---hive部署安装(apache-hive-1.1.0)

3) CDH5.4.5手动安装hive-1.1.0-cdh5.4.5


无水版本

1. 安装java 8


2. 设置单机ssh免密登录

3. 下载CDH tarball版本的安装包

4. 安装单机版本的Hadoop


1) 设置环境变量


vim ~/.bashrc


新增内容如下:
export HADOOP_BASE_HOME=/home/hadoop/share/hadoop
export HADOOP_HOME=${HADOOP_BASE_HOME}/hadoop-2.6.0-cdh5.12.0
export HBASE_HOME=${HADOOP_BASE_HOME}/hbase-1.2.0-cdh5.12.0
export HIVE_HOME=${HADOOP_BASE_HOME}/hive-1.1.0-cdh5.12.0

export PATH=PATH:{HADOOP_HOME}/bin:{HADOOP_HOME}/sbin{HBASE_HOME}/bin:${HIVE_HOME}/bin


2) 编辑 ${HADOOP_HOME}/etc/hadoop/hadoop-env.sh


修改对应的行:


export JAVA_HOME=/usr/local/java/
3) 编辑 ${HADOOP_HOME}/etc/hadoop/core-site.xml




<configuration>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/home/abeffect/data/hadoop</value>
        </property>
        <property>
                 <name>fs.default.name</name>
                 <value>hdfs://localhost:9000</value>
        </property>
</configuration>
4) 编辑 ${HADOOP_HOME}/etc/hadoop/hdfs-site.xml



<configuration>
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>file:/home/abeffect/data/nameNode</value>
                <final>true</final>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:/home/abeffect/data/dataNode</value>
        </property>
        <property>
                <name>dfs.replication</name>
                <value>1</value>
        </property>
        <property>
               <name>dfs.permissions</name>
               <value>false</value>
        </property>
        <property>
                <name>dfs.permissions</name>
                <value>false</value>
        </property>
</configuration>
5) cp ${HADOOP_HOME}/etc/hadoop/mapred-site.xml.template ${HADOOP_HOME}/etc/hadoop/mapred-site.xml


编辑 ${HADOOP_HOME}/etc/hadoop/mapred-site.xml

<configuration>
       <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
        <property>
                <name>mapreduce.job.tracker</name>
                <value>localhost:90010</value>
        </property>
        <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>loclhost</value>
                <description>hostanem of RM</description>
        </property>
        <property>
                 <name>yarn.nodemanager.aux-services</name>
                 <value>mapreduce.shuffle</value>
                 <description>shuffle service that needs to be set for Map Reduce to run </description>
         </property>
         <property>
                <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
                <value>org.apache.hadoop.mapred.ShuffleHandler</value>
         </property>
</configuration>
6) 格式化namenode 


hdfs namenode -format 


正常会有提示:common.Storage: Storage directory /home/abeffect/data/nameNode has been successfully formatted.


7) 启动集群 start-all.sh


8) 访问:http://localhost:50070 来查看web页面


5. 安装单机版本的hbase

1) 下载 tar

2) 编辑 vim ${HBASE_HOME}/conf/hbase-env.sh 

修改对应的行

export JAVA_HOME=/usr/local/java/

export HBASE_MANAGES_ZK=true


3) 编辑 vim ${HBASE_HOME}/conf/hbase-site.xml

修改对应的行

<configuration>
	<property>
		<name>hbase.rootdir</name>
		<value>hdfs://localhost:9000/hbase</value>
	</property>
</configuration>


4) 启动 

start-hbase.sh


5) 检测状态:

hbase hbck


结果有:

Status: OK


6) 启动web页面

hbase rest start


6. 安装单机版本的hive

1) 下载tarball文件

2) 编辑 ${HIVE_HOME}/bin/hive-config.sh 文件


export JAVA_HOME=/usr/local/java
export HADOOP_BASE_HOME=/home/abeffect/share/hadoop
export HADOOP_HOME=${HADOOP_BASE_HOME}/hadoop-2.6.0-cdh5.12.0
export HBASE_HOME=${HADOOP_BASE_HOME}/hbase-1.2.0-cdh5.12.0
export HIVE_HOME=${HADOOP_BASE_HOME}/hive-1.1.0-cdh5.12.0

export PATH=PATH:{HADOOP_HOME}/bin:{HADOOP_HOME}/sbin:{HBASE_HOME}/bin:${HIVE_HOME}/bin
export CLASSPATH=.:JAVA_HOME/lib/dt.jar:JAVA_HOME/lib/tools.jar:HIVE_HOME/lib:{HBASE_HOME}/lib


3) hive 使用什么样的元数据库,一处是如果要想启动 hive 的 web 管理页面,需要配置 hive 的 web 端 war 包。


hive的元数据库可以用自身的derby,也可以用mysql


4) 重命名

mv ${HIVE_HOME}/conf/hive-env.sh.template ${HIVE_HOME}/conf/hive-env.sh


编辑 ${HIVE_HOME}/conf/hive-env.sh


末尾增加


export HADOOP_BASE_HOME=/home/abeffect/share/hadoop
export HADOOP_HOME=${HADOOP_BASE_HOME}/hadoop-2.6.0-cdh5.12.0
export HIVE_HOME=${HADOOP_BASE_HOME}/hive-1.1.0-cdh5.12.0
export HIVE_CONF_DIR=${HIVE_HOME}/conf
export HIVE_AUX_JARS_PATH=${HIVE_HOME}/lib









  • Hadoop

    Hadoop 是由 Apache 基金会所开发的一个分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

    87 引用 • 122 回帖 • 629 关注
  • property
    5 引用 • 2 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • Git

    Git 是 Linux Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。

    211 引用 • 358 回帖
  • Visio
    1 引用 • 2 回帖 • 1 关注
  • 服务

    提供一个服务绝不仅仅是简单的把硬件和软件累加在一起,它包括了服务的可靠性、服务的标准化、以及对服务的监控、维护、技术支持等。

    41 引用 • 24 回帖
  • 微信

    腾讯公司 2011 年 1 月 21 日推出的一款手机通讯软件。用户可以通过摇一摇、搜索号码、扫描二维码等添加好友和关注公众平台,同时可以将自己看到的精彩内容分享到微信朋友圈。

    132 引用 • 796 回帖
  • 又拍云

    又拍云是国内领先的 CDN 服务提供商,国家工信部认证通过的“可信云”,乌云众测平台认证的“安全云”,为移动时代的创业者提供新一代的 CDN 加速服务。

    20 引用 • 37 回帖 • 569 关注
  • frp

    frp 是一个可用于内网穿透的高性能的反向代理应用,支持 TCP、UDP、 HTTP 和 HTTPS 协议。

    20 引用 • 7 回帖 • 1 关注
  • Hprose

    Hprose 是一款先进的轻量级、跨语言、跨平台、无侵入式、高性能动态远程对象调用引擎库。它不仅简单易用,而且功能强大。你无需专门学习,只需看上几眼,就能用它轻松构建分布式应用系统。

    9 引用 • 17 回帖 • 616 关注
  • WordPress

    WordPress 是一个使用 PHP 语言开发的博客平台,用户可以在支持 PHP 和 MySQL 数据库的服务器上架设自己的博客。也可以把 WordPress 当作一个内容管理系统(CMS)来使用。WordPress 是一个免费的开源项目,在 GNU 通用公共许可证(GPLv2)下授权发布。

    66 引用 • 114 回帖 • 201 关注
  • V2EX

    V2EX 是创意工作者们的社区。这里目前汇聚了超过 400,000 名主要来自互联网行业、游戏行业和媒体行业的创意工作者。V2EX 希望能够成为创意工作者们的生活和事业的一部分。

    16 引用 • 236 回帖 • 277 关注
  • SQLite

    SQLite 是一个进程内的库,实现了自给自足的、无服务器的、零配置的、事务性的 SQL 数据库引擎。SQLite 是全世界使用最为广泛的数据库引擎。

    5 引用 • 7 回帖
  • 一些有用的避坑指南。

    69 引用 • 93 回帖
  • 脑图

    脑图又叫思维导图,是表达发散性思维的有效图形思维工具 ,它简单却又很有效,是一种实用性的思维工具。

    31 引用 • 96 回帖 • 1 关注
  • ZeroNet

    ZeroNet 是一个基于比特币加密技术和 BT 网络技术的去中心化的、开放开源的网络和交流系统。

    1 引用 • 21 回帖 • 639 关注
  • Flutter

    Flutter 是谷歌的移动 UI 框架,可以快速在 iOS 和 Android 上构建高质量的原生用户界面。 Flutter 可以与现有的代码一起工作,它正在被越来越多的开发者和组织使用,并且 Flutter 是完全免费、开源的。

    39 引用 • 92 回帖
  • 以太坊

    以太坊(Ethereum)并不是一个机构,而是一款能够在区块链上实现智能合约、开源的底层系统。以太坊是一个平台和一种编程语言 Solidity,使开发人员能够建立和发布下一代去中心化应用。 以太坊可以用来编程、分散、担保和交易任何事物:投票、域名、金融交易所、众筹、公司管理、合同和知识产权等等。

    34 引用 • 367 回帖
  • Google

    Google(Google Inc.,NASDAQ:GOOG)是一家美国上市公司(公有股份公司),于 1998 年 9 月 7 日以私有股份公司的形式创立,设计并管理一个互联网搜索引擎。Google 公司的总部称作“Googleplex”,它位于加利福尼亚山景城。Google 目前被公认为是全球规模最大的搜索引擎,它提供了简单易用的免费服务。不作恶(Don't be evil)是谷歌公司的一项非正式的公司口号。

    49 引用 • 192 回帖
  • Linux

    Linux 是一套免费使用和自由传播的类 Unix 操作系统,是一个基于 POSIX 和 Unix 的多用户、多任务、支持多线程和多 CPU 的操作系统。它能运行主要的 Unix 工具软件、应用程序和网络协议,并支持 32 位和 64 位硬件。Linux 继承了 Unix 以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。

    950 引用 • 943 回帖
  • NGINX

    NGINX 是一个高性能的 HTTP 和反向代理服务器,也是一个 IMAP/POP3/SMTP 代理服务器。 NGINX 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的,第一个公开版本 0.1.0 发布于 2004 年 10 月 4 日。

    315 引用 • 547 回帖
  • 电影

    这是一个不能说的秘密。

    122 引用 • 608 回帖
  • Postman

    Postman 是一款简单好用的 HTTP API 调试工具。

    4 引用 • 3 回帖 • 2 关注
  • OAuth

    OAuth 协议为用户资源的授权提供了一个安全的、开放而又简易的标准。与以往的授权方式不同之处是 oAuth 的授权不会使第三方触及到用户的帐号信息(如用户名与密码),即第三方无需使用用户的用户名与密码就可以申请获得该用户资源的授权,因此 oAuth 是安全的。oAuth 是 Open Authorization 的简写。

    36 引用 • 103 回帖 • 28 关注
  • 学习

    “梦想从学习开始,事业从实践起步” —— 习近平

    172 引用 • 513 回帖
  • etcd

    etcd 是一个分布式、高可用的 key-value 数据存储,专门用于在分布式系统中保存关键数据。

    6 引用 • 26 回帖 • 547 关注
  • 京东

    京东是中国最大的自营式电商企业,2015 年第一季度在中国自营式 B2C 电商市场的占有率为 56.3%。2014 年 5 月,京东在美国纳斯达克证券交易所正式挂牌上市(股票代码:JD),是中国第一个成功赴美上市的大型综合型电商平台,与腾讯、百度等中国互联网巨头共同跻身全球前十大互联网公司排行榜。

    14 引用 • 102 回帖 • 319 关注
  • 钉钉

    钉钉,专为中国企业打造的免费沟通协同多端平台, 阿里巴巴出品。

    15 引用 • 67 回帖 • 296 关注
  • RemNote
    2 引用 • 16 回帖 • 9 关注
  • ReactiveX

    ReactiveX 是一个专注于异步编程与控制可观察数据(或者事件)流的 API。它组合了观察者模式,迭代器模式和函数式编程的优秀思想。

    1 引用 • 2 回帖 • 174 关注