CDH Hadoop 安装 step by step

本贴最后更新于 2835 天前,其中的信息可能已经斗转星移

1. 选用了CDH版本

参考:hadoop CDH


2. 选用了CDH最新版本 5.12

参考:Download CDH 5.12.0


3. MRv1和YARN的选择:选用YARN

参考:YARN与MRv1的对比


4. 最后选用了tarball版本,单机测试

参考:

1) Hadoop-2.5.0-cdh5.3.2 搭建单机伪分布

2) hadoop cdh5单机安装


5. hbase,同样选用了tarball版本

参考:CDH5 hadoop-hive-habse单机版配置


6. hive

参考:

1) Hive 1.1.0 集群安装配置

2) hadoop入门第七步---hive部署安装(apache-hive-1.1.0)

3) CDH5.4.5手动安装hive-1.1.0-cdh5.4.5


无水版本

1. 安装java 8


2. 设置单机ssh免密登录

3. 下载CDH tarball版本的安装包

4. 安装单机版本的Hadoop


1) 设置环境变量


vim ~/.bashrc


新增内容如下:
export HADOOP_BASE_HOME=/home/hadoop/share/hadoop
export HADOOP_HOME=${HADOOP_BASE_HOME}/hadoop-2.6.0-cdh5.12.0
export HBASE_HOME=${HADOOP_BASE_HOME}/hbase-1.2.0-cdh5.12.0
export HIVE_HOME=${HADOOP_BASE_HOME}/hive-1.1.0-cdh5.12.0

export PATH=PATH:{HADOOP_HOME}/bin:{HADOOP_HOME}/sbin{HBASE_HOME}/bin:${HIVE_HOME}/bin


2) 编辑 ${HADOOP_HOME}/etc/hadoop/hadoop-env.sh


修改对应的行:


export JAVA_HOME=/usr/local/java/
3) 编辑 ${HADOOP_HOME}/etc/hadoop/core-site.xml




<configuration>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/home/abeffect/data/hadoop</value>
        </property>
        <property>
                 <name>fs.default.name</name>
                 <value>hdfs://localhost:9000</value>
        </property>
</configuration>
4) 编辑 ${HADOOP_HOME}/etc/hadoop/hdfs-site.xml



<configuration>
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>file:/home/abeffect/data/nameNode</value>
                <final>true</final>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:/home/abeffect/data/dataNode</value>
        </property>
        <property>
                <name>dfs.replication</name>
                <value>1</value>
        </property>
        <property>
               <name>dfs.permissions</name>
               <value>false</value>
        </property>
        <property>
                <name>dfs.permissions</name>
                <value>false</value>
        </property>
</configuration>
5) cp ${HADOOP_HOME}/etc/hadoop/mapred-site.xml.template ${HADOOP_HOME}/etc/hadoop/mapred-site.xml


编辑 ${HADOOP_HOME}/etc/hadoop/mapred-site.xml

<configuration>
       <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
        <property>
                <name>mapreduce.job.tracker</name>
                <value>localhost:90010</value>
        </property>
        <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>loclhost</value>
                <description>hostanem of RM</description>
        </property>
        <property>
                 <name>yarn.nodemanager.aux-services</name>
                 <value>mapreduce.shuffle</value>
                 <description>shuffle service that needs to be set for Map Reduce to run </description>
         </property>
         <property>
                <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
                <value>org.apache.hadoop.mapred.ShuffleHandler</value>
         </property>
</configuration>
6) 格式化namenode 


hdfs namenode -format 


正常会有提示:common.Storage: Storage directory /home/abeffect/data/nameNode has been successfully formatted.


7) 启动集群 start-all.sh


8) 访问:http://localhost:50070 来查看web页面


5. 安装单机版本的hbase

1) 下载 tar

2) 编辑 vim ${HBASE_HOME}/conf/hbase-env.sh 

修改对应的行

export JAVA_HOME=/usr/local/java/

export HBASE_MANAGES_ZK=true


3) 编辑 vim ${HBASE_HOME}/conf/hbase-site.xml

修改对应的行

<configuration>
	<property>
		<name>hbase.rootdir</name>
		<value>hdfs://localhost:9000/hbase</value>
	</property>
</configuration>


4) 启动 

start-hbase.sh


5) 检测状态:

hbase hbck


结果有:

Status: OK


6) 启动web页面

hbase rest start


6. 安装单机版本的hive

1) 下载tarball文件

2) 编辑 ${HIVE_HOME}/bin/hive-config.sh 文件


export JAVA_HOME=/usr/local/java
export HADOOP_BASE_HOME=/home/abeffect/share/hadoop
export HADOOP_HOME=${HADOOP_BASE_HOME}/hadoop-2.6.0-cdh5.12.0
export HBASE_HOME=${HADOOP_BASE_HOME}/hbase-1.2.0-cdh5.12.0
export HIVE_HOME=${HADOOP_BASE_HOME}/hive-1.1.0-cdh5.12.0

export PATH=PATH:{HADOOP_HOME}/bin:{HADOOP_HOME}/sbin:{HBASE_HOME}/bin:${HIVE_HOME}/bin
export CLASSPATH=.:JAVA_HOME/lib/dt.jar:JAVA_HOME/lib/tools.jar:HIVE_HOME/lib:{HBASE_HOME}/lib


3) hive 使用什么样的元数据库,一处是如果要想启动 hive 的 web 管理页面,需要配置 hive 的 web 端 war 包。


hive的元数据库可以用自身的derby,也可以用mysql


4) 重命名

mv ${HIVE_HOME}/conf/hive-env.sh.template ${HIVE_HOME}/conf/hive-env.sh


编辑 ${HIVE_HOME}/conf/hive-env.sh


末尾增加


export HADOOP_BASE_HOME=/home/abeffect/share/hadoop
export HADOOP_HOME=${HADOOP_BASE_HOME}/hadoop-2.6.0-cdh5.12.0
export HIVE_HOME=${HADOOP_BASE_HOME}/hive-1.1.0-cdh5.12.0
export HIVE_CONF_DIR=${HIVE_HOME}/conf
export HIVE_AUX_JARS_PATH=${HIVE_HOME}/lib









  • Hadoop

    Hadoop 是由 Apache 基金会所开发的一个分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

    89 引用 • 122 回帖 • 618 关注
  • property
    5 引用 • 2 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • Ubuntu

    Ubuntu(友帮拓、优般图、乌班图)是一个以桌面应用为主的 Linux 操作系统,其名称来自非洲南部祖鲁语或豪萨语的“ubuntu”一词,意思是“人性”、“我的存在是因为大家的存在”,是非洲传统的一种价值观,类似华人社会的“仁爱”思想。Ubuntu 的目标在于为一般用户提供一个最新的、同时又相当稳定的主要由自由软件构建而成的操作系统。

    127 引用 • 169 回帖
  • C

    C 语言是一门通用计算机编程语言,应用广泛。C 语言的设计目标是提供一种能以简易的方式编译、处理低级存储器、产生少量的机器码以及不需要任何运行环境支持便能运行的编程语言。

    86 引用 • 165 回帖 • 1 关注
  • Jenkins

    Jenkins 是一套开源的持续集成工具。它提供了非常丰富的插件,让构建、部署、自动化集成项目变得简单易用。

    54 引用 • 37 回帖 • 1 关注
  • DNSPod

    DNSPod 建立于 2006 年 3 月份,是一款免费智能 DNS 产品。 DNSPod 可以为同时有电信、网通、教育网服务器的网站提供智能的解析,让电信用户访问电信的服务器,网通的用户访问网通的服务器,教育网的用户访问教育网的服务器,达到互联互通的效果。

    6 引用 • 26 回帖 • 529 关注
  • BND

    BND(Baidu Netdisk Downloader)是一款图形界面的百度网盘不限速下载器,支持 Windows、Linux 和 Mac,详细介绍请看这里

    107 引用 • 1281 回帖 • 34 关注
  • CSDN

    CSDN (Chinese Software Developer Network) 创立于 1999 年,是中国的 IT 社区和服务平台,为中国的软件开发者和 IT 从业者提供知识传播、职业发展、软件开发等全生命周期服务,满足他们在职业发展中学习及共享知识和信息、建立职业发展社交圈、通过软件开发实现技术商业化等刚性需求。

    14 引用 • 155 回帖
  • Gitea

    Gitea 是一个开源社区驱动的轻量级代码托管解决方案,后端采用 Go 编写,采用 MIT 许可证。

    5 引用 • 16 回帖 • 2 关注
  • 笔记

    好记性不如烂笔头。

    310 引用 • 794 回帖
  • Logseq

    Logseq 是一个隐私优先、开源的知识库工具。

    Logseq is a joyful, open-source outliner that works on top of local plain-text Markdown and Org-mode files. Use it to write, organize and share your thoughts, keep your to-do list, and build your own digital garden.

    7 引用 • 69 回帖
  • Pipe

    Pipe 是一款小而美的开源博客平台。Pipe 有着非常活跃的社区,可将文章作为帖子推送到社区,来自社区的回帖将作为博客评论进行联动(具体细节请浏览 B3log 构思 - 分布式社区网络)。

    这是一种全新的网络社区体验,让热爱记录和分享的你不再感到孤单!

    133 引用 • 1124 回帖 • 115 关注
  • 又拍云

    又拍云是国内领先的 CDN 服务提供商,国家工信部认证通过的“可信云”,乌云众测平台认证的“安全云”,为移动时代的创业者提供新一代的 CDN 加速服务。

    20 引用 • 37 回帖 • 572 关注
  • webpack

    webpack 是一个用于前端开发的模块加载器和打包工具,它能把各种资源,例如 JS、CSS(less/sass)、图片等都作为模块来使用和处理。

    42 引用 • 130 回帖 • 251 关注
  • 快应用

    快应用 是基于手机硬件平台的新型应用形态;标准是由主流手机厂商组成的快应用联盟联合制定;快应用标准的诞生将在研发接口、能力接入、开发者服务等层面建设标准平台;以平台化的生态模式对个人开发者和企业开发者全品类开放。

    15 引用 • 127 回帖 • 5 关注
  • Elasticsearch

    Elasticsearch 是一个基于 Lucene 的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于 RESTful 接口。Elasticsearch 是用 Java 开发的,并作为 Apache 许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。

    117 引用 • 99 回帖 • 204 关注
  • Linux

    Linux 是一套免费使用和自由传播的类 Unix 操作系统,是一个基于 POSIX 和 Unix 的多用户、多任务、支持多线程和多 CPU 的操作系统。它能运行主要的 Unix 工具软件、应用程序和网络协议,并支持 32 位和 64 位硬件。Linux 继承了 Unix 以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。

    952 引用 • 944 回帖
  • 996
    13 引用 • 200 回帖 • 5 关注
  • Ant-Design

    Ant Design 是服务于企业级产品的设计体系,基于确定和自然的设计价值观上的模块化解决方案,让设计者和开发者专注于更好的用户体验。

    17 引用 • 23 回帖 • 1 关注
  • DevOps

    DevOps(Development 和 Operations 的组合词)是一组过程、方法与系统的统称,用于促进开发(应用程序/软件工程)、技术运营和质量保障(QA)部门之间的沟通、协作与整合。

    58 引用 • 25 回帖 • 1 关注
  • Chrome

    Chrome 又称 Google 浏览器,是一个由谷歌公司开发的网页浏览器。该浏览器是基于其他开源软件所编写,包括 WebKit,目标是提升稳定性、速度和安全性,并创造出简单且有效率的使用者界面。

    63 引用 • 289 回帖
  • SOHO

    为成为自由职业者在家办公而努力吧!

    7 引用 • 55 回帖 • 1 关注
  • 以太坊

    以太坊(Ethereum)并不是一个机构,而是一款能够在区块链上实现智能合约、开源的底层系统。以太坊是一个平台和一种编程语言 Solidity,使开发人员能够建立和发布下一代去中心化应用。 以太坊可以用来编程、分散、担保和交易任何事物:投票、域名、金融交易所、众筹、公司管理、合同和知识产权等等。

    34 引用 • 367 回帖 • 3 关注
  • 脑图

    脑图又叫思维导图,是表达发散性思维的有效图形思维工具 ,它简单却又很有效,是一种实用性的思维工具。

    32 引用 • 99 回帖
  • ZeroNet

    ZeroNet 是一个基于比特币加密技术和 BT 网络技术的去中心化的、开放开源的网络和交流系统。

    1 引用 • 21 回帖 • 650 关注
  • 国际化

    i18n(其来源是英文单词 internationalization 的首末字符 i 和 n,18 为中间的字符数)是“国际化”的简称。对程序来说,国际化是指在不修改代码的情况下,能根据不同语言及地区显示相应的界面。

    8 引用 • 26 回帖 • 2 关注
  • 百度

    百度(Nasdaq:BIDU)是全球最大的中文搜索引擎、最大的中文网站。2000 年 1 月由李彦宏创立于北京中关村,致力于向人们提供“简单,可依赖”的信息获取方式。“百度”二字源于中国宋朝词人辛弃疾的《青玉案·元夕》词句“众里寻他千百度”,象征着百度对中文信息检索技术的执著追求。

    63 引用 • 785 回帖 • 91 关注
  • Quicker

    Quicker 您的指尖工具箱!操作更少,收获更多!

    37 引用 • 157 回帖
  • Oracle

    Oracle(甲骨文)公司,全称甲骨文股份有限公司(甲骨文软件系统有限公司),是全球最大的企业级软件公司,总部位于美国加利福尼亚州的红木滩。1989 年正式进入中国市场。2013 年,甲骨文已超越 IBM,成为继 Microsoft 后全球第二大软件公司。

    107 引用 • 127 回帖 • 339 关注