CDH Hadoop 安装 step by step

本贴最后更新于 2701 天前,其中的信息可能已经斗转星移

1. 选用了CDH版本

参考:hadoop CDH


2. 选用了CDH最新版本 5.12

参考:Download CDH 5.12.0


3. MRv1和YARN的选择:选用YARN

参考:YARN与MRv1的对比


4. 最后选用了tarball版本,单机测试

参考:

1) Hadoop-2.5.0-cdh5.3.2 搭建单机伪分布

2) hadoop cdh5单机安装


5. hbase,同样选用了tarball版本

参考:CDH5 hadoop-hive-habse单机版配置


6. hive

参考:

1) Hive 1.1.0 集群安装配置

2) hadoop入门第七步---hive部署安装(apache-hive-1.1.0)

3) CDH5.4.5手动安装hive-1.1.0-cdh5.4.5


无水版本

1. 安装java 8


2. 设置单机ssh免密登录

3. 下载CDH tarball版本的安装包

4. 安装单机版本的Hadoop


1) 设置环境变量


vim ~/.bashrc


新增内容如下:
export HADOOP_BASE_HOME=/home/hadoop/share/hadoop
export HADOOP_HOME=${HADOOP_BASE_HOME}/hadoop-2.6.0-cdh5.12.0
export HBASE_HOME=${HADOOP_BASE_HOME}/hbase-1.2.0-cdh5.12.0
export HIVE_HOME=${HADOOP_BASE_HOME}/hive-1.1.0-cdh5.12.0

export PATH=PATH:{HADOOP_HOME}/bin:{HADOOP_HOME}/sbin{HBASE_HOME}/bin:${HIVE_HOME}/bin


2) 编辑 ${HADOOP_HOME}/etc/hadoop/hadoop-env.sh


修改对应的行:


export JAVA_HOME=/usr/local/java/
3) 编辑 ${HADOOP_HOME}/etc/hadoop/core-site.xml




<configuration>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/home/abeffect/data/hadoop</value>
        </property>
        <property>
                 <name>fs.default.name</name>
                 <value>hdfs://localhost:9000</value>
        </property>
</configuration>
4) 编辑 ${HADOOP_HOME}/etc/hadoop/hdfs-site.xml



<configuration>
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>file:/home/abeffect/data/nameNode</value>
                <final>true</final>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:/home/abeffect/data/dataNode</value>
        </property>
        <property>
                <name>dfs.replication</name>
                <value>1</value>
        </property>
        <property>
               <name>dfs.permissions</name>
               <value>false</value>
        </property>
        <property>
                <name>dfs.permissions</name>
                <value>false</value>
        </property>
</configuration>
5) cp ${HADOOP_HOME}/etc/hadoop/mapred-site.xml.template ${HADOOP_HOME}/etc/hadoop/mapred-site.xml


编辑 ${HADOOP_HOME}/etc/hadoop/mapred-site.xml

<configuration>
       <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
        <property>
                <name>mapreduce.job.tracker</name>
                <value>localhost:90010</value>
        </property>
        <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>loclhost</value>
                <description>hostanem of RM</description>
        </property>
        <property>
                 <name>yarn.nodemanager.aux-services</name>
                 <value>mapreduce.shuffle</value>
                 <description>shuffle service that needs to be set for Map Reduce to run </description>
         </property>
         <property>
                <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
                <value>org.apache.hadoop.mapred.ShuffleHandler</value>
         </property>
</configuration>
6) 格式化namenode 


hdfs namenode -format 


正常会有提示:common.Storage: Storage directory /home/abeffect/data/nameNode has been successfully formatted.


7) 启动集群 start-all.sh


8) 访问:http://localhost:50070 来查看web页面


5. 安装单机版本的hbase

1) 下载 tar

2) 编辑 vim ${HBASE_HOME}/conf/hbase-env.sh 

修改对应的行

export JAVA_HOME=/usr/local/java/

export HBASE_MANAGES_ZK=true


3) 编辑 vim ${HBASE_HOME}/conf/hbase-site.xml

修改对应的行

<configuration>
	<property>
		<name>hbase.rootdir</name>
		<value>hdfs://localhost:9000/hbase</value>
	</property>
</configuration>


4) 启动 

start-hbase.sh


5) 检测状态:

hbase hbck


结果有:

Status: OK


6) 启动web页面

hbase rest start


6. 安装单机版本的hive

1) 下载tarball文件

2) 编辑 ${HIVE_HOME}/bin/hive-config.sh 文件


export JAVA_HOME=/usr/local/java
export HADOOP_BASE_HOME=/home/abeffect/share/hadoop
export HADOOP_HOME=${HADOOP_BASE_HOME}/hadoop-2.6.0-cdh5.12.0
export HBASE_HOME=${HADOOP_BASE_HOME}/hbase-1.2.0-cdh5.12.0
export HIVE_HOME=${HADOOP_BASE_HOME}/hive-1.1.0-cdh5.12.0

export PATH=PATH:{HADOOP_HOME}/bin:{HADOOP_HOME}/sbin:{HBASE_HOME}/bin:${HIVE_HOME}/bin
export CLASSPATH=.:JAVA_HOME/lib/dt.jar:JAVA_HOME/lib/tools.jar:HIVE_HOME/lib:{HBASE_HOME}/lib


3) hive 使用什么样的元数据库,一处是如果要想启动 hive 的 web 管理页面,需要配置 hive 的 web 端 war 包。


hive的元数据库可以用自身的derby,也可以用mysql


4) 重命名

mv ${HIVE_HOME}/conf/hive-env.sh.template ${HIVE_HOME}/conf/hive-env.sh


编辑 ${HIVE_HOME}/conf/hive-env.sh


末尾增加


export HADOOP_BASE_HOME=/home/abeffect/share/hadoop
export HADOOP_HOME=${HADOOP_BASE_HOME}/hadoop-2.6.0-cdh5.12.0
export HIVE_HOME=${HADOOP_BASE_HOME}/hive-1.1.0-cdh5.12.0
export HIVE_CONF_DIR=${HIVE_HOME}/conf
export HIVE_AUX_JARS_PATH=${HIVE_HOME}/lib









  • Hadoop

    Hadoop 是由 Apache 基金会所开发的一个分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

    86 引用 • 122 回帖 • 627 关注
  • property
    5 引用 • 2 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • Ubuntu

    Ubuntu(友帮拓、优般图、乌班图)是一个以桌面应用为主的 Linux 操作系统,其名称来自非洲南部祖鲁语或豪萨语的“ubuntu”一词,意思是“人性”、“我的存在是因为大家的存在”,是非洲传统的一种价值观,类似华人社会的“仁爱”思想。Ubuntu 的目标在于为一般用户提供一个最新的、同时又相当稳定的主要由自由软件构建而成的操作系统。

    126 引用 • 169 回帖
  • Thymeleaf

    Thymeleaf 是一款用于渲染 XML/XHTML/HTML5 内容的模板引擎。类似 Velocity、 FreeMarker 等,它也可以轻易的与 Spring 等 Web 框架进行集成作为 Web 应用的模板引擎。与其它模板引擎相比,Thymeleaf 最大的特点是能够直接在浏览器中打开并正确显示模板页面,而不需要启动整个 Web 应用。

    11 引用 • 19 回帖 • 364 关注
  • SendCloud

    SendCloud 由搜狐武汉研发中心孵化的项目,是致力于为开发者提供高质量的触发邮件服务的云端邮件发送平台,为开发者提供便利的 API 接口来调用服务,让邮件准确迅速到达用户收件箱并获得强大的追踪数据。

    2 引用 • 8 回帖 • 486 关注
  • 导航

    各种网址链接、内容导航。

    42 引用 • 175 回帖
  • CentOS

    CentOS(Community Enterprise Operating System)是 Linux 发行版之一,它是来自于 Red Hat Enterprise Linux 依照开放源代码规定释出的源代码所编译而成。由于出自同样的源代码,因此有些要求高度稳定的服务器以 CentOS 替代商业版的 Red Hat Enterprise Linux 使用。两者的不同在于 CentOS 并不包含封闭源代码软件。

    238 引用 • 224 回帖
  • Hprose

    Hprose 是一款先进的轻量级、跨语言、跨平台、无侵入式、高性能动态远程对象调用引擎库。它不仅简单易用,而且功能强大。你无需专门学习,只需看上几眼,就能用它轻松构建分布式应用系统。

    9 引用 • 17 回帖 • 612 关注
  • 微软

    微软是一家美国跨国科技公司,也是世界 PC 软件开发的先导,由比尔·盖茨与保罗·艾伦创办于 1975 年,公司总部设立在华盛顿州的雷德蒙德(Redmond,邻近西雅图)。以研发、制造、授权和提供广泛的电脑软件服务业务为主。

    8 引用 • 44 回帖 • 1 关注
  • 星云链

    星云链是一个开源公链,业内简单的将其称为区块链上的谷歌。其实它不仅仅是区块链搜索引擎,一个公链的所有功能,它基本都有,比如你可以用它来开发部署你的去中心化的 APP,你可以在上面编写智能合约,发送交易等等。3 分钟快速接入星云链 (NAS) 测试网

    3 引用 • 16 回帖 • 6 关注
  • LeetCode

    LeetCode(力扣)是一个全球极客挚爱的高质量技术成长平台,想要学习和提升专业能力从这里开始,充足技术干货等你来啃,轻松拿下 Dream Offer!

    209 引用 • 72 回帖
  • OpenShift

    红帽提供的 PaaS 云,支持多种编程语言,为开发人员提供了更为灵活的框架、存储选择。

    14 引用 • 20 回帖 • 632 关注
  • 开源

    Open Source, Open Mind, Open Sight, Open Future!

    407 引用 • 3578 回帖 • 1 关注
  • Ruby

    Ruby 是一种开源的面向对象程序设计的服务器端脚本语言,在 20 世纪 90 年代中期由日本的松本行弘(まつもとゆきひろ/Yukihiro Matsumoto)设计并开发。在 Ruby 社区,松本也被称为马茨(Matz)。

    7 引用 • 31 回帖 • 216 关注
  • OAuth

    OAuth 协议为用户资源的授权提供了一个安全的、开放而又简易的标准。与以往的授权方式不同之处是 oAuth 的授权不会使第三方触及到用户的帐号信息(如用户名与密码),即第三方无需使用用户的用户名与密码就可以申请获得该用户资源的授权,因此 oAuth 是安全的。oAuth 是 Open Authorization 的简写。

    36 引用 • 103 回帖 • 17 关注
  • JSON

    JSON (JavaScript Object Notation)是一种轻量级的数据交换格式。易于人类阅读和编写。同时也易于机器解析和生成。

    52 引用 • 190 回帖
  • 国际化

    i18n(其来源是英文单词 internationalization 的首末字符 i 和 n,18 为中间的字符数)是“国际化”的简称。对程序来说,国际化是指在不修改代码的情况下,能根据不同语言及地区显示相应的界面。

    8 引用 • 26 回帖 • 1 关注
  • PostgreSQL

    PostgreSQL 是一款功能强大的企业级数据库系统,在 BSD 开源许可证下发布。

    22 引用 • 22 回帖 • 1 关注
  • TGIF

    Thank God It's Friday! 感谢老天,总算到星期五啦!

    288 引用 • 4485 回帖 • 663 关注
  • 宕机

    宕机,多指一些网站、游戏、网络应用等服务器一种区别于正常运行的状态,也叫“Down 机”、“当机”或“死机”。宕机状态不仅仅是指服务器“挂掉了”、“死机了”状态,也包括服务器假死、停用、关闭等一些原因而导致出现的不能够正常运行的状态。

    13 引用 • 82 回帖 • 59 关注
  • 友情链接

    确认过眼神后的灵魂连接,站在链在!

    24 引用 • 373 回帖
  • WebClipper

    Web Clipper 是一款浏览器剪藏扩展,它可以帮助你把网页内容剪藏到本地。

    3 引用 • 9 回帖 • 4 关注
  • etcd

    etcd 是一个分布式、高可用的 key-value 数据存储,专门用于在分布式系统中保存关键数据。

    5 引用 • 26 回帖 • 528 关注
  • 服务器

    服务器,也称伺服器,是提供计算服务的设备。由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。

    125 引用 • 588 回帖
  • C++

    C++ 是在 C 语言的基础上开发的一种通用编程语言,应用广泛。C++ 支持多种编程范式,面向对象编程、泛型编程和过程化编程。

    107 引用 • 153 回帖
  • 创业

    你比 99% 的人都优秀么?

    85 引用 • 1399 回帖 • 1 关注
  • JWT

    JWT(JSON Web Token)是一种用于双方之间传递信息的简洁的、安全的表述性声明规范。JWT 作为一个开放的标准(RFC 7519),定义了一种简洁的,自包含的方法用于通信双方之间以 JSON 的形式安全的传递信息。

    20 引用 • 15 回帖 • 6 关注
  • 架构

    我们平时所说的“架构”主要是指软件架构,这是有关软件整体结构与组件的抽象描述,用于指导软件系统各个方面的设计。另外还有“业务架构”、“网络架构”、“硬件架构”等细分领域。

    142 引用 • 442 回帖 • 1 关注
  • 强迫症

    强迫症(OCD)属于焦虑障碍的一种类型,是一组以强迫思维和强迫行为为主要临床表现的神经精神疾病,其特点为有意识的强迫和反强迫并存,一些毫无意义、甚至违背自己意愿的想法或冲动反反复复侵入患者的日常生活。

    15 引用 • 161 回帖 • 2 关注