CDH Hadoop 安装 step by step

本贴最后更新于 2654 天前,其中的信息可能已经斗转星移

1. 选用了CDH版本

参考:hadoop CDH


2. 选用了CDH最新版本 5.12

参考:Download CDH 5.12.0


3. MRv1和YARN的选择:选用YARN

参考:YARN与MRv1的对比


4. 最后选用了tarball版本,单机测试

参考:

1) Hadoop-2.5.0-cdh5.3.2 搭建单机伪分布

2) hadoop cdh5单机安装


5. hbase,同样选用了tarball版本

参考:CDH5 hadoop-hive-habse单机版配置


6. hive

参考:

1) Hive 1.1.0 集群安装配置

2) hadoop入门第七步---hive部署安装(apache-hive-1.1.0)

3) CDH5.4.5手动安装hive-1.1.0-cdh5.4.5


无水版本

1. 安装java 8


2. 设置单机ssh免密登录

3. 下载CDH tarball版本的安装包

4. 安装单机版本的Hadoop


1) 设置环境变量


vim ~/.bashrc


新增内容如下:
export HADOOP_BASE_HOME=/home/hadoop/share/hadoop
export HADOOP_HOME=${HADOOP_BASE_HOME}/hadoop-2.6.0-cdh5.12.0
export HBASE_HOME=${HADOOP_BASE_HOME}/hbase-1.2.0-cdh5.12.0
export HIVE_HOME=${HADOOP_BASE_HOME}/hive-1.1.0-cdh5.12.0

export PATH=PATH:{HADOOP_HOME}/bin:{HADOOP_HOME}/sbin{HBASE_HOME}/bin:${HIVE_HOME}/bin


2) 编辑 ${HADOOP_HOME}/etc/hadoop/hadoop-env.sh


修改对应的行:


export JAVA_HOME=/usr/local/java/
3) 编辑 ${HADOOP_HOME}/etc/hadoop/core-site.xml




<configuration>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/home/abeffect/data/hadoop</value>
        </property>
        <property>
                 <name>fs.default.name</name>
                 <value>hdfs://localhost:9000</value>
        </property>
</configuration>
4) 编辑 ${HADOOP_HOME}/etc/hadoop/hdfs-site.xml



<configuration>
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>file:/home/abeffect/data/nameNode</value>
                <final>true</final>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:/home/abeffect/data/dataNode</value>
        </property>
        <property>
                <name>dfs.replication</name>
                <value>1</value>
        </property>
        <property>
               <name>dfs.permissions</name>
               <value>false</value>
        </property>
        <property>
                <name>dfs.permissions</name>
                <value>false</value>
        </property>
</configuration>
5) cp ${HADOOP_HOME}/etc/hadoop/mapred-site.xml.template ${HADOOP_HOME}/etc/hadoop/mapred-site.xml


编辑 ${HADOOP_HOME}/etc/hadoop/mapred-site.xml

<configuration>
       <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
        <property>
                <name>mapreduce.job.tracker</name>
                <value>localhost:90010</value>
        </property>
        <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>loclhost</value>
                <description>hostanem of RM</description>
        </property>
        <property>
                 <name>yarn.nodemanager.aux-services</name>
                 <value>mapreduce.shuffle</value>
                 <description>shuffle service that needs to be set for Map Reduce to run </description>
         </property>
         <property>
                <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
                <value>org.apache.hadoop.mapred.ShuffleHandler</value>
         </property>
</configuration>
6) 格式化namenode 


hdfs namenode -format 


正常会有提示:common.Storage: Storage directory /home/abeffect/data/nameNode has been successfully formatted.


7) 启动集群 start-all.sh


8) 访问:http://localhost:50070 来查看web页面


5. 安装单机版本的hbase

1) 下载 tar

2) 编辑 vim ${HBASE_HOME}/conf/hbase-env.sh 

修改对应的行

export JAVA_HOME=/usr/local/java/

export HBASE_MANAGES_ZK=true


3) 编辑 vim ${HBASE_HOME}/conf/hbase-site.xml

修改对应的行

<configuration>
	<property>
		<name>hbase.rootdir</name>
		<value>hdfs://localhost:9000/hbase</value>
	</property>
</configuration>


4) 启动 

start-hbase.sh


5) 检测状态:

hbase hbck


结果有:

Status: OK


6) 启动web页面

hbase rest start


6. 安装单机版本的hive

1) 下载tarball文件

2) 编辑 ${HIVE_HOME}/bin/hive-config.sh 文件


export JAVA_HOME=/usr/local/java
export HADOOP_BASE_HOME=/home/abeffect/share/hadoop
export HADOOP_HOME=${HADOOP_BASE_HOME}/hadoop-2.6.0-cdh5.12.0
export HBASE_HOME=${HADOOP_BASE_HOME}/hbase-1.2.0-cdh5.12.0
export HIVE_HOME=${HADOOP_BASE_HOME}/hive-1.1.0-cdh5.12.0

export PATH=PATH:{HADOOP_HOME}/bin:{HADOOP_HOME}/sbin:{HBASE_HOME}/bin:${HIVE_HOME}/bin
export CLASSPATH=.:JAVA_HOME/lib/dt.jar:JAVA_HOME/lib/tools.jar:HIVE_HOME/lib:{HBASE_HOME}/lib


3) hive 使用什么样的元数据库,一处是如果要想启动 hive 的 web 管理页面,需要配置 hive 的 web 端 war 包。


hive的元数据库可以用自身的derby,也可以用mysql


4) 重命名

mv ${HIVE_HOME}/conf/hive-env.sh.template ${HIVE_HOME}/conf/hive-env.sh


编辑 ${HIVE_HOME}/conf/hive-env.sh


末尾增加


export HADOOP_BASE_HOME=/home/abeffect/share/hadoop
export HADOOP_HOME=${HADOOP_BASE_HOME}/hadoop-2.6.0-cdh5.12.0
export HIVE_HOME=${HADOOP_BASE_HOME}/hive-1.1.0-cdh5.12.0
export HIVE_CONF_DIR=${HIVE_HOME}/conf
export HIVE_AUX_JARS_PATH=${HIVE_HOME}/lib









  • Hadoop

    Hadoop 是由 Apache 基金会所开发的一个分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

    86 引用 • 122 回帖 • 616 关注
  • property
    5 引用 • 2 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • 单点登录

    单点登录(Single Sign On)是目前比较流行的企业业务整合的解决方案之一。SSO 的定义是在多个应用系统中,用户只需要登录一次就可以访问所有相互信任的应用系统。

    9 引用 • 25 回帖
  • SOHO

    为成为自由职业者在家办公而努力吧!

    7 引用 • 55 回帖 • 18 关注
  • Elasticsearch

    Elasticsearch 是一个基于 Lucene 的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于 RESTful 接口。Elasticsearch 是用 Java 开发的,并作为 Apache 许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。

    117 引用 • 99 回帖 • 223 关注
  • Linux

    Linux 是一套免费使用和自由传播的类 Unix 操作系统,是一个基于 POSIX 和 Unix 的多用户、多任务、支持多线程和多 CPU 的操作系统。它能运行主要的 Unix 工具软件、应用程序和网络协议,并支持 32 位和 64 位硬件。Linux 继承了 Unix 以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。

    939 引用 • 940 回帖
  • PostgreSQL

    PostgreSQL 是一款功能强大的企业级数据库系统,在 BSD 开源许可证下发布。

    22 引用 • 22 回帖 • 1 关注
  • 酷鸟浏览器

    安全 · 稳定 · 快速
    为跨境从业人员提供专业的跨境浏览器

    3 引用 • 59 回帖 • 31 关注
  • golang

    Go 语言是 Google 推出的一种全新的编程语言,可以在不损失应用程序性能的情况下降低代码的复杂性。谷歌首席软件工程师罗布派克(Rob Pike)说:我们之所以开发 Go,是因为过去 10 多年间软件开发的难度令人沮丧。Go 是谷歌 2009 发布的第二款编程语言。

    497 引用 • 1387 回帖 • 294 关注
  • SQLServer

    SQL Server 是由 [微软] 开发和推广的关系数据库管理系统(DBMS),它最初是由 微软、Sybase 和 Ashton-Tate 三家公司共同开发的,并于 1988 年推出了第一个 OS/2 版本。

    19 引用 • 31 回帖
  • Git

    Git 是 Linux Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。

    209 引用 • 358 回帖
  • 小说

    小说是以刻画人物形象为中心,通过完整的故事情节和环境描写来反映社会生活的文学体裁。

    28 引用 • 108 回帖
  • WiFiDog

    WiFiDog 是一套开源的无线热点认证管理工具,主要功能包括:位置相关的内容递送;用户认证和授权;集中式网络监控。

    1 引用 • 7 回帖 • 586 关注
  • 宕机

    宕机,多指一些网站、游戏、网络应用等服务器一种区别于正常运行的状态,也叫“Down 机”、“当机”或“死机”。宕机状态不仅仅是指服务器“挂掉了”、“死机了”状态,也包括服务器假死、停用、关闭等一些原因而导致出现的不能够正常运行的状态。

    13 引用 • 82 回帖 • 53 关注
  • Mobi.css

    Mobi.css is a lightweight, flexible CSS framework that focus on mobile.

    1 引用 • 6 回帖 • 733 关注
  • 服务器

    服务器,也称伺服器,是提供计算服务的设备。由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。

    124 引用 • 580 回帖
  • 旅游

    希望你我能在旅途中找到人生的下一站。

    90 引用 • 899 回帖
  • OkHttp

    OkHttp 是一款 HTTP & HTTP/2 客户端库,专为 Android 和 Java 应用打造。

    16 引用 • 6 回帖 • 60 关注
  • BAE

    百度应用引擎(Baidu App Engine)提供了 PHP、Java、Python 的执行环境,以及云存储、消息服务、云数据库等全面的云服务。它可以让开发者实现自动地部署和管理应用,并且提供动态扩容和负载均衡的运行环境,让开发者不用考虑高成本的运维工作,只需专注于业务逻辑,大大降低了开发者学习和迁移的成本。

    19 引用 • 75 回帖 • 632 关注
  • GitBook

    GitBook 使您的团队可以轻松编写和维护高质量的文档。 分享知识,提高团队的工作效率,让用户满意。

    3 引用 • 8 回帖 • 2 关注
  • 代码片段

    代码片段分为 CSS 与 JS 两种代码,添加在 [设置 - 外观 - 代码片段] 中,这些代码会在思源笔记加载时自动执行,用于改善笔记的样式或功能。

    用户在该标签下分享代码片段时需在帖子标题前添加 [css] [js] 用于区分代码片段类型。

    54 引用 • 292 回帖
  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    22019 引用 • 87804 回帖 • 2 关注
  • JVM

    JVM(Java Virtual Machine)Java 虚拟机是一个微型操作系统,有自己的硬件构架体系,还有相应的指令系统。能够识别 Java 独特的 .class 文件(字节码),能够将这些文件中的信息读取出来,使得 Java 程序只需要生成 Java 虚拟机上的字节码后就能在不同操作系统平台上进行运行。

    180 引用 • 120 回帖 • 1 关注
  • 创业

    你比 99% 的人都优秀么?

    84 引用 • 1399 回帖 • 1 关注
  • Flume

    Flume 是一套分布式的、可靠的,可用于有效地收集、聚合和搬运大量日志数据的服务架构。

    9 引用 • 6 回帖 • 621 关注
  • RabbitMQ

    RabbitMQ 是一个开源的 AMQP 实现,服务器端用 Erlang 语言编写,支持多种语言客户端,如:Python、Ruby、.NET、Java、C、PHP、ActionScript 等。用于在分布式系统中存储转发消息,在易用性、扩展性、高可用性等方面表现不俗。

    49 引用 • 60 回帖 • 366 关注
  • OnlyOffice
    4 引用 • 2 关注
  • Netty

    Netty 是一个基于 NIO 的客户端-服务器编程框架,使用 Netty 可以让你快速、简单地开发出一个可维护、高性能的网络应用,例如实现了某种协议的客户、服务端应用。

    49 引用 • 33 回帖 • 19 关注
  • 反馈

    Communication channel for makers and users.

    123 引用 • 911 回帖 • 237 关注