CentOS7 安装伪分布式 Hadoop 2.6.5

0.准备环境

单节点：

主机名	CPU	内存	IP
node0	1c	2G	10.4.96.3

配置安装环境

更改主机名为 node0
配置 ssh 秘钥验证，达到无需密码验证登录本节点 root 用户的效果(ssh root@10.4.96.3)
配置/etc/hosts 文件，通过 node0 即可域名解析到对应 IP (10.4.96.3)
配置正确的时区和时间同步服务

关闭防火墙


[root@node0 ~]# vim /etc/selinux/config
...
SELINUX=disabled
...
[root@node0 ~]# setenforce 0
[root@node0 ~]# getenforce
Permissive
[root@node0 ~]# systemctl stop firewalld
[root@node0 ~]# systemctl disable firewalld


[root@node0 default]# pwd
/usr/java/default
[root@node0 default]# tail -n5 /etc/profile

#Java Environment variables
export JAVA_HOME=/usr/java/default
export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib
export PATH=$PATH:$JAVA_HOME/bin

[root@node0 default]# source /etc/profile


[root@node0 default]# which java
/usr/bin/java
[root@node0 default]# java -version
java version "1.8.0_251"
Java(TM) SE Runtime Environment (build 1.8.0_251-b08)
Java HotSpot(TM) 64-Bit Server VM (build 25.251-b08, mixed mode)

1. Hadoop 应用部署

伪分布式安装需要单节点具备所有角色

host	NN	SNN	DN
node0	*	*	*

安装应用

下载 Hadoop 安装包到 /usr/local/src 目录下

https://archive.apache.org/dist/hadoop/core/hadoop-2.6.5/hadoop-2.6.5.tar.gz


[root@node0 src]# ls
hadoop-2.6.5.tar.gz  jdk-8u251-linux-x64.rpm

创建安装目录


[root@node0 ~]# mkdir /opt/bigdata

分发到安装目录


[root@node0 ~]# cd /opt/bigdata/
[root@node0 bigdata]# tar zxf /usr/local/src/hadoop-2.6.5.tar.gz
[root@node0 bigdata]# ls
hadoop-2.6.5
[root@node0 bigdata]# chown -R root:root hadoop-2.6.5

配置环境变量


[root@node0 ~]# tail -n3 /etc/profile
#Hadoop Environment variables
export HADOOP_HOME=/opt/bigdata/hadoop-2.6.5
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
[root@node0 ~]# source /etc/profile

配置应用

配置 hadoop-env.sh 文件


[root@node0 hadoop]# pwd
/opt/bigdata/hadoop-2.6.5/etc/hadoop
[root@node0 hadoop]# vim hadoop-env.sh
...
export JAVA_HOME=/usr/java/default

配置 core-site.xml 文件


[root@node0 hadoop]# vim core-site.xml
...
<configuration>
    <!--指定namenode的地址-->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://node0:9000</value>
    </property>
</configuration>

配置 hdfs-site.xml 文件


[root@node0 hadoop]# vim hdfs-site.xml
...
<configuration>
    <!--指定hdfs保存数据的副本数量-->
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <!--指定NN保存元数据的位置-->
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/var/bigdata/hadoop/local/dfs/name</value>
    </property>
    <!--指定DN保存block的位置-->
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/var/bigdata/hadoop/local/dfs/data</value>
    </property>
    <!--指定SNN的位置-->
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>node0:50090</value>
    </property>
    <!--指定SNN存储fsimage、editlog的位置-->
    <property>
        <name>dfs.namenode.checkpoint.dir</name>
        <value>/var/bigdata/hadoop/local/dfs/secondary</value>
    </property>
</configuration>

配置 DN 分布的节点，加入 slaves 文件


[root@node0 hadoop]# vim slaves
node0

2. 初始化和启动应用

对负责元数据的 NN 做格式化


[root@node0 ~]# hdfs namenode -format


[root@node0 ~]# ls /var/bigdata/hadoop/local/dfs/name/current/
fsimage_0000000000000000000  fsimage_0000000000000000000.md5  seen_txid  VERSION

启动 NN daemon 和 DN daemon：


[root@node0 ~]# start-dfs.sh


[root@node0 ~]# jps
6001 Jps
5628 NameNode
5742 DataNode
5886 SecondaryNameNode
[root@node0 ~]# ls /var/bigdata/hadoop/local/dfs/
data  name  secondary

访问 NN 的 web 页面

http://10.4.96.3:50070/

Kafka 元数据管理

KIP-500 在 Kafka2.8 之前，Kafka 一直使用 Zookeeper1来存储和管理 Partition3和 Broker4的元数据。以及选举一个 Broker 作为 Kafka 控制器 Kafka 与 Zookeeper5 Kafka 移除 Zookeeper1的动机提高元数据管理的鲁棒性和可扩展性 ..

Raft 算法

[图片] 简介 Raft 算法实际上是 Multi-Paxos 的一个变种，通过新增两个约束：追加日志约束：Raft 中追加节点的日志必须是串行连续的，而 Multi-Paxos 中则可以并发追加日志（实际上 Multi-Paxos 的并发也只是针对日志追加，最后应用到内部 State Machine 的时候还是必 ..

分布式锁介绍和一些例子

[图片] 背景多进程和多线程中有时候需要加锁，分布式锁是不同主机的不同线程之间需要加锁，加锁的目的就是保证数据一致性，防止数据竞争，单机中有很多保证数据一致性的手段，比如互斥锁、信号量、条件变量等等，那么多主机多线程就需要分布式锁分布式锁是个啥分布式锁其实算一种资源，存储在网络主机上，根据不同的手段来实现互斥加锁 ..

Zookeeper 基础（一）

1.什么是 zookeeper 官方文档上这么解释 zookeeper，它是一个分布式协调框架，是 Apache Hadoop 的一个子项目，它主要是用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。 [图片] 2.zeekeeper 核心概念文件 ..

分布式事务基础

[图片] 1.事务的基本概念事务一般指的是逻辑上的一组操作，或者作为单个逻辑单元执行的一系列操作。同属于一个事务的操作会作为一个整体提交给系统，这些操作要么全部执行成功，要么全部执行失败。 2.事务的特性总体来说，事务存在四大特性，分别是： - 原子性（Atomic） - 一致性（Consistency） - 隔离 ..

【Hadoop 仿真】如何在仿真 NodeManager 中实现心跳

[图片] 背景 Hadoop 自带的 hadoop-sls 只能用于压测调度器，可在实际中影响 ResourceManager 性能的因素比较多，不能只看调度器。当前项目可构造海量的 Fake NM 节点，用于模拟线上 RM 的巨大压力场景，进行优化。首先需要对 NM 进行仿真。仿真 NodeManager 仿真 N ..

Mapredcue 作业启动

作业启动作业提交的客户端比较核心的类是 Job.java，看作业启动的源码需要从这个类开始看。 Job.java 作业启动的入口函数为 waitForCompletion 函数。当前函数的核心函数为 submit()，主要如下： public void submit() throws IOException, Int ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

CentOS7 安装伪分布式 Hadoop 2.6.5