基于 hadoop-2.7.3 安装使用

参考地址：

将下载好的 hadoop-2.7.3.tar.gz 上传到 centos 7 指定目录进行解压：

tar -zxvf hadoop-2.7.3.tar.gz -C /home/training

修改环境变量：

vi /etc/profile


  HADOOP_HOME=/home/training/hadoop-2.7.3
  export HADOOP_HOME
  PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
  export PATH

记得刷新下配置：

source /etc/profile

Hadoop 的安装模式：

<1> 本地模式（一台）：
特点：没有 HDFS、只能测试 MapReduce 程序
MapReduce 处理的是本地 Linux 的文件数据（下面的配置一定要记得配上去）

vi hadoop-env.sh

export JAVA_HOME=/home/training/jdk1.8.0_144

测试 MapReduce 程序：

创建目录 mkdir ~/input
运行例子：/home/training/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar

<2> 伪分布模式（一台 192.168.1.222）：
特点：是在单机上，模拟一个分布式的环境
具备 Hadoop 的主要功能
HDFS: namenode+datanode+secondarynamenode
Yarn: resourcemanager + nodemanager

进入到 hadoop 配置文件目录：
cd /home/training/hadoop-2.7.3/etc/hadoop

hdfs-site.xml (原则：一般数据块的冗余度跟数据节点（DataNode）的个数一致；最大不超过 3)

<!--表示数据块的冗余度，默认：3-->
<property>
   <name>dfs.replication</name>
   <value>1</value>
</property>
先不设置
<!--是否开启HDFS的权限检查，默认true-->
<property>
   <name>dfs.permissions</name>
   <value>false</value>
</property>

core-site.xml

<!--配置NameNode地址,9000是RPC通信端口-->
<property>
   <name>fs.defaultFS</name>
   <value>hdfs://192.168.1.222:9000</value>
</property> 
<!--HDFS数据保存在Linux的哪个目录，默认值是Linux的tmp目录-->
<property>
   <name>hadoop.tmp.dir</name>
   <value>/home/training/hadoop-2.7.3/tmp</value>
</property>

mapred-site.xml 默认没有
cp mapred-site.xml.template mapred-site.xml

<!--MR运行的框架-->
<property>
   <name>mapreduce.framework.name</name>
   <value>yarn</value>
</property>
<!--Yarn的主节点RM的位置-->
<property>
   <name>yarn.resourcemanager.hostname</name>
   <value>192.168.1.222</value>
</property> 
<!--MapReduce运行方式：shuffle洗牌-->
<property>
   <name>yarn.nodemanager.aux-services</name>
   <value>mapreduce_shuffle</value>
</property>

yarn-site.xml

<!--Yarn的主节点RM的位置-->
<property>
   <name>yarn.resourcemanager.hostname</name>
   <value>192.168.1.222</value>
</property>	
<!--MapReduce运行方式：shuffle洗牌-->
<property>
   <name>yarn.nodemanager.aux-services</name>
   <value>mapreduce_shuffle</value>
</property>

格式化：HDFS（NameNode）
hdfs namenode -format
日志(格式化成功)：
Storage directory /root/training/hadoop-2.7.3/tmp/dfs/name has been successfully formatted.
启动停止 Hadoop 的环境：
start-all.sh && stop-all.sh

访问：通过 Web 界面：
HDFS: http://192.168.1.222:50070
Yarn: http://192.168.1.222:8088
运行例子:
/home/training/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar
hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /input/data.txt /output/0407
注意：一定配置免密码登录：原理、配置

【bigdata】4.hive 安装

hive的全部安装过程都是在master节点安装 hive 1.上传并解压 tar -zxvf apache-hive-1.2.2-bin.tar.gz -C /hive安装目录 2.配置环境 2.1 配置 hive-env.sh # 跳转到hive配置文件目录 cd /hive安装目录/conf # 修改名称 mv ..

【bigdata】1.hadoop 集群搭建

安装虚拟机打开 VMware-》文件-》新建虚拟机：默认典型，下一步 [图片] 选择镜像文件位置，下一步 [图片] 设置用户名密码，下一步（注意，有些镜像是在安装过程中设置，我用的镜像是：CentOS-7-x86_64-DVD-1804.iso，18 年版本的都能先设置用户名密码，后面全程自动安装） [图片] 设置 ..

流批一体在京东的探索与实践

01 整体思考 [图片] 提到流批一体，不得不提传统的大数据平台 —— Lambda 架构。它能够有效地支撑离线和实时的数据开发需求，但它流和批两条数据链路割裂所导致的高开发维护成本以及数据口径不一致是无法忽视的缺陷。通过一套数据链路来同时满足流和批的数据处理需求是最理想的情况，即流批一体。此外我们认为流批一体还存在 ..

Flink 流数据 api 实战之实现机器学习密度峰值聚类算法

[图片] 案例背景此案例的数据源为通过 GPS 定位产生的经纬度信息返回到服务器，然后通过调用特定的定位接口来变成一片特定区域的平面图的 x 和 y 坐标。同一个人收集到的坐标集加上特定的 id 作为标签。此案例的数据源的类型为实时流式数据，其中最大的特点就是有头无尾，只要开启收集程序，就会收集到源源不断的流式数据 ..

史上最全! 保姆级 Hadoop 安装教学

[图片] 学大数据,不管怎么样始终都绕不开 Hadoop 这个黄色的小象 [图片] 而安装 Hadoop 可以说是进入大数据领域的第一步了,作为学校里大数据专业还在坚持学大数据的同学,经过这几年的学习还是积累了些许经验的,来一波保姆级 Hadoop 安装教学. 首先默认你有些许 Linux 的基础,并且电脑上已经安装好 ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于