Hadoop学习笔记

本贴最后更新于 3231 天前,其中的信息可能已经渤澥桑田

编译,由于官网上下载的是32位版本的,如果我们的服务器是64位的,需要自己手动编译

安装

  1. 安装前请先安装jdk

  2. 配置hadoop

    • 进入etc/hadoop
    • 修改hadoop-env.sh,添加java环境变量(根据Hadoop自己的方式找有可能找不到,这里我们直接指定)
    • 修改core-site.xml

      1. <property>
      2. <name>fs.defaultFS</name>
      3. <value>hdfs://centos100.annpeter.cn:9000</value>
      4. </property>
      5. <property>
      6. <name>hadoop.tmp.dir</name> <!--hadoop工作目录-->
      7. <value>/usr/local/hadoop-2.7.2/tmp</value>
      8. </property>
    • 修改hdfs-site.xml

      1. <property>
      2. <name>dfs.replication</name>
      3. <value>1</value>
      4. </property>
    • 修改mapred-site.xml

      1. <property>
      2. <name>mapreduce.framework.name</name>
      3. <value>yarn</value>
      4. </property>
    • 修改yarn-site.xml

      1. <property>
      2. <name>yarn.resourcemanager.hostname</name>
      3. <value>centos100.annpeter.cn</value>
      4. </property>
      5. <property>
      6. <name>yarn.nodemanager.aux-services</name>
      7. <value>mapreduce_shuffle</value>
      8. </property>
  3. 启动
    在启动前,我们可以将Hadoop的命令加入环境变量

    export HADOOP_HOME=/usr/local/hadoop-2.7.2
    export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

    关闭防火墙

    $ service iptables stop
    $ chkconfig iptables off

    格式化文件系统

    $ hadoop namenode -format

    启动HFS

    $ start-dfs.sh

    启动后可以使用jps查看启动的进程

    启动yarn(启动后,可以通过浏览器访问50070端口,查看你的DFS)

    $ start-yarn.sh

    测试文件存储功能,上传、下载一个文件(在写路径时,可以直接写uri,省略协议和域名)

    $ hadoop fs -put XX.tar.gz hdfs://centos100.annpeter.cn
    $ hadoop fs -get /XX.tar.gz

    测试运行jar(Hadoop安装目录中有一个例子程序/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar)

    $ hadoop jar hadoop-mapreduce-examples-2.7.2.jar pi 5 5 (计算圆周率pi)

  • Hadoop

    Hadoop 是由 Apache 基金会所开发的一个分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

    87 引用 • 122 回帖 • 628 关注
  • property
    5 引用 • 2 回帖
  • value
    2 引用 • 2 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • 88250

    把内容也同步过来吧,社区已经加入了 【源】原址链接了。

  • zempty

    文章好深奥,然而滑稽神早已看穿了这一切。滑稽

推荐标签 标签

  • Dubbo

    Dubbo 是一个分布式服务框架,致力于提供高性能和透明化的 RPC 远程服务调用方案,是 [阿里巴巴] SOA 服务化治理方案的核心框架,每天为 2,000+ 个服务提供 3,000,000,000+ 次访问量支持,并被广泛应用于阿里巴巴集团的各成员站点。

    60 引用 • 82 回帖 • 610 关注
  • Git

    Git 是 Linux Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。

    211 引用 • 358 回帖 • 1 关注
  • 周末

    星期六到星期天晚,实行五天工作制后,指每周的最后两天。再过几年可能就是三天了。

    14 引用 • 297 回帖 • 3 关注
  • Maven

    Maven 是基于项目对象模型(POM)、通过一小段描述信息来管理项目的构建、报告和文档的软件项目管理工具。

    186 引用 • 318 回帖 • 260 关注
  • Quicker

    Quicker 您的指尖工具箱!操作更少,收获更多!

    36 引用 • 155 回帖 • 1 关注
  • Flume

    Flume 是一套分布式的、可靠的,可用于有效地收集、聚合和搬运大量日志数据的服务架构。

    9 引用 • 6 回帖 • 653 关注
  • Gzip

    gzip (GNU zip)是 GNU 自由软件的文件压缩程序。我们在 Linux 中经常会用到后缀为 .gz 的文件,它们就是 Gzip 格式的。现今已经成为互联网上使用非常普遍的一种数据压缩格式,或者说一种文件格式。

    9 引用 • 12 回帖 • 170 关注
  • C

    C 语言是一门通用计算机编程语言,应用广泛。C 语言的设计目标是提供一种能以简易的方式编译、处理低级存储器、产生少量的机器码以及不需要任何运行环境支持便能运行的编程语言。

    85 引用 • 165 回帖
  • 生活

    生活是指人类生存过程中的各项活动的总和,范畴较广,一般指为幸福的意义而存在。生活实际上是对人生的一种诠释。生活包括人类在社会中与自己息息相关的日常活动和心理影射。

    230 引用 • 1454 回帖
  • 阿里云

    阿里云是阿里巴巴集团旗下公司,是全球领先的云计算及人工智能科技公司。提供云服务器、云数据库、云安全等云计算服务,以及大数据、人工智能服务、精准定制基于场景的行业解决方案。

    84 引用 • 324 回帖
  • 服务

    提供一个服务绝不仅仅是简单的把硬件和软件累加在一起,它包括了服务的可靠性、服务的标准化、以及对服务的监控、维护、技术支持等。

    41 引用 • 24 回帖
  • MySQL

    MySQL 是一个关系型数据库管理系统,由瑞典 MySQL AB 公司开发,目前属于 Oracle 公司。MySQL 是最流行的关系型数据库管理系统之一。

    692 引用 • 535 回帖
  • 招聘

    哪里都缺人,哪里都不缺人。

    189 引用 • 1057 回帖 • 1 关注
  • Caddy

    Caddy 是一款默认自动启用 HTTPS 的 HTTP/2 Web 服务器。

    12 引用 • 54 回帖 • 168 关注
  • Latke

    Latke 是一款以 JSON 为主的 Java Web 框架。

    71 引用 • 535 回帖 • 819 关注
  • 开源

    Open Source, Open Mind, Open Sight, Open Future!

    409 引用 • 3586 回帖
  • WebSocket

    WebSocket 是 HTML5 中定义的一种新协议,它实现了浏览器与服务器之间的全双工通信(full-duplex)。

    48 引用 • 206 回帖 • 296 关注
  • 游戏

    沉迷游戏伤身,强撸灰飞烟灭。

    180 引用 • 821 回帖
  • 微软

    微软是一家美国跨国科技公司,也是世界 PC 软件开发的先导,由比尔·盖茨与保罗·艾伦创办于 1975 年,公司总部设立在华盛顿州的雷德蒙德(Redmond,邻近西雅图)。以研发、制造、授权和提供广泛的电脑软件服务业务为主。

    8 引用 • 44 回帖
  • RYMCU

    RYMCU 致力于打造一个即严谨又活泼、专业又不失有趣,为数百万人服务的开源嵌入式知识学习交流平台。

    4 引用 • 6 回帖 • 54 关注
  • JSON

    JSON (JavaScript Object Notation)是一种轻量级的数据交换格式。易于人类阅读和编写。同时也易于机器解析和生成。

    52 引用 • 190 回帖 • 3 关注
  • ngrok

    ngrok 是一个反向代理,通过在公共的端点和本地运行的 Web 服务器之间建立一个安全的通道。

    7 引用 • 63 回帖 • 647 关注
  • CongSec

    本标签主要用于分享网络空间安全专业的学习笔记

    1 引用 • 1 回帖 • 23 关注
  • Excel
    31 引用 • 28 回帖
  • TextBundle

    TextBundle 文件格式旨在应用程序之间交换 Markdown 或 Fountain 之类的纯文本文件时,提供更无缝的用户体验。

    1 引用 • 2 回帖 • 73 关注
  • Kotlin

    Kotlin 是一种在 Java 虚拟机上运行的静态类型编程语言,由 JetBrains 设计开发并开源。Kotlin 可以编译成 Java 字节码,也可以编译成 JavaScript,方便在没有 JVM 的设备上运行。在 Google I/O 2017 中,Google 宣布 Kotlin 成为 Android 官方开发语言。

    19 引用 • 33 回帖 • 74 关注
  • V2Ray
    1 引用 • 15 回帖