Apache Hadoop2.x 概述与基本模块

本贴最后更新于 2165 天前,其中的信息可能已经时异事殊

大数据

  • Volume:大量
  • Velocity:高速
  • Variety:多样
  • Value:价值
  • Veracity:真实

Hadoop 解决方案

大数据背景下的数据处理和存储采用高性能的 PC,来进行计算,仍不能满足数据的增长和性能的要求,Hadoop 分布式系统采用分而治之的策略,放弃了原始的磁盘阵列,使用本地磁盘作为存储,解决硬盘故障,减少对于硬件的依赖,采用多台廉价的 PC 分别处理大量数据中的一部分数据,最终将结果汇总。

Hadoop 简介

Apache 的 Hadoop 项目™️®️可靠的、可扩展的开发开源软件,分布式计算。Apache Hadoop 软件库是一个框架,允许使用简单的编程模型在计算机集群中对大型数据集进行分布式处理。它被设计成从单个服务器扩展到数千台机器,每个机器都提供本地计算和存储。而不是依靠硬件来提供高可用性,库本身的目的是检测和处理应用层的故障,因此在一组计算机上提供高可用性服务,每一台计算机都容易出现故障。

  • 存储可靠性:如果有机器损坏,首先考虑数据丢失的问题。Hadoop 中的 HDFS 文件系统提供了一种策略设置副本数(默认副本个数为:3)。如果是伪分布就设置为 1。
  • 可扩展性:原本有 20 台机器,在这基础上可任意添加多台机器
  • 可以运行在廉价的机器上,要求不高,成本低。

Hadoop2.x 核心组件

  • Hadoop Common:为其他模块提供常用工具,包括配置工具,远程过程调用 RPC,序列化机制。
  • Hadoop Distributed File Sysyem(HDFS):Hadoop 分布式文件系统。
  • Hadoop YARN:任务调度和资源管理的框架,诞生于 Hadoop2.x 版本。
  • Hadoop MapReduce:分布式并行计算模型。

Hadoop2.x 架构图

f074dbe78c664fb0814a460e084e8946-image.png

  • Hadoop

    Hadoop 是由 Apache 基金会所开发的一个分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

    86 引用 • 122 回帖 • 625 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
rzx
此生最怕深情被辜负,最怕兄弟成陌路。对世界充满善意,同时又充满深深的恨意,我渴望天降甘霖福泽众生,又渴望灭世洪水重创世纪。 广州