大数据
- Volume:大量
- Velocity:高速
- Variety:多样
- Value:价值
- Veracity:真实
Hadoop 解决方案
大数据背景下的数据处理和存储采用高性能的 PC,来进行计算,仍不能满足数据的增长和性能的要求,Hadoop 分布式系统采用分而治之的策略,放弃了原始的磁盘阵列,使用本地磁盘作为存储,解决硬盘故障,减少对于硬件的依赖,采用多台廉价的 PC 分别处理大量数据中的一部分数据,最终将结果汇总。
Hadoop 简介
Apache 的 Hadoop 项目™️®️可靠的、可扩展的开发开源软件,分布式计算。Apache Hadoop 软件库是一个框架,允许使用简单的编程模型在计算机集群中对大型数据集进行分布式处理。它被设计成从单个服务器扩展到数千台机器,每个机器都提供本地计算和存储。而不是依靠硬件来提供高可用性,库本身的目的是检测和处理应用层的故障,因此在一组计算机上提供高可用性服务,每一台计算机都容易出现故障。
- 存储可靠性:如果有机器损坏,首先考虑数据丢失的问题。Hadoop 中的 HDFS 文件系统提供了一种策略设置副本数(默认副本个数为:3)。如果是伪分布就设置为 1。
- 可扩展性:原本有 20 台机器,在这基础上可任意添加多台机器
- 可以运行在廉价的机器上,要求不高,成本低。
Hadoop2.x 核心组件
- Hadoop Common:为其他模块提供常用工具,包括配置工具,远程过程调用 RPC,序列化机制。
- Hadoop Distributed File Sysyem(HDFS):Hadoop 分布式文件系统。
- Hadoop YARN:任务调度和资源管理的框架,诞生于 Hadoop2.x 版本。
- Hadoop MapReduce:分布式并行计算模型。
欢迎来到这里!
我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。
注册 关于