Spark 发展历程与基本概念

Hadoop 十年

找了一张 Hadoop 十年的生态发展图：

Spark 概况：

Apache Spark 是一个开源簇运算框架，最初是由加州大学柏克莱分校 AMPLab 所开发。相对于 Hadoop 的 MapReduce 会在运行完工作后将中介数据存放到磁盘中，Spark 使用了内存内运算技术，能在数据尚未写入硬盘时即在内存内分析运算。Spark 在内存内运行程序的运算速度能做到比 Hadoop MapReduce 的运算速度快上 100 倍，即便是运行程序于硬盘时，Spark 也能快上 10 倍速度。Spark 允许用户将数据加载至簇内存，并多次对其进行查询，非常适合用于[机器学习]。
使用 Spark 需要搭配簇管理员和分布式存储系统。Spark 支持独立模式（本地 Spark 簇）、Hadoop YARN 或 Apache Mesos 的簇管理。在分布式存储方面，Spark 可以和 HDFS、 Cassandra、OpenStack Swift 和 Amazon S3 等接口搭载。 Spark 也支持伪分布式（pseudo-distributed）本地模式，不过通常只用于开发或测试时以本机文件系统取代分布式存储系统。在这样的情况下，Spark 仅在一台机器上使用每个 CPU 核心运行程序。

Spark 发展历程：

Spark 在 2009 年由 Matei Zaharia 在加州大学柏克莱分校 AMPLab 开创
2010 年通过 BSD 许可协议开源发布。
2013 年 6 月，该项目被捐赠给 Apache 软件基金会并切换许可协议至 Apache2.0。
2014 年 2 月，Spark 成为 Apache 的顶级项目。
2014 年 11 月，Databricks 团队使用 Spark 刷新数据排序世界记录。
2014 年 5 月底 Spark1.0.0 发布。
2014 年 9 月 Spark1.1.0 发布
2014 年 12 月 Spark1.2.0 发布
...
2016 年 1 月 4 号 Spark1.6.0 发布
...
2016 年 6 月 26 号 Spark2.0 发布
...
时至今日的 2.2.0 版本

Spark 作为 Hadoop 生态中重要的一员，其发展速度堪称恐怖，不过其作为一个完整的技术栈，在技术和环境的双重刺激下，得到如此多的关注也是有依据的。核心在于 内存计算模型 代替 Hadoop 生态的 MapReduce 离线计算模型，用更加丰富 Transformation 和 Action 算子来替代 map,reduce 两种算子。

Spark 基本组件：

Spark Core:Spark 核心 API，提供 DAG 分布式内存计算框架。
SparkSql:提供交互式查询 API,
SparkStreaming:实时流处理。
SparkML:机器学习 API
SparkGraphx:图形计算。

Spark 中的基本概念：

Master:Spark 集群的主节点，负责资源的调度，管理。
Worker:Spark 集群的分支节点，负责任务的执行。
Application:开发的 Spark 应用。
SparkContext:SparkApp 的入口，负责资源的调度，任务的分发。
RDD:(Resillient Distributed Dataset)弹性式分布式数据集，是 SparkAPP 的核心操作对象，也是最底层的数据抽象,一个 RDD 会被分为多个 Partition(分区),每个分区分布在集群的不同节点上。
Local 模式:Spark 应用的本地模式，测试环境，不需要搭建集群环境就能够使用。
Standalone:原生的 Master/Worker 模式来运行 APP。
Yarn:Yarn 集群模式，通过 Yran 集群来进行 SparkAPP 的运行。

Spark 与 Hadoop:

说起 Hadoop，可能第一个想到的就是 MapReduce，MapReduce 是 Hadoop 的核心，但不是全部，Hadoop 早已经不是某个离线批处理框架了，而是代表了整个 Hadoop 生态系统，从页首的图可以看到 Spark 只是整个 Hadoop 生态系统的一部分。Spark 仅仅能够代替 Hadoop 的 MapReduce 框架做内存计算。无论是交互式查询还是实时流处理数据均来源与 Hadoop 生态的组件：hbase,hive，Hdfs,Kafka...所以说 Spark 与 Hadoop 是密不可分的。

(运维篇)- 使用 docker 搭建 hadoop-hive-spark 集群 (一)

[图片] 一、安装 docker 1.1 使用 brew cask 安装由于是 Mac 系统，直接使用 brew 最为方便 brew cask install docker 1.2 镜像替换为加速镜像 [图片] 如上图得两个镜像地址，填入后，点击 apply&restart 重启 docker https:/ ..

python 从 0 编写 spark 程序

[图片] 导读：从 0 开始搭建 spark 环境，了解 spark 里的 RDD 和 DataFrame，并用 python 编写 spark 程序，实现分布式数据读取，ML 训练。一、从 0 搭建 spark 1、从官网下载 spark 包，并解压到自定义目录，配置环境变量。 2、mater 启动：进入到 spa ..

【翻译】Spark 的分区机制的应用及 PageRank 算法的实现

佩奇排名（PageRank），又称网页排名、谷歌左侧排名，是一种由搜索引擎根据网页之间相互的超链接计算的技术，而作为网页排名的要素之一，以 Google 公司创办人拉里·佩奇（Larry Page）之姓来命名。Google 用它来体现网页的相关性和重要性，在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。概 ..

Spark SQL 操作 hive 过程 rename 过程时间长

[图片] Spark SQL 操作 hive 过程 rename 过程时间长情况简介 hive 版本：1.2.1，spark 版本：2.3.0 2 亿数据去重 spark 任务时间：12.5h（4h（去重）+2.5h（不知道 spark 在干嘛，driver 端没有日志，executor 也没有日志）+6h（Rnam ..

Spark Streaming 实时统计数据（累加器的应用）

[图片] Spark Streaming 实时统计数据（累加器的应用）如果代码缺失导致无法运行，请留言标识，我会补全的 ️ 场景描述从 kafka 中取实时数据，对数据进行清洗过滤，然后和当天的历史数据进行合并去重，对合并后的数据集进行汇总。将汇总结果写入 HBase，当时间到第二天的时候清除前一天历史数据，重新统 ..

使用 spark 从 kafka 消费数据写入 hive 动态分区表（二）

[图片] 使用 spark 从 kafka 消费数据写入 hive 动态分区表（二）上次咱们说到数据从 kafka 到 hive，也从 hive 非分区表到分区表的迁移。经过测试发现曲线救国的方法虽然 kafka 到 hive 快了，但是 hive 非分区表到分区表贼慢，再一次难受，不着急咱们慢慢来分析原因。分析日 ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于