Spark 程序的执行过程

Spark 任务提交执行流程

在 Spark 的作业提交及任务执行流程中就介绍了一个任务从提交到集群是如何执行的（如上图），其中最重要的是启动 Driver，Executor，和 Task.Driver 负责给 Executor 分配 Task 执行。下面看一看一个任务是如何变为一个个 Task 被 Executor 执行的。

Spark 程序执行计划

仍然以 wordCount 为例，


val linesRDD = sc.textFile("input/words")
val wordsRDD = lines.flatMap((line) =>line.split(" "))
val pairsRDD = words.map(word =>(word,1))
val wordCountsRDD = pairs.reduceByKey(_+_).sortByKey(); 
wordCounts.foreach(wordcount =>println(wordcount._1+" - "+wordcount._2))

生成逻辑执行计划（logical execution plan）

上面的程序在执行的过程中会产生很多的 RDD，这些 RDD 之间会形成一种依赖关系，我们把生成的依赖关系图叫做逻辑查询计划。wordCountsRDD 依赖 pairsRDD，pairsRDD 依赖 wordsRDD，wordsRDD 依赖 linesRDD,最终执行 action 的时候触发任务的执行，这个执行过程是一个回溯的过程，foreach 操作会一步步向前找到数据来源开始执行直到得到 wordCountsRDD，然后将其输出。逻辑执行计划是 RDD 的 Transformations 函数的 DAG。

生成物理执行计划（physical execution plan）

在生成逻辑查询计划之后，会根据具体的数据，进行分区，stage 划分，每个 stage 的 task 的划分。物理执行计划是 stage 的 DAG.
partition 划分：

Stage 划分：stage的划分算法，主要是取决于宽依赖和窄依赖.一个 Partition 依赖于一个 partition 这种依赖关系叫做窄依赖，一个 paritition 依赖于多个 paritition 就是宽依赖，宽依赖是Shuffle操作产生的。

Task 划分：Driver 会把每个 stage 划分成多个 Task.这些 task 之间也会有依赖关系，所以 task 的执行也是有先后顺序的。Driver 序列化 task 并按顺序调度每个 task 到 Executor 上执行。

(运维篇)- 使用 docker 搭建 hadoop-hive-spark 集群 (一)

[图片] 一、安装 docker 1.1 使用 brew cask 安装由于是 Mac 系统，直接使用 brew 最为方便 brew cask install docker 1.2 镜像替换为加速镜像 [图片] 如上图得两个镜像地址，填入后，点击 apply&restart 重启 docker https:/ ..

python 从 0 编写 spark 程序

[图片] 导读：从 0 开始搭建 spark 环境，了解 spark 里的 RDD 和 DataFrame，并用 python 编写 spark 程序，实现分布式数据读取，ML 训练。一、从 0 搭建 spark 1、从官网下载 spark 包，并解压到自定义目录，配置环境变量。 2、mater 启动：进入到 spa ..

【翻译】Spark 的分区机制的应用及 PageRank 算法的实现

佩奇排名（PageRank），又称网页排名、谷歌左侧排名，是一种由搜索引擎根据网页之间相互的超链接计算的技术，而作为网页排名的要素之一，以 Google 公司创办人拉里·佩奇（Larry Page）之姓来命名。Google 用它来体现网页的相关性和重要性，在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。概 ..

Spark SQL 操作 hive 过程 rename 过程时间长

[图片] Spark SQL 操作 hive 过程 rename 过程时间长情况简介 hive 版本：1.2.1，spark 版本：2.3.0 2 亿数据去重 spark 任务时间：12.5h（4h（去重）+2.5h（不知道 spark 在干嘛，driver 端没有日志，executor 也没有日志）+6h（Rnam ..

Spark Streaming 实时统计数据（累加器的应用）

[图片] Spark Streaming 实时统计数据（累加器的应用）如果代码缺失导致无法运行，请留言标识，我会补全的 ️ 场景描述从 kafka 中取实时数据，对数据进行清洗过滤，然后和当天的历史数据进行合并去重，对合并后的数据集进行汇总。将汇总结果写入 HBase，当时间到第二天的时候清除前一天历史数据，重新统 ..

使用 spark 从 kafka 消费数据写入 hive 动态分区表（二）

[图片] 使用 spark 从 kafka 消费数据写入 hive 动态分区表（二）上次咱们说到数据从 kafka 到 hive，也从 hive 非分区表到分区表的迁移。经过测试发现曲线救国的方法虽然 kafka 到 hive 快了，但是 hive 非分区表到分区表贼慢，再一次难受，不着急咱们慢慢来分析原因。分析日 ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于