Spark 的作业提交方式（Standalone,Yarn）

Spark 作业提交流程

1、编写好一个 SparkAPP，编译成 JAR.
2、上传到 Spark 机器，使用 Spark-Submit 提交作业。
3、根据提交作业的模式启动 Driver，并请求 Cluster Manager 分配资源启动 Executor 线程。
4、Executor 启动成功后反响注册到 Driver 中，Driver 会分发 JAR 包到各个 Executor 上。
5、Driver 上的 SparkContext 会创建 task 发送给 Executor 执行。
6、任务完成,进程 Kill。

Spark 三种作业提交方式

Local 本地方式：直接子啊 IDEA 中运行程序，无需打包发布到集群中，十分的方便测试。
Standalone 方式：Spark 原生的 Master/Worker 集群，
Yarn 方式：Hadoop 的 Yarn 集群，RecourseManager/NodeManager 集群，通过 Yarn 来进行资源的和管理调度。

本地方式是在本地 JVM 中启动一个进程来模拟运行环境，多个线程进行作业运行，主要用于开发测试。这里主要看 Standalone,Yarn,这两种方式的区别在于 ClusterManager 的不同，前者的 ClusterManager 是 Master，后者是 RecourseManager,ClusterManager 的作用在于进行各个进程的启动管理，资源的调度。每方式又可分为两种Depoly Mode(模式):Client,Cluster.
对于不同的 Depoly Mode 模式来说,区别仅在于启动 Driver 的机器是否在提交作业的机器，若不是，则会有集群管理器分配 Worker 启动 Driver，用于测试环境，但数据量较大的时候，会产生较高的 I/O。对于 Standalone,Yarn 两种方式来说区别在于集群管理器 ClusterManager 的不同。
脚本：


standalone:spark-submit --master spark://IP:PORT         
yarn-client:spark-submit --master yarn-client
yarn-cluster:spark-submit --master yarn-cluster

standalone 方式，是要在 spark-submit 中，用--master 指定 Master 进程的 URL。其次，使用 standalone client 模式或 cluster 模式，是要在 spark-submit 中，使用--deploy-mode client/cluster 来设置默认，如果你不设置--deploy-mode client/cluster，那么就是 client 模式

Standalone

Standalone Client 这种提交模式，主要在于可以在本机(提交任务的机器)看到日志输出，用于排查错误，他会在本机上启动 Driver 进程然后请求 Master 分配资源 Executor 线程来执行任务，Master 在 Worker 上启动 Executor 之后注册到 Driver，Driver 会分发 Jar 到各个 Executor,并将 SparkContext 创建的 Task 发送到 Executor 上执行。

Yarn

Yarn 集群的 Cluster Manager 是 RecourxeManager 简称 RM，类似于 Master,其 NodeManager 相当于 Worker 简称 NM。

Yarn Client

任务提交会在本机上启动 Driver，然后请求 RM 启动 SparkApplicationMaster(Driver),Driver 启动之后请求 RM 分配 Container,启动 Executor,Executor 启动之后会注册到 Driver 中，Driver 中的 SparkConetxt 会发送 task 给 Executor 执行。

Yarn Cluster

YarnCluster 与 Client 不同的是在提交之后请求 RM 启动 ApplicationMaster，RM 分配 Container 在 NM 启动一个 AM，AM 启动之后注册到 RM 中并连接其他的 NM 启动 Executor。

distributedShell 样例源码详解

[图片] 简介 distributedShell 是 Yarn 自带的应用程序，和 MR 类似，当前工具可以用来对 Yarn 进行压测。使用示例参考命令如下： ./bin/hadoop jar ./share/hadoop/yarn/hadoop-yarn-applications-distributedshell ..

【Hadoop 仿真】如何在仿真 NodeManager 中实现心跳

[图片] 背景 Hadoop 自带的 hadoop-sls 只能用于压测调度器，可在实际中影响 ResourceManager 性能的因素比较多，不能只看调度器。当前项目可构造海量的 Fake NM 节点，用于模拟线上 RM 的巨大压力场景，进行优化。首先需要对 NM 进行仿真。仿真 NodeManager 仿真 N ..

ContainerManager 详解

简介 ContainerManager 主要负责 NM 中管理所有 Container 生命周期，其主要包含启动 Container、恢复 Container、停止 Container 等功能。主要功能由 ContainerManagerImpl 类实现，具体代码可以参考当前类。初始化初始化主要分为两部分： Co ..

【Hadoop】Yarn 作业启动源码解读

作业启动作业提交的客户端比较核心的类是 Job.java，看作业启动的源码需要从这个类开始看。 Job.java 作业启动的入口函数为 waitForCompletion 函数。当前函数的核心函数为 submit()，主要如下： public void submit() throws IOException, Int ..

yarn 的常用命令

[图片] yarn 安装 npm install -g yarn 查看版本 yarn -v 开始一个新工程 yarn init 与 npm init 一样通过交互式会话创建一个 package.json yarn init # yarn npm init # npm 跳过会话，直接通过默认值生成 package.jso ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于