Spark2.x 集群搭建与参数详解

在前面的 Spark 发展历程和基本概念中介绍了 Spark 的一些基本概念，熟悉了这些基本概念对于集群的搭建是很有必要的。我们可以了解到每个参数配置的作用是什么。这里将详细介绍 Spark 集群搭建以及 xml 参数配置。Spark 的集群搭建分为分布式与伪分布式，分布式主要是与 hadoop Yarn 集群配合使用，伪分布式主要是单独使用作为测试。

Spark 完全分布式搭建

由于 Hadoop 和 Spark 集群占用的内存较高，这种完全分布式集群的搭建对于跑应用来说太吃力，如果有服务器可以尝试，这里采用虚拟机方式实验，详情请看我的博客园：Hadoop2.8 与 spark2.1 集群搭建
这里是一个早前的实验，但是确实没有怎么使用，因为当时对参数没有做优化，也没有理解其中个参数的含义。所以跑应用很吃力，而且会非常卡。下面直接介绍其中的各个参数。

Spark 配置参数详解

上一步配置 Spark 集群的时候我们使用了三个节点：一个 Master ，两个 Worker，我们启动脚本的时候就会启动三个守护进程，分别名为 Master，worker，worker。
conf/slaves.xml 配置:在这里我们指定哪些机器作为 Worker 节点。伪分布式的话不要配置，因为 Master，worker 会在一个节点上启动。
conf/spark-env.sh 配置：核心配置文件，配置的是 spark 应用的运行环境，详细配置了各个组件的细节。下面是他的一些参数:

参数	简介
SPARK_MASTER_IP	指定master进程所在的机器的ip地址
SPARK_MASTER_PORT	指定master监听的端口号（默认是7077）
SPARK_MASTER_WEBUIPORT	指定master web ui的端口号（默认是8080）
SPARK_LOCAL_DIRS	指spark的工作目录，包括了shuffle map输出文件，以及持久化到磁盘的RDD等
SPARK_WORKER_PORT	worker节点的端口号，默认是随机的
SPARK_WORKER_CORES	worker节点上，允许spark作业使用的最大cpu数量，默认是机器上所有的cpu core
SPARK_WORKER_MEMORY	worker节点上，允许spark作业使用的最大内存量，格式为1000m，2g等，默认最小是1g内存
SPARK_WORKER_INSTANCES	当前机器上的worker进程数量，默认是1，可以设置成多个，但是这时一定要设置SPARK_WORKER_CORES，限制每个worker的cpu数量
SPARK_WORKER_DIR	spark作业的工作目录，包括了作业的日志等，默认是spark_home/work
SPARK_DAEMON_MEMORY	分配给master和worker进程自己本身的内存，默认是1g
SPARK_PUBLISC_DNS	master和worker的公共dns域名，默认是空

其中一些参数跟我们单独启动master和worker进程的命令行参数后面添加参数是一样的，如：`sbin/start-master.sh --port 7078(或--memory 500m)`，类似这种方式，可以指定一样的配置属性。我们可以在spark-evn.sh中就去配置好这些参数，但是有时候需要根据情况临时需改配置，我们就可以使用这种在启动Master/Worker脚本时，添加参数的方式来进行配置。通常还是在脚本spark-env.sh中配置好，脚本命令行参数通常用于临时的情况。 :v:( •̀ ω •́ )也就是说，有些master和worker的配置，可以在spark-env.sh中部署时即配置，但是也可以在start-slave.sh脚本启动进程时命令行参数设置`但是命令行参数的优先级比较高，会覆盖掉spark-env.sh中的配置`。

参数	简介
SPARK_MASTER_OPTS	设置master的额外参数，使用"-Dx=y"设置各个参数

比如说 export SPARK_MASTER_OPTS="-Dspark.deploy.defaultCores=1"

参数(x)	默认值(y)	简介
spark.deploy.defaultCores	无限大	每个spark作业最多在standalone集群中使用多少个cpu core，默认是无限大，有多少用多少
spark.deploy.retainedApplications	200	在spark web ui上最多显示多少个application的信息
spark.deploy.retainedDrivers	200	在spark web ui上最多显示多少个driver的信息
spark.deploy.spreadOut	true	资源调度策略，spreadOut会尽量将application的executor进程分布在更多worker上，适合基于hdfs文件计算的情况，提升数据本地化概率；非spreadOut会尽量将executor分配到一个worker上，适合计算密集型的作业
spark.deploy.timeout	60	单位秒，一个worker多少时间没有响应之后，master认为worker挂掉了

参数	简介
SPARK_WORKEROPTS	worker的额外参数，使用"-Dx=y"设置各个参数

SPARK_WORKEROPTS 的一些参数配置（x，y）如下：

参数(x)	默认值(y)	简介
spark.worker.cleanup.enabled	false	是否启动自动清理worker工作目录，默认是false
spark.worker.cleanup.interval	1800	单位秒，自动清理的时间间隔，默认是30分钟
spark.worker.cleanup.appDataTtl	7 * 24 * 3600	默认将一个spark作业的文件在worker工作目录保留多少时间，默认是7天

参数	简介
SPARK_DAEMON_JAVAOPTS	设置master和worker自己的jvm参数，使用"-Dx=y"设置各个参数

这里一些内存相关的参数大家看过就明白了，为什么之前用分布式的集群，每个 worker 节点才 1 个 g 内存，根本是没有办法使用 standalone 模式和 yarn 模式运行作业的，仅仅是启动进程耗费的内存就已经非常严重了，其中一些内存分配不合理就会导致启动的时候资源分配失败.如果还要在 Yarn 模式上运行的话，Hadoop 集群进程还会占用一部分内存。所以说 Spark 使用是非常消耗资源的。有时候资源也会成为性能的一个瓶颈。

(运维篇)- 使用 docker 搭建 hadoop-hive-spark 集群 (一)

[图片] 一、安装 docker 1.1 使用 brew cask 安装由于是 Mac 系统，直接使用 brew 最为方便 brew cask install docker 1.2 镜像替换为加速镜像 [图片] 如上图得两个镜像地址，填入后，点击 apply&restart 重启 docker https:/ ..

python 从 0 编写 spark 程序

[图片] 导读：从 0 开始搭建 spark 环境，了解 spark 里的 RDD 和 DataFrame，并用 python 编写 spark 程序，实现分布式数据读取，ML 训练。一、从 0 搭建 spark 1、从官网下载 spark 包，并解压到自定义目录，配置环境变量。 2、mater 启动：进入到 spa ..

【翻译】Spark 的分区机制的应用及 PageRank 算法的实现

佩奇排名（PageRank），又称网页排名、谷歌左侧排名，是一种由搜索引擎根据网页之间相互的超链接计算的技术，而作为网页排名的要素之一，以 Google 公司创办人拉里·佩奇（Larry Page）之姓来命名。Google 用它来体现网页的相关性和重要性，在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。概 ..

Spark SQL 操作 hive 过程 rename 过程时间长

[图片] Spark SQL 操作 hive 过程 rename 过程时间长情况简介 hive 版本：1.2.1，spark 版本：2.3.0 2 亿数据去重 spark 任务时间：12.5h（4h（去重）+2.5h（不知道 spark 在干嘛，driver 端没有日志，executor 也没有日志）+6h（Rnam ..

Spark Streaming 实时统计数据（累加器的应用）

[图片] Spark Streaming 实时统计数据（累加器的应用）如果代码缺失导致无法运行，请留言标识，我会补全的 ️ 场景描述从 kafka 中取实时数据，对数据进行清洗过滤，然后和当天的历史数据进行合并去重，对合并后的数据集进行汇总。将汇总结果写入 HBase，当时间到第二天的时候清除前一天历史数据，重新统 ..

使用 spark 从 kafka 消费数据写入 hive 动态分区表（二）

[图片] 使用 spark 从 kafka 消费数据写入 hive 动态分区表（二）上次咱们说到数据从 kafka 到 hive，也从 hive 非分区表到分区表的迁移。经过测试发现曲线救国的方法虽然 kafka 到 hive 快了，但是 hive 非分区表到分区表贼慢，再一次难受，不着急咱们慢慢来分析原因。分析日 ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

Spark2.x 集群搭建与参数详解

Spark 完全分布式搭建

Spark 配置参数详解

相关帖子

(运维篇)- 使用 docker 搭建 hadoop-hive-spark 集群 (一)

python 从 0 编写 spark 程序

【翻译】Spark 的分区机制的应用及 PageRank 算法的实现

Spark SQL 操作 hive 过程 rename 过程时间长

Spark Streaming 实时统计数据（累加器的应用）

记一次数据类型不同导致的 sql join 异常

使用 spark 从 kafka 消费数据写入 hive 动态分区表（二）

欢迎来到这里！

近期热议

推荐标签标签

最新标签

Spark2.x 集群搭建与参数详解

Spark 完全分布式搭建

Spark 配置参数详解

相关帖子

(运维篇)- 使用 docker 搭建 hadoop-hive-spark 集群 (一)

python 从 0 编写 spark 程序

【翻译】Spark 的分区机制的应用及 PageRank 算法的实现

Spark SQL 操作 hive 过程 rename 过程时间长

Spark Streaming 实时统计数据（累加器的应用）

记一次数据类型不同导致的 sql join 异常

使用 spark 从 kafka 消费数据写入 hive 动态分区表（二）

欢迎来到这里！

近期热议

推荐标签 标签

最新标签

推荐标签标签