Spark2.x 集群搭建与参数详解

本贴最后更新于 2684 天前,其中的信息可能已经斗转星移

在前面的 Spark 发展历程和基本概念中介绍了 Spark 的一些基本概念,熟悉了这些基本概念对于集群的搭建是很有必要的。我们可以了解到每个参数配置的作用是什么。这里将详细介绍 Spark 集群搭建以及 xml 参数配置。Spark 的集群搭建分为分布式与伪分布式,分布式主要是与 hadoop Yarn 集群配合使用,伪分布式主要是单独使用作为测试。

Spark 完全分布式搭建

由于 Hadoop 和 Spark 集群占用的内存较高,这种完全分布式集群的搭建对于跑应用来说太吃力,如果有服务器可以尝试,这里采用虚拟机方式实验,详情请看我的博客园:Hadoop2.8 与 spark2.1 集群搭建
这里是一个早前的实验,但是确实没有怎么使用,因为当时对参数没有做优化,也没有理解其中个参数的含义。所以跑应用很吃力,而且会非常卡。下面直接介绍其中的各个参数。

Spark 配置参数详解

上一步配置 Spark 集群的时候我们使用了三个节点:一个 Master ,两个 Worker,我们启动脚本的时候就会启动三个守护进程,分别名为 Master,worker,worker。
conf/slaves.xml 配置:在这里我们指定哪些机器作为 Worker 节点。伪分布式的话不要配置,因为 Master,worker 会在一个节点上启动。
conf/spark-env.sh 配置:核心配置文件,配置的是 spark 应用的运行环境,详细配置了各个组件的细节。下面是他的一些参数:

参数简介
SPARK_MASTER_IP指定master进程所在的机器的ip地址
SPARK_MASTER_PORT指定master监听的端口号(默认是7077)
SPARK_MASTER_WEBUIPORT指定master web ui的端口号(默认是8080)
SPARK_LOCAL_DIRS指spark的工作目录,包括了shuffle map输出文件,以及持久化到磁盘的RDD等
SPARK_WORKER_PORTworker节点的端口号,默认是随机的
SPARK_WORKER_CORESworker节点上,允许spark作业使用的最大cpu数量,默认是机器上所有的cpu core
SPARK_WORKER_MEMORYworker节点上,允许spark作业使用的最大内存量,格式为1000m,2g等,默认最小是1g内存
SPARK_WORKER_INSTANCES当前机器上的worker进程数量,默认是1,可以设置成多个,但是这时一定要设置SPARK_WORKER_CORES,限制每个worker的cpu数量
SPARK_WORKER_DIRspark作业的工作目录,包括了作业的日志等,默认是spark_home/work
SPARK_DAEMON_MEMORY分配给master和worker进程自己本身的内存,默认是1g
SPARK_PUBLISC_DNSmaster和worker的公共dns域名,默认是空
其中一些参数跟我们单独启动master和worker进程的命令行参数后面添加参数是一样的,如:`sbin/start-master.sh --port 7078(或--memory 500m)`,类似这种方式,可以指定一样的配置属性。我们可以在spark-evn.sh中就去配置好这些参数,但是有时候需要根据情况临时需改配置,我们就可以使用这种在启动Master/Worker脚本时,添加参数的方式来进行配置。通常还是在脚本spark-env.sh中配置好,脚本命令行参数通常用于临时的情况。 :v:( •̀ ω •́ )也就是说,有些master和worker的配置,可以在spark-env.sh中部署时即配置,但是也可以在start-slave.sh脚本启动进程时命令行参数设置`但是命令行参数的优先级比较高,会覆盖掉spark-env.sh中的配置`。
参数简介
SPARK_MASTER_OPTS设置master的额外参数,使用"-Dx=y"设置各个参数

比如说 export SPARK_MASTER_OPTS="-Dspark.deploy.defaultCores=1"

参数(x)默认值(y)简介
spark.deploy.defaultCores无限大每个spark作业最多在standalone集群中使用多少个cpu core,默认是无限大,有多少用多少
spark.deploy.retainedApplications200在spark web ui上最多显示多少个application的信息
spark.deploy.retainedDrivers200在spark web ui上最多显示多少个driver的信息
spark.deploy.spreadOuttrue资源调度策略,spreadOut会尽量将application的executor进程分布在更多worker上,适合基于hdfs文件计算的情况,提升数据本地化概率;非spreadOut会尽量将executor分配到一个worker上,适合计算密集型的作业
spark.deploy.timeout60单位秒,一个worker多少时间没有响应之后,master认为worker挂掉了
参数简介
SPARK_WORKEROPTSworker的额外参数,使用"-Dx=y"设置各个参数

SPARK_WORKEROPTS 的一些参数配置(x,y)如下:

参数(x)默认值(y)简介
spark.worker.cleanup.enabledfalse是否启动自动清理worker工作目录,默认是false
spark.worker.cleanup.interval1800单位秒,自动清理的时间间隔,默认是30分钟
spark.worker.cleanup.appDataTtl7 * 24 * 3600默认将一个spark作业的文件在worker工作目录保留多少时间,默认是7天
参数简介
SPARK_DAEMON_JAVAOPTS设置master和worker自己的jvm参数,使用"-Dx=y"设置各个参数

这里一些内存相关的参数大家看过就明白了,为什么之前用分布式的集群,每个 worker 节点才 1 个 g 内存,根本是没有办法使用 standalone 模式和 yarn 模式运行作业的,仅仅是启动进程耗费的内存就已经非常严重了,其中一些内存分配不合理就会导致启动的时候资源分配失败.如果还要在 Yarn 模式上运行的话,Hadoop 集群进程还会占用一部分内存。所以说 Spark 使用是非常消耗资源的。有时候资源也会成为性能的一个瓶颈。

  • Spark

    Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架。Spark 拥有 Hadoop MapReduce 所具有的优点;但不同于 MapReduce 的是 Job 中间输出结果可以保存在内存中,从而不再需要读写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 的算法。

    74 引用 • 46 回帖 • 552 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
rzx
此生最怕深情被辜负,最怕兄弟成陌路。对世界充满善意,同时又充满深深的恨意,我渴望天降甘霖福泽众生,又渴望灭世洪水重创世纪。 广州

推荐标签 标签

  • JavaScript

    JavaScript 一种动态类型、弱类型、基于原型的直译式脚本语言,内置支持类型。它的解释器被称为 JavaScript 引擎,为浏览器的一部分,广泛用于客户端的脚本语言,最早是在 HTML 网页上使用,用来给 HTML 网页增加动态功能。

    729 引用 • 1327 回帖
  • Hprose

    Hprose 是一款先进的轻量级、跨语言、跨平台、无侵入式、高性能动态远程对象调用引擎库。它不仅简单易用,而且功能强大。你无需专门学习,只需看上几眼,就能用它轻松构建分布式应用系统。

    9 引用 • 17 回帖 • 611 关注
  • 爬虫

    网络爬虫(Spider、Crawler),是一种按照一定的规则,自动地抓取万维网信息的程序。

    106 引用 • 275 回帖
  • 旅游

    希望你我能在旅途中找到人生的下一站。

    90 引用 • 899 回帖
  • Solidity

    Solidity 是一种智能合约高级语言,运行在 [以太坊] 虚拟机(EVM)之上。它的语法接近于 JavaScript,是一种面向对象的语言。

    3 引用 • 18 回帖 • 399 关注
  • JRebel

    JRebel 是一款 Java 虚拟机插件,它使得 Java 程序员能在不进行重部署的情况下,即时看到代码的改变对一个应用程序带来的影响。

    26 引用 • 78 回帖 • 664 关注
  • Firefox

    Mozilla Firefox 中文俗称“火狐”(正式缩写为 Fx 或 fx,非正式缩写为 FF),是一个开源的网页浏览器,使用 Gecko 排版引擎,支持多种操作系统,如 Windows、OSX 及 Linux 等。

    8 引用 • 30 回帖 • 407 关注
  • MongoDB

    MongoDB(来自于英文单词“Humongous”,中文含义为“庞大”)是一个基于分布式文件存储的数据库,由 C++ 语言编写。旨在为应用提供可扩展的高性能数据存储解决方案。MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似 JSON 的 BSON 格式,因此可以存储比较复杂的数据类型。

    90 引用 • 59 回帖 • 1 关注
  • Maven

    Maven 是基于项目对象模型(POM)、通过一小段描述信息来管理项目的构建、报告和文档的软件项目管理工具。

    186 引用 • 318 回帖 • 303 关注
  • 微信

    腾讯公司 2011 年 1 月 21 日推出的一款手机通讯软件。用户可以通过摇一摇、搜索号码、扫描二维码等添加好友和关注公众平台,同时可以将自己看到的精彩内容分享到微信朋友圈。

    130 引用 • 793 回帖
  • RESTful

    一种软件架构设计风格而不是标准,提供了一组设计原则和约束条件,主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁,更有层次,更易于实现缓存等机制。

    30 引用 • 114 回帖 • 1 关注
  • JSON

    JSON (JavaScript Object Notation)是一种轻量级的数据交换格式。易于人类阅读和编写。同时也易于机器解析和生成。

    52 引用 • 190 回帖
  • 小薇

    小薇是一个用 Java 写的 QQ 聊天机器人 Web 服务,可以用于社群互动。

    由于 Smart QQ 从 2019 年 1 月 1 日起停止服务,所以该项目也已经停止维护了!

    34 引用 • 467 回帖 • 742 关注
  • IDEA

    IDEA 全称 IntelliJ IDEA,是一款 Java 语言开发的集成环境,在业界被公认为最好的 Java 开发工具之一。IDEA 是 JetBrains 公司的产品,这家公司总部位于捷克共和国的首都布拉格,开发人员以严谨著称的东欧程序员为主。

    180 引用 • 400 回帖
  • CSS

    CSS(Cascading Style Sheet)“层叠样式表”是用于控制网页样式并允许将样式信息与网页内容分离的一种标记性语言。

    198 引用 • 550 回帖
  • VirtualBox

    VirtualBox 是一款开源虚拟机软件,最早由德国 Innotek 公司开发,由 Sun Microsystems 公司出品的软件,使用 Qt 编写,在 Sun 被 Oracle 收购后正式更名成 Oracle VM VirtualBox。

    10 引用 • 2 回帖 • 6 关注
  • 黑曜石

    黑曜石是一款强大的知识库工具,支持本地 Markdown 文件编辑,支持双向链接和关系图。

    A second brain, for you, forever.

    15 引用 • 122 回帖
  • CSDN

    CSDN (Chinese Software Developer Network) 创立于 1999 年,是中国的 IT 社区和服务平台,为中国的软件开发者和 IT 从业者提供知识传播、职业发展、软件开发等全生命周期服务,满足他们在职业发展中学习及共享知识和信息、建立职业发展社交圈、通过软件开发实现技术商业化等刚性需求。

    14 引用 • 155 回帖
  • ZooKeeper

    ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,是 Google 的 Chubby 一个开源的实现,是 Hadoop 和 HBase 的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

    59 引用 • 29 回帖 • 5 关注
  • LeetCode

    LeetCode(力扣)是一个全球极客挚爱的高质量技术成长平台,想要学习和提升专业能力从这里开始,充足技术干货等你来啃,轻松拿下 Dream Offer!

    209 引用 • 72 回帖
  • Ruby

    Ruby 是一种开源的面向对象程序设计的服务器端脚本语言,在 20 世纪 90 年代中期由日本的松本行弘(まつもとゆきひろ/Yukihiro Matsumoto)设计并开发。在 Ruby 社区,松本也被称为马茨(Matz)。

    7 引用 • 31 回帖 • 211 关注
  • 宕机

    宕机,多指一些网站、游戏、网络应用等服务器一种区别于正常运行的状态,也叫“Down 机”、“当机”或“死机”。宕机状态不仅仅是指服务器“挂掉了”、“死机了”状态,也包括服务器假死、停用、关闭等一些原因而导致出现的不能够正常运行的状态。

    13 引用 • 82 回帖 • 53 关注
  • Redis

    Redis 是一个开源的使用 ANSI C 语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value 数据库,并提供多种语言的 API。从 2010 年 3 月 15 日起,Redis 的开发工作由 VMware 主持。从 2013 年 5 月开始,Redis 的开发由 Pivotal 赞助。

    286 引用 • 248 回帖 • 62 关注
  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    93 引用 • 113 回帖
  • 音乐

    你听到信仰的声音了么?

    60 引用 • 511 回帖
  • Sublime

    Sublime Text 是一款可以用来写代码、写文章的文本编辑器。支持代码高亮、自动完成,还支持通过插件进行扩展。

    10 引用 • 5 回帖
  • 学习

    “梦想从学习开始,事业从实践起步” —— 习近平

    169 引用 • 506 回帖