【翻译】Java 8 中的并行流处理 -- 顺序流处理与并行流处理的性能对比

本贴最后更新于 1064 天前,其中的信息可能已经事过境迁

Java 8 中的并行流处理--顺序流处理与并行流处理的性能对比

出处:https://blog.oio.de/2016/01/22/parallel-stream-processing-in-java-8-performance-of-sequential-vs-parallel-stream-processing

并行处理在当今社会无处不在。由于 cpu 核心数量的增加和硬件成本的降低,使得集群系统更加便宜,并行处理似乎是下一个 big thing。

Java 8 通过新的流 API 和在集合和数组上创建并行处理的简化来关注这一事实。让我们来看看这是如何工作的。

假设 myList 是一个整数列表,包含 500.000 个整数值。在前 java 8 时代,对这些整数值进行汇总的方法是使用 for each 循环。

for (int i :myList)
result+=i;

从 java 8 开始,我们可以用流来做同样的事情

myList.stream().sum();

并行化处理非常容易,我们只需用关键字 parallelStream() 来代替 stream,或者如果我们还有一个 stream,就用 parallel()
image.png

所以

并行化流操作代码应该是这个样子的

myList.parallelStream().sum()

这样的改写很容易将计算分散到线程和可用的 cpu 核心上。但我们知道,多线程和并行处理的开销是昂贵的。问题是什么时候使用并行流,什么时候使用串行流会更有利于性能。

首先让我们看一下幕后发生了什么。并行流使用 Fork/Join 框架进行处理。这意味着 stream-sourceforked(也就是被拆分),并交给 fork/join-poolworkers 执行。

但在这里我们发现需要思考的第一点,并不是所有的 stream-source 被都可以像其他流源一样被分割。想想 ArrayList,它的内部数据表示是基于一个数组的。拆分这样的 stream 很容易,因为可以计算中间元素的索引并拆分数组。

如果我们有一个 LinkedList,那么分割数据元素就会更加复杂。实现者必须从第一个元素开始浏览所有的元素,找到可以进行分割的元素。因此,例如 LinkedLists 对于并行流来说表现得很糟糕。

image.png

这是我们可以保留的第一个关于平行流性能的事实。

S - 源集合(collection)必须是可有效分割的

分割一个集合,管理 fork 和 join 任务,对象创建和垃圾收集也是一种算法上的开销。只有当需要在 cpu 核上完成的工作非同小可和/或集合足够大时,这才是值得的。当然,我们也有很多 cpu 核。

一个错误的例子是计算 5 个整数值的最大值。

IntStream.rangeClosed(1, 5).reduce( Math::max).getAsInt();
这里为 fork/join 准备和处理数据的开销是如此之大,以至于这里的串行流要快得多。Math.max 函数在这里的 CPU 成本不是很高,而且我们的数据元素较少

但是,当每个元素执行的函数更复杂时,它就越来越有价值了--确切地说,是 "更密集的 cpu"。例如,计算每个元素的正弦值而不是最大值。

当对国际象棋游戏进行编程时,每一步棋的评估也是这样的例子。许多评估可以并行进行。而且我们有大量可能的下一步棋。

这对并行处理来说是完美的。

而这是我们可以保留的第二个关于平行流性能的事实。

NQ - "元素数量每个元素的成本 "的系数应该很大

但这也意味着反过来说,当每个元素的操作成本较高时,集合可以更小。

或者当每个元素的操作不是那么密集的时候,我们需要一个有很多元素的大集合,这样并行流的使用才会有回报。

这直接取决于我们可以保留的第三个事实

C - CPU 核心的数量 - 越多越好 > 1 个是必须的

在单核机器上,由于管理开销的原因,并行流的表现总是比串行流差。就像公司有很多项目负责人而只有一个人在做工作一样。

越多越好--不幸的是,在现实世界中,这并不是在所有情况下都是正确的,例如,当集合太小,CPU 核心启动时--也许是从 energy safe mode--才发现没有什么可做的。

为了确定是否使用平行流,对每个元素的函数也有要求。这与其说是性能问题,不如说是并行流是否能如期工作的问题。

该功能必须是...

  • ...独立,这意味着每个元素的计算不能依赖或影响任何其他元素的计算。
  • ...无干扰,这意味着函数在处理时不会修改基础数据源。
  • ...无状态。

这里我们有一个在并行流中使用的有状态 lambda 函数的例子。这个例子取自 java JDK API,显示了一个简化的 distinct()实现。

Set seen = Collections.synchronizedSet(new HashSet());
stream.parallel().map(e -> { if (seen.add(e)) return 0; else return e; })...

因此,这让我们看到了我们可以保留的第四个事实。

F - 每个元素的函数必须是独立的

总结一下

image.png

还有其他一些情况下,我们不应该将我们的流并行化吗?是的,有的。

总是要考虑你的每个元素函数在做什么,以及这是否适合于并行处理的世界。当你的函数正在调用一些同步功能时,那么你可能不会从并行化你的流中得到任何好处,因为你的并行流经常会在这个同步障碍上等待。

当你调用阻塞的 i/o 操作时也会出现同样的问题。

image.png

就这一点而言,使用基于 I/O 的源作为流也是众所周知的,因为数据是按顺序读取的,所以这样的源很难被分割。

  • Java

    Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的。Java 技术具有卓越的通用性、高效性、平台移植性和安全性。

    3169 引用 • 8208 回帖
  • lamda
    1 引用

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • 安全

    安全永远都不是一个小问题。

    191 引用 • 813 回帖 • 1 关注
  • ZooKeeper

    ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,是 Google 的 Chubby 一个开源的实现,是 Hadoop 和 HBase 的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

    59 引用 • 29 回帖 • 10 关注
  • BookxNote

    BookxNote 是一款全新的电子书学习工具,助力您的学习与思考,让您的大脑更高效的记忆。

    笔记整理交给我,一心只读圣贤书。

    1 引用 • 1 回帖
  • C

    C 语言是一门通用计算机编程语言,应用广泛。C 语言的设计目标是提供一种能以简易的方式编译、处理低级存储器、产生少量的机器码以及不需要任何运行环境支持便能运行的编程语言。

    83 引用 • 165 回帖 • 5 关注
  • flomo

    flomo 是新一代 「卡片笔记」 ,专注在碎片化时代,促进你的记录,帮你积累更多知识资产。

    4 引用 • 91 回帖
  • 国际化

    i18n(其来源是英文单词 internationalization 的首末字符 i 和 n,18 为中间的字符数)是“国际化”的简称。对程序来说,国际化是指在不修改代码的情况下,能根据不同语言及地区显示相应的界面。

    7 引用 • 26 回帖
  • CentOS

    CentOS(Community Enterprise Operating System)是 Linux 发行版之一,它是来自于 Red Hat Enterprise Linux 依照开放源代码规定释出的源代码所编译而成。由于出自同样的源代码,因此有些要求高度稳定的服务器以 CentOS 替代商业版的 Red Hat Enterprise Linux 使用。两者的不同在于 CentOS 并不包含封闭源代码软件。

    238 引用 • 224 回帖
  • ngrok

    ngrok 是一个反向代理,通过在公共的端点和本地运行的 Web 服务器之间建立一个安全的通道。

    7 引用 • 63 回帖 • 613 关注
  • 锤子科技

    锤子科技(Smartisan)成立于 2012 年 5 月,是一家制造移动互联网终端设备的公司,公司的使命是用完美主义的工匠精神,打造用户体验一流的数码消费类产品(智能手机为主),改善人们的生活质量。

    4 引用 • 31 回帖 • 8 关注
  • Mac

    Mac 是苹果公司自 1984 年起以“Macintosh”开始开发的个人消费型计算机,如:iMac、Mac mini、Macbook Air、Macbook Pro、Macbook、Mac Pro 等计算机。

    164 引用 • 594 回帖
  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    89 引用 • 113 回帖
  • IBM

    IBM(国际商业机器公司)或万国商业机器公司,简称 IBM(International Business Machines Corporation),总公司在纽约州阿蒙克市。1911 年托马斯·沃森创立于美国,是全球最大的信息技术和业务解决方案公司,拥有全球雇员 30 多万人,业务遍及 160 多个国家和地区。

    16 引用 • 53 回帖 • 130 关注
  • 一些有用的避坑指南。

    69 引用 • 93 回帖
  • Tomcat

    Tomcat 最早是由 Sun Microsystems 开发的一个 Servlet 容器,在 1999 年被捐献给 ASF(Apache Software Foundation),隶属于 Jakarta 项目,现在已经独立为一个顶级项目。Tomcat 主要实现了 JavaEE 中的 Servlet、JSP 规范,同时也提供 HTTP 服务,是市场上非常流行的 Java Web 容器。

    162 引用 • 529 回帖
  • FlowUs

    FlowUs.息流 个人及团队的新一代生产力工具。

    让复杂的信息管理更轻松、自由、充满创意。

    1 引用
  • webpack

    webpack 是一个用于前端开发的模块加载器和打包工具,它能把各种资源,例如 JS、CSS(less/sass)、图片等都作为模块来使用和处理。

    41 引用 • 130 回帖 • 283 关注
  • Hexo

    Hexo 是一款快速、简洁且高效的博客框架,使用 Node.js 编写。

    21 引用 • 140 回帖 • 12 关注
  • Sandbox

    如果帖子标签含有 Sandbox ,则该帖子会被视为“测试帖”,主要用于测试社区功能,排查 bug 等,该标签下内容不定期进行清理。

    386 引用 • 1226 回帖 • 593 关注
  • Pipe

    Pipe 是一款小而美的开源博客平台。Pipe 有着非常活跃的社区,可将文章作为帖子推送到社区,来自社区的回帖将作为博客评论进行联动(具体细节请浏览 B3log 构思 - 分布式社区网络)。

    这是一种全新的网络社区体验,让热爱记录和分享的你不再感到孤单!

    131 引用 • 1114 回帖 • 137 关注
  • golang

    Go 语言是 Google 推出的一种全新的编程语言,可以在不损失应用程序性能的情况下降低代码的复杂性。谷歌首席软件工程师罗布派克(Rob Pike)说:我们之所以开发 Go,是因为过去 10 多年间软件开发的难度令人沮丧。Go 是谷歌 2009 发布的第二款编程语言。

    495 引用 • 1386 回帖 • 329 关注
  • Flume

    Flume 是一套分布式的、可靠的,可用于有效地收集、聚合和搬运大量日志数据的服务架构。

    9 引用 • 6 回帖 • 613 关注
  • Vim

    Vim 是类 UNIX 系统文本编辑器 Vi 的加强版本,加入了更多特性来帮助编辑源代码。Vim 的部分增强功能包括文件比较(vimdiff)、语法高亮、全面的帮助系统、本地脚本(Vimscript)和便于选择的可视化模式。

    28 引用 • 66 回帖 • 7 关注
  • 分享

    有什么新发现就分享给大家吧!

    245 引用 • 1776 回帖 • 1 关注
  • H2

    H2 是一个开源的嵌入式数据库引擎,采用 Java 语言编写,不受平台的限制,同时 H2 提供了一个十分方便的 web 控制台用于操作和管理数据库内容。H2 还提供兼容模式,可以兼容一些主流的数据库,因此采用 H2 作为开发期的数据库非常方便。

    11 引用 • 54 回帖 • 648 关注
  • 负能量

    上帝为你关上了一扇门,然后就去睡觉了....努力不一定能成功,但不努力一定很轻松 (° ー °〃)

    88 引用 • 1234 回帖 • 441 关注
  • 尊园地产

    昆明尊园房地产经纪有限公司,即:Kunming Zunyuan Property Agency Company Limited(简称“尊园地产”)于 2007 年 6 月开始筹备,2007 年 8 月 18 日正式成立,注册资本 200 万元,公司性质为股份经纪有限公司,主营业务为:代租、代售、代办产权过户、办理银行按揭、担保、抵押、评估等。

    1 引用 • 22 回帖 • 706 关注
  • C++

    C++ 是在 C 语言的基础上开发的一种通用编程语言,应用广泛。C++ 支持多种编程范式,面向对象编程、泛型编程和过程化编程。

    106 引用 • 152 回帖