Spark

74 引用 • 46 回帖 • 570 关注 • 1483 浏览

参与讨论

关注

关注分享

Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架。Spark 拥有 Hadoop MapReduce 所具有的优点；但不同于 MapReduce 的是 Job 中间输出结果可以保存在内存中，从而不再需要读写 HDFS，因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 的算法。

join

6 引用 • 21 回帖
数据挖掘

17 引用 • 32 回帖 • 3 关注
dag

1 引用 • 7 回帖
SQL

134 引用 • 406 回帖 • 3 关注
rdd

5 引用 • 2 回帖
Kafka

Kafka 是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是现代系统中许多功能的基础。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。
36 引用 • 35 回帖 • 9 关注
checkpoint

3 引用

默认热议好评优选最近回帖关注者查看所有标签

Spark

(运维篇)- 使用 docker 搭建 hadoop-hive-spark 集群 (一)

python 从 0 编写 spark 程序

【翻译】Spark 的分区机制的应用及 PageRank 算法的实现

Spark SQL 操作 hive 过程 rename 过程时间长

Spark Streaming 实时统计数据（累加器的应用）

记一次数据类型不同导致的 sql join 异常

使用 spark 从 kafka 消费数据写入 hive 动态分区表（二）

使用 spark 从 kafka 消费数据写入 hive 动态分区表（一）

解决 spark streaming 集成 kafka 时只能读取每个 topic 的其中一个分区数据的问题

Spark 的见解 & 优化 (四)

Spark 的见解 & 优化 (三)

Spark 的见解 & 优化 (一)

Spark 学习之算子 Transformation 和 Action（四）

Spark 学习之提交任务（六）

Spark 学习之运行流程（五）

spark 算子详解 ------Action 算子介绍

Spark 学习之 Spark 集群部署搭建（二）

记录学习 Spark 过程遇到的一个问题

spark 提交任务的几种模式

spark 算子详解 ------Transformation 算子介绍

spark 算子详解 ------spark 算子分类

spark 简介

二、Spark 算子和 RDD

一、Spark 集群安装运行

Learning Spark 中文版 -- 第六章 --Spark 高级编程（2）

Learning Spark 中文版 -- 第五章 -- 加载保存数据（2）

Learning Spark 中文版 -- 第四章 -- 使用键值对（2）

Learning Spark 中文版 -- 第三章 --RDD 编程（2）

Learning Spark 中文版 -- 第三章 --RDD 编程（1）

【蚂蚁金服】招聘大数据 Java 研发工程师

spark RDD 基础

spark & hadoop