Spark

74 引用 • 46 回帖 • 569 关注 • 1483 浏览

参与讨论

关注

关注分享

Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架。Spark 拥有 Hadoop MapReduce 所具有的优点；但不同于 MapReduce 的是 Job 中间输出结果可以保存在内存中，从而不再需要读写 HDFS，因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 的算法。

join

6 引用 • 21 回帖
数据挖掘

17 引用 • 32 回帖 • 3 关注
dag

1 引用 • 7 回帖
SQL

134 引用 • 406 回帖 • 3 关注
rdd

5 引用 • 2 回帖
Kafka

Kafka 是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是现代系统中许多功能的基础。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。
36 引用 • 35 回帖 • 9 关注
checkpoint

3 引用

默认热议好评优选最近回帖关注者查看所有标签

暂时没有内容，请稍后再来看看
马上去发贴，写你想写！