流计算架构和流计算引擎

本贴最后更新于 2782 天前,其中的信息可能已经时移世易

流计算架构

常见的架构有Lambda架构,以及后来的Kappa架构。

Lambda架构 [1]

Storm的作者 Nathan Marz,基于在Twitter和Backtype的工作提出[2]。


或者同样原理的另一种实现



一般有两个独立的数据库,分别存储实时计算的结果,和批量计算的结果。


优点:


  • 历史数据不能变



缺点:


  • 需要编写两份代码
  • 新系统功能只能是两个系统功能交集的子集



Kappa架构[1]

Linkedln的Jay Kreps提出


流数据源




流计算引擎

评价指标[2]


  • 延时latency:high latency, low latency
  • 准确性accurate: inaccurate, accurate



引擎

  • Apache Flink:unbounded event stream, exactly-once event-time process
  • Apache Spark
  • Apache Storm
  • Twitter Heron


更多阅读

  1. Linkedln技术高管Jay Kreps:Lambda架构剖析
  2. Lambda 与 Kappa 架构笔记
  3. Discovering Anomalies in Real-Time with Apache Flink



相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...