flume-ng 源码分析 - 整体架构 2【常用架构篇】

##数据流模型

flume 中基本概念

1.Event:一个流经 Agent 的基本数据单位;Event 从 Source 流向 Channel 最后到 Sink。实现了 Event 接口。在 Event 的流向中,可以设置可选的 header 参数。
2.Agent:一个 Agent 表示一个拥有一些组件(source,channel,sink)的 jvm 进程。这些组件允许，Events 从一个外部源,流向下一个目的地。
3.flow:表示一个数据流向
4.source:source 消费可以识别格式的 Events。这些 Events 可以通过像 web server 的客户端发送。例如 arvoSource 可以从 client 或者其他 flume agent 接受 arvoEvents.当 Source 接受到 Events 时，将它存储在一个或者多个 Channel 中
5.Channel:是一个被动存储。他会存储接收到的 Events 直到这些 Events 被 Sink 消费掉。比如 fileChannel，用贝本地文件系统作为后备存储；
6.Sink:Sink 消费 channel 中的数据。sink 负责将 Event 从 channel 中移除，并且将 Events 放在外部存储如 HDFS(这可以通过 HDFSSINK 实现)或者传送给下一个 Flume agent 中的 source。因为 Flume 中有 Channel 的存在,在一个给定的 Agent 中 source 和 sink 可以异步的执行

简单的日志收集

假设我们要收集 ng 的日志。我们可以按照以下的方案进行部署。

流程如下

1.每台 websever 上部署一个 flume agent
2.使用 tail 命令
3.channel 可以使用 memorychannel
4.sink 统一写到 es 服务器中。前端使用 kibana 查询

虽然上面的应用场景可以满足需求。但是缺点也是非常的明显

1.各环节丢失数据的可能性较大（如果可以容忍数据丢失，则关系不大）
2.每台 webserver 上部署一个 flume agent，不利于维护。比如 sink 还想往 kafka 写，那么所有的 flume agent 都需要更改。

复杂的日志收集

先来看看 Event 在 flume flow 中的扭转流程:

1.source 接收 Event
2.source 将 Event 传送给 ChannelProcessor
3.在 ChannelProcessor 中收件会将 event 传递给 InterceptorChain,InterceptorChain 中包含多个 Interceptor。Interceptor 的概念就相当于 java web 开发中的 servlet 的概念。提供了一种修改或者删除 Event 的能力.比如 Timestamp Interceptor 将会在 Event 的 header 中加入 Event 被处理的时间戳,key 为 timestamp。
4.当 Event 被 Interceptor 处理后就会通过 ChannelSelector 选择合适的 channel，将 Event 发送到 Channel 中。
flume 中提供了两种方式 :

MultiplexingChannelSelector 多路复用选择器
ReplicatingChannelSelector 复制选择器

5.sink 从 channel 中消费数据，这里和 source 向 channel 中存放数据是异步的。所以 sink，只需要监听和自己关联的 channel 的变化即可。对于 sink,提供了三种策略:

DefaultSinkProcess ：失败了就失败了，稍后进行重试
LoadBalancingSinkProcessor:负载均衡，有 RandomOrder,RoundRobin 和 FixedOrderSelector 三种选择
FailoverSinkProcessor:给多个 sink 定义优先级，如果其中一个失败了，则发送到下一个优先级的 Sink。如果执行过程中 Sink 抛出异常，那么将该 Sink 从存活的队列中移除。然后指数级时间重试。默认开始等待 1s 重试。最大等待时间是 30s。当 Sink 恢复后将会加入存活的队列中。

基于上面分析，可以基本画出 flume event 的基本流转

基于第一种方式的搜集方式和 Event 数据流转的分析。如果我们需要采集日志，整体架构可以采用下面的方式进行部署。

在收集层，agent 和 web server 部署在同一台机器上。(这里我们也可以开发 flume 的 Embedded agent)通过 RPC 将数据流入聚合层。这一层应该快速的将日志收集到聚合层。
聚合层进行日志数据的聚合和收集，在这一层，可以做容错处理，如负债均衡或者 failover.以提升可靠性。在这一层，数据量大时可以打开 fileChannel，作为数据缓冲区，避免数据的丢失。以后主要的维护工作也主要在这一层上面。
在存储层，一般会流向 hdfs，kafka 以供离线和实时的数据分析。

大数据学习笔记（10）-- flume 的安装和配置

flume 的基本工作机制示意图 [图片] flume 的安装 flume 官网在官网下载自己的需要的版本，上传服务器解压到相对应的目录 flume 的简单配置读取指定目录下所有文件的配置 #定义三大组件的名称 ag1.sources = source1 ag1.sinks = sink1 ag1.channels ..

Flume 读取日志文件数据存入到 Mysql

需求是用 flume 监控日志文件，然后将文件的内容存放在 mysql 数据库中。本文结构（注意：环境都是在 centos 7（192.168.5.105）下） flume1.7.0 的安装和配置 mysql 表设计 MysqlSink 插件的编写连接服务器远程调试打包更新到服务器 flume1.7.0 的安装和 ..

flume 日志收集架构设计

日志收集系统&日志 ETL [TOC] 我司的日志收集系统负责我司的所有业务日志的收集，并分别给 Hadoop 平台提供离线数据和实时平台提供实时数据流。17 作业的日志收集系统基于 Flume 设计和搭建而成。 flume 简单入门 Flume 的架构主要有一下几个核心概念： Event：一个数据单元，带有一 ..

flume-ng 源码分析 - 整体架构 1【启动篇】

什么是 flume Flume 是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume 支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume 提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。flume 常用场景:log-->flume-- ..

整体了解HADOOP框架及一些开源项目

Hadoop框架中，有很多优秀的工具，帮助我们解决工作中的问题。 Hadoop的位置 [图片] 从上图可以看出，越往右，实时性越高，越往上，涉及到算法等越多。越往上，越往右就越火…… Hadoop框架中一些简介 [图片] HDFS HDFS，（Hadoop Distributed File System） hadoo ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

flume-ng 源码分析 - 整体架构 2【常用架构篇】

简单的日志收集

复杂的日志收集

相关帖子

大数据学习笔记（10）-- flume 的安装和配置

Flume 读取日志文件数据存入到 Mysql

flume-ng 源码分析 - 核心组件分析

flume 日志收集架构设计

flume-ng 源码分析 - 整体架构 1【启动篇】

Flume 问题集

整体了解HADOOP框架及一些开源项目

欢迎来到这里！

近期热议

推荐标签标签

最新标签

flume-ng 源码分析 - 整体架构 2【常用架构篇】

简单的日志收集

复杂的日志收集

相关帖子

大数据学习笔记（10）-- flume 的安装和配置

Flume 读取日志文件数据存入到 Mysql

flume-ng 源码分析 - 核心组件分析

flume 日志收集架构设计

flume-ng 源码分析 - 整体架构 1【启动篇】

Flume 问题集

整体了解HADOOP框架及一些开源项目

欢迎来到这里！

近期热议

推荐标签 标签

最新标签

推荐标签标签