flume 知识点回顾

日志收集工具

重点是 source、channel、sink

channel 是个内部消息缓冲器，file channel、memory channel、 kafka channel

Channel 线程安全并且具有事务性

Memory Channel

读写速度快，但是存储数据量小，Flume 进程挂掉、服务器停机或者重启都会导致数据丢失

File Channel

将 event 写入磁盘文件，与 Memory Channel 相比存储容量大，无数据丢失风险。File Channel 数据存储路径可以配置多磁盘文件路径，通过磁盘并行写入提高 File Channel 性能。Flume 将 Event 顺序写入到 File Channel 文件的末尾。可以在配置文件中通过设置 maxFileSize 参数配置数据文件大小，当被写入的文件大小达到上限的时候，Flume 会重新创建新的文件存储写入 Event。当一个已经关闭的只读数据文件的 Event 被读取完成，并且 Sink 已经提交读取完成的事务，则 Flume 把存储该数据的文件删除。

Kafka Channel

Memory Channel 有很大的丢数据风险，而且容量一般，File Channel 虽然能缓存更多的消息，但如果缓存下来的消息还没写入 Sink，此时 Agent 出现故障则 File Channel 中的消息一样不能被继续使用，直到该 Agent 恢复。而 Kafka Channel 容量大，容错能力强

拦截器

Source 将 Event 写入到 Channel 之前可以使用拦截器对 Event 进行各种形式的处理，Source 和 Channel 之间可以有多个拦截器，不同拦截器使用不同的规则处理 Event，包括时间、主机、UUID、正则表达式等多种形式的拦截器。

选择器

Source 发送的 Event 通过 Channel 选择器来选择以哪种方式写入到 Channel 中，Flume 提供三种类型 Channel 选择器，分别是复制、复用和自定义选择器。

复制选择器: 一个 Source 以复制的方式将一个 Event 同时写入到多个 Channel 中，不同的 Sink 可以从不同的 Channel 中获取相同的 Event，比如一份日志数据同时写 Kafka 和 HDFS，一个 Event 同时写入两个 Channel，然后不同类型的 Sink 发送到不同的外部存储。
复用选择器: 需要和拦截器配合使用，根据 Event 的头信息中不同键值数据来判断 Event 应该写入哪个 Channel 中

Flume 的负载均衡和故障转移

多个子 Sink

目的是为了提高整个系统的容错能力和稳定性。简单配置就可以轻松实现，首先需要设置 Sink 组，同一个 Sink 组内有多个子 Sink，不同 Sink 之间可以配置成负载均衡或者故障转移

refer

Flume面试题（一） 1 知道 Flume 的 Channel 是啥吗Channel 被设计为 Event 中转临时缓冲区，存储 Source 收集并且没有被 Sink 读取的 Event，为平衡 Source 收集和 Sink 读取的速度，可视为 Flume 内部的消息队列。 Channel 线程安… 知乎专栏 - zhuanlan.zhihu.com

Flume 1.9.0 User Guide — Apache Flume

【bigdata】4.hive 安装

hive的全部安装过程都是在master节点安装 hive 1.上传并解压 tar -zxvf apache-hive-1.2.2-bin.tar.gz -C /hive安装目录 2.配置环境 2.1 配置 hive-env.sh # 跳转到hive配置文件目录 cd /hive安装目录/conf # 修改名称 mv ..

思源 + pipe 最佳的笔记 / 博客方案

缘起说起笔记 + 博客方案，有很多选择，但我浏览了很多方案。感觉思源和 solo 或 pipe 最方便，出自同门，兼容性好。 solo 需要自己搭建，如果是小白用户还是推荐在线 pipe。做这个功能一是自用，二是为老用户做的一个功能。效果预览 https://pipe.b3log.org/blogs/wilso ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

flume 知识点回顾

Memory Channel

File Channel

Kafka Channel

拦截器

选择器

Flume 的负载均衡和故障转移

refer

相关帖子

【bigdata】4.hive 安装

【bigdata】3.idea 连接虚拟机 Hadoop 集群

【bigdata】2.Hadoop 集群模式安装

v3.1.29 OutLine 不一致的问题

思源 + pipe 最佳的笔记 / 博客方案

分享：移动端，悬浮球版的多块选择大法

思源模板片段特殊函数有哪些？

欢迎来到这里！