基于Flume的电力日志收集系统架构设计初探

本贴最后更新于 3614 天前,其中的信息可能已经东海扬尘

一、引言

     企业的信息化,离不开各种业务系统的支持。业务系统数量大,系统异构明显。而无论什么系统,要进行有效的监控、维护、优化、改进,都离不开对日志的收集与分析。而一般的日志,都是存放在各自系统所在的服务器上。相关人员每天要进到各种各样的系统后台,查阅海量的日志信息。如果有一套工具,可以实时的将分布在不同节点、机器上的日志进行收集,供离线查阅或在线分析所用,那么就可以极大的减少人力投入,提升工作效率,提升企业的信息化水平。随着大数据技术的兴起,使得这一切都变为可能。

FlumeApache基金会下的顶级项目。对于Flume,在其官网上有这样的一段描述:“Flume是一套分布式的、可靠的,可用于有效地收集,聚合和搬运大量日志数据的服务架构。它是基于流式数据的简单灵活的架构。它通过一系列可靠性机制和故障转移及恢复机制来实现强大的容错能力。使用简约、可扩展的数据模型,并允许在线分析应用程序”。可以基于Flume,来进行日志收集系统架构的设计。

 

二、初步设计

2.1、总体设计

         该日志收集系统,负责收集所有接入到系统的日志信息,转化为流式数据,或者永久数据,供StormHadoop等工具作为分析源。架构采用了Flume_NG作为基础构建。Agent层从各系统收集日志数据,使用loadBalance策略,将数据sink到中心路由服务器,中心服务器根据事先定义好的路由规则,将缓存在内存中的数据sink到相应的存储服务器中,供离线或在线分析所用。当然也可以不经过中心调度服务器,直接将clientAgent的日志信息持久化到HDFS或生成实时流数据供离线或在线分析。

如图2-1所示:

 

2-1总体架构

2.2、模块分解

         将整个架构拆分为三层,2-1图中,从左到右依次是源数据接入层,中心路由服务器,存储服务器。存储服务器分为流式存储服务器、HDFS分布式文件存储服务器,当然,也可以使Hbase这类数据库。采集到的存储服务器,最终提供给Hadoop这样的静态数据分析平台,或者Storm这样的流式数据分析平台来使用,抑或是其他平台。

 

2.2.1、源数据接入层

        基于Flume_NG的架构,源数据接入层中的每一个clientAgent都是一个独立的Flume进程,由SourceChannel以及Sink三个组件构成。Source接收传递而来的Event并负责将Event转移到ChannelChannel是一段零时存储的格式化Event数据,根据其存储介质的不同,可以分为FileChannelJDBCChannelMemoryChannel等不同类型,其作用可能类似于Java中的PipeLine),Sink组件从Channel中获取数据,一个Sink只能从一个Channel中获取数据,而一个Source的数据可以存入多个Channel,实际上是同时复制了多份数据存入Channel中。

2-2clientAgent

实际上,包括源数据接入层和中心调度服务器层,无论是clientAgent还是FlumeControllerAgent,主要都是由SourceChannelSink三个组件构成。源数据接入层的Sink组件获取到数据后,可以通过配置和编码实现定制化的功能,将数据sink到中心调度服务器的Source组件。基于系统可靠性和稳定性的考虑,需要在源数据接入层和中心调度服务器层之间实现loadBalance和重试机制。实现后,需要处理的各task均衡的负载在各中心调度服务器;同时,当某台中心调度服务器无法服务时,由clientAgent通过Sink组件将数据发送到另一台中心调度服务器。源数据服务层支持线性扩展,理论上,只需要在客户机上安装agent程序并进行相应的配置操作即可将新加的服务器日志加入日志处理队列。

2.2.2中心调度服务器

中心调度服务器层设计为服务器集群,在性能达到瓶颈时,同样可以采用线性扩展的方式对集群进行扩容,而这只需要变更配置文件及少许代码的修改而已。中心调度服务器的主要工作是接收来自数据源接入层的数据,根据路由规则将数据送到不同的存储服务器。

2-3FlumeControllerAgent

如图所示,数据从clientAgent传递到FlumeControllerAgent后,Source1Source2Source3中的数据将会汇聚到Channel中,作为Sinkhkdfsinkkafka,sinkbypass的数据来源。当然,一个FlumeControllerAgent中也可以有多个Channel,用以实现不同数据的隔离。

2.2.3存储服务器

存储服务器,设计分为HdfsServerKafkaServerByPassServerHdfsServer分布式存储所有日志,可供Hadoop进行离线分析使用;KafkaServer可以存储某段时间的日志(可配置),同时为Storm框架提供实时的流数据,供实时在线分析;ByPassServer的本质也是一台Agent,负责为其他的框架提供实时的日志流,可以通过配置和少量编码将日志流sink到其他框架,供分析使用。

三、目前可能存在的问题

目前FLume_NG框架中,主要提供了下面的几种Channel:

Channel

说明

Memory Channel

Event数据存储在内存中

JDBC Channel

Event数据存储在持久化存储中,当前Flume Channel内置支持Derby

File Channel

Event数据存储在磁盘文件中

Spillable Memory Channel

Event数据存储在内存中和磁盘上,当内存队列满了,会持久化到磁盘文件(当前试验性的,不建议生产环境使用)

Memory Channel的特点是速度快,高吞吐,缺点是容量有限,Agent死掉之后数据丢失;FileChannel的特点是容量高,数据完整性强,即使是Agent死掉,也可以恢复,缺点就是速度慢,单位时间吞吐量较低。JDBC Channel则可以提供持久化支持。Spillable Memory Channel由于是实验性的,不可贸然用于生产环境。

MemoryJDBCFile三种Channel的任何一种,又不可能同时满足大缓存、高吞吐的系统要求,必须结合公司实际情况,对Channel进行个性化订制。当然,系统运行的初期在对处理速度和稳定性要求不高的情况下可以先使用他们上述三种。

 

四、预期效果

随着大数据技术的发展,其对于海量数据快速分析和处理的优势进一步显现。可以预期,日志收集系统的运行,将使得以往需要大量人力物力时间成本来完成的工作,可以在短时间内高效达成,至少有以下几点的优势:

1、异构系统海量日志的同时收集处理。

2、发现和预防问题的实时性大幅提升。

3、异常处理速度的大幅提升。

4、系统优化分析速度的大幅提升。

 

结语:大数据并非高不可攀,最大的拦路虎就是行动的意愿。


参考资料:

开源日志系统比较

Flume NG 简介及配置实战

Flume内置channel,source,sink三组件介绍

基于Flume的美团日志收集系统(一)架构和设计

flume-ng+Kafka+Storm+HDFS 实时系统搭建

  • Flume

    Flume 是一套分布式的、可靠的,可用于有效地收集、聚合和搬运大量日志数据的服务架构。

    9 引用 • 6 回帖 • 651 关注
  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    93 引用 • 113 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • 1439226817

    有具体的例子就好了

  • 其他回帖
  • sparon

    好项目支持!

推荐标签 标签

  • 互联网

    互联网(Internet),又称网际网络,或音译因特网、英特网。互联网始于 1969 年美国的阿帕网,是网络与网络之间所串连成的庞大网络,这些网络以一组通用的协议相连,形成逻辑上的单一巨大国际网络。

    98 引用 • 345 回帖
  • ZooKeeper

    ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,是 Google 的 Chubby 一个开源的实现,是 Hadoop 和 HBase 的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

    59 引用 • 29 回帖 • 7 关注
  • gRpc
    11 引用 • 9 回帖 • 88 关注
  • 安全

    安全永远都不是一个小问题。

    203 引用 • 816 回帖 • 2 关注
  • 房星科技

    房星网,我们不和没有钱的程序员谈理想,我们要让程序员又有理想又有钱。我们有雄厚的房地产行业线下资源,遍布昆明全城的 100 家门店、四千地产经纪人是我们坚实的后盾。

    6 引用 • 141 回帖 • 589 关注
  • jsoup

    jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。

    6 引用 • 1 回帖 • 491 关注
  • 阿里巴巴

    阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的 18 人,于 1999 年在中国杭州创立,他们相信互联网能够创造公平的竞争环境,让小企业通过创新与科技扩展业务,并在参与国内或全球市场竞争时处于更有利的位置。

    43 引用 • 221 回帖 • 84 关注
  • JRebel

    JRebel 是一款 Java 虚拟机插件,它使得 Java 程序员能在不进行重部署的情况下,即时看到代码的改变对一个应用程序带来的影响。

    26 引用 • 78 回帖 • 678 关注
  • golang

    Go 语言是 Google 推出的一种全新的编程语言,可以在不损失应用程序性能的情况下降低代码的复杂性。谷歌首席软件工程师罗布派克(Rob Pike)说:我们之所以开发 Go,是因为过去 10 多年间软件开发的难度令人沮丧。Go 是谷歌 2009 发布的第二款编程语言。

    498 引用 • 1388 回帖 • 263 关注
  • 人工智能

    人工智能(Artificial Intelligence)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。

    146 引用 • 267 回帖
  • Sillot

    Insights(注意当前设置 master 为默认分支)

    汐洛彖夲肜矩阵(Sillot T☳Converbenk Matrix),致力于服务智慧新彖乄,具有彖乄驱动、极致优雅、开发者友好的特点。其中汐洛绞架(Sillot-Gibbet)基于自思源笔记(siyuan-note),前身是思源笔记汐洛版(更早是思源笔记汐洛分支),是智慧新录乄终端(多端融合,移动端优先)。

    主仓库地址:Hi-Windom/Sillot

    文档地址:sillot.db.sc.cn

    注意事项:

    1. ⚠️ 汐洛仍在早期开发阶段,尚不稳定
    2. ⚠️ 汐洛并非面向普通用户设计,使用前请了解风险
    3. ⚠️ 汐洛绞架基于思源笔记,开发者尽最大努力与思源笔记保持兼容,但无法实现 100% 兼容
    29 引用 • 25 回帖 • 106 关注
  • LeetCode

    LeetCode(力扣)是一个全球极客挚爱的高质量技术成长平台,想要学习和提升专业能力从这里开始,充足技术干货等你来啃,轻松拿下 Dream Offer!

    209 引用 • 72 回帖
  • 学习

    “梦想从学习开始,事业从实践起步” —— 习近平

    171 引用 • 513 回帖
  • Redis

    Redis 是一个开源的使用 ANSI C 语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value 数据库,并提供多种语言的 API。从 2010 年 3 月 15 日起,Redis 的开发工作由 VMware 主持。从 2013 年 5 月开始,Redis 的开发由 Pivotal 赞助。

    286 引用 • 248 回帖 • 25 关注
  • SendCloud

    SendCloud 由搜狐武汉研发中心孵化的项目,是致力于为开发者提供高质量的触发邮件服务的云端邮件发送平台,为开发者提供便利的 API 接口来调用服务,让邮件准确迅速到达用户收件箱并获得强大的追踪数据。

    2 引用 • 8 回帖 • 489 关注
  • ReactiveX

    ReactiveX 是一个专注于异步编程与控制可观察数据(或者事件)流的 API。它组合了观察者模式,迭代器模式和函数式编程的优秀思想。

    1 引用 • 2 回帖 • 171 关注
  • App

    App(应用程序,Application 的缩写)一般指手机软件。

    91 引用 • 384 回帖 • 1 关注
  • Sym

    Sym 是一款用 Java 实现的现代化社区(论坛/BBS/社交网络/博客)系统平台。

    下一代的社区系统,为未来而构建

    524 引用 • 4601 回帖 • 696 关注
  • Gzip

    gzip (GNU zip)是 GNU 自由软件的文件压缩程序。我们在 Linux 中经常会用到后缀为 .gz 的文件,它们就是 Gzip 格式的。现今已经成为互联网上使用非常普遍的一种数据压缩格式,或者说一种文件格式。

    9 引用 • 12 回帖 • 170 关注
  • NGINX

    NGINX 是一个高性能的 HTTP 和反向代理服务器,也是一个 IMAP/POP3/SMTP 代理服务器。 NGINX 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的,第一个公开版本 0.1.0 发布于 2004 年 10 月 4 日。

    315 引用 • 547 回帖 • 2 关注
  • 印象笔记
    3 引用 • 16 回帖 • 1 关注
  • flomo

    flomo 是新一代 「卡片笔记」 ,专注在碎片化时代,促进你的记录,帮你积累更多知识资产。

    6 引用 • 140 回帖 • 1 关注
  • 尊园地产

    昆明尊园房地产经纪有限公司,即:Kunming Zunyuan Property Agency Company Limited(简称“尊园地产”)于 2007 年 6 月开始筹备,2007 年 8 月 18 日正式成立,注册资本 200 万元,公司性质为股份经纪有限公司,主营业务为:代租、代售、代办产权过户、办理银行按揭、担保、抵押、评估等。

    1 引用 • 22 回帖 • 783 关注
  • ZeroNet

    ZeroNet 是一个基于比特币加密技术和 BT 网络技术的去中心化的、开放开源的网络和交流系统。

    1 引用 • 21 回帖 • 633 关注
  • 数据库

    据说 99% 的性能瓶颈都在数据库。

    345 引用 • 724 回帖 • 1 关注
  • HHKB

    HHKB 是富士通的 Happy Hacking 系列电容键盘。电容键盘即无接点静电电容式键盘(Capacitive Keyboard)。

    5 引用 • 74 回帖 • 492 关注
  • 链滴

    链滴是一个记录生活的地方。

    记录生活,连接点滴

    166 引用 • 3832 回帖