基于Flume的电力日志收集系统架构设计初探

本贴最后更新于 3387 天前,其中的信息可能已经东海扬尘

一、引言

     企业的信息化,离不开各种业务系统的支持。业务系统数量大,系统异构明显。而无论什么系统,要进行有效的监控、维护、优化、改进,都离不开对日志的收集与分析。而一般的日志,都是存放在各自系统所在的服务器上。相关人员每天要进到各种各样的系统后台,查阅海量的日志信息。如果有一套工具,可以实时的将分布在不同节点、机器上的日志进行收集,供离线查阅或在线分析所用,那么就可以极大的减少人力投入,提升工作效率,提升企业的信息化水平。随着大数据技术的兴起,使得这一切都变为可能。

FlumeApache基金会下的顶级项目。对于Flume,在其官网上有这样的一段描述:“Flume是一套分布式的、可靠的,可用于有效地收集,聚合和搬运大量日志数据的服务架构。它是基于流式数据的简单灵活的架构。它通过一系列可靠性机制和故障转移及恢复机制来实现强大的容错能力。使用简约、可扩展的数据模型,并允许在线分析应用程序”。可以基于Flume,来进行日志收集系统架构的设计。

 

二、初步设计

2.1、总体设计

         该日志收集系统,负责收集所有接入到系统的日志信息,转化为流式数据,或者永久数据,供StormHadoop等工具作为分析源。架构采用了Flume_NG作为基础构建。Agent层从各系统收集日志数据,使用loadBalance策略,将数据sink到中心路由服务器,中心服务器根据事先定义好的路由规则,将缓存在内存中的数据sink到相应的存储服务器中,供离线或在线分析所用。当然也可以不经过中心调度服务器,直接将clientAgent的日志信息持久化到HDFS或生成实时流数据供离线或在线分析。

如图2-1所示:

 

2-1总体架构

2.2、模块分解

         将整个架构拆分为三层,2-1图中,从左到右依次是源数据接入层,中心路由服务器,存储服务器。存储服务器分为流式存储服务器、HDFS分布式文件存储服务器,当然,也可以使Hbase这类数据库。采集到的存储服务器,最终提供给Hadoop这样的静态数据分析平台,或者Storm这样的流式数据分析平台来使用,抑或是其他平台。

 

2.2.1、源数据接入层

        基于Flume_NG的架构,源数据接入层中的每一个clientAgent都是一个独立的Flume进程,由SourceChannel以及Sink三个组件构成。Source接收传递而来的Event并负责将Event转移到ChannelChannel是一段零时存储的格式化Event数据,根据其存储介质的不同,可以分为FileChannelJDBCChannelMemoryChannel等不同类型,其作用可能类似于Java中的PipeLine),Sink组件从Channel中获取数据,一个Sink只能从一个Channel中获取数据,而一个Source的数据可以存入多个Channel,实际上是同时复制了多份数据存入Channel中。

2-2clientAgent

实际上,包括源数据接入层和中心调度服务器层,无论是clientAgent还是FlumeControllerAgent,主要都是由SourceChannelSink三个组件构成。源数据接入层的Sink组件获取到数据后,可以通过配置和编码实现定制化的功能,将数据sink到中心调度服务器的Source组件。基于系统可靠性和稳定性的考虑,需要在源数据接入层和中心调度服务器层之间实现loadBalance和重试机制。实现后,需要处理的各task均衡的负载在各中心调度服务器;同时,当某台中心调度服务器无法服务时,由clientAgent通过Sink组件将数据发送到另一台中心调度服务器。源数据服务层支持线性扩展,理论上,只需要在客户机上安装agent程序并进行相应的配置操作即可将新加的服务器日志加入日志处理队列。

2.2.2中心调度服务器

中心调度服务器层设计为服务器集群,在性能达到瓶颈时,同样可以采用线性扩展的方式对集群进行扩容,而这只需要变更配置文件及少许代码的修改而已。中心调度服务器的主要工作是接收来自数据源接入层的数据,根据路由规则将数据送到不同的存储服务器。

2-3FlumeControllerAgent

如图所示,数据从clientAgent传递到FlumeControllerAgent后,Source1Source2Source3中的数据将会汇聚到Channel中,作为Sinkhkdfsinkkafka,sinkbypass的数据来源。当然,一个FlumeControllerAgent中也可以有多个Channel,用以实现不同数据的隔离。

2.2.3存储服务器

存储服务器,设计分为HdfsServerKafkaServerByPassServerHdfsServer分布式存储所有日志,可供Hadoop进行离线分析使用;KafkaServer可以存储某段时间的日志(可配置),同时为Storm框架提供实时的流数据,供实时在线分析;ByPassServer的本质也是一台Agent,负责为其他的框架提供实时的日志流,可以通过配置和少量编码将日志流sink到其他框架,供分析使用。

三、目前可能存在的问题

目前FLume_NG框架中,主要提供了下面的几种Channel:

Channel

说明

Memory Channel

Event数据存储在内存中

JDBC Channel

Event数据存储在持久化存储中,当前Flume Channel内置支持Derby

File Channel

Event数据存储在磁盘文件中

Spillable Memory Channel

Event数据存储在内存中和磁盘上,当内存队列满了,会持久化到磁盘文件(当前试验性的,不建议生产环境使用)

Memory Channel的特点是速度快,高吞吐,缺点是容量有限,Agent死掉之后数据丢失;FileChannel的特点是容量高,数据完整性强,即使是Agent死掉,也可以恢复,缺点就是速度慢,单位时间吞吐量较低。JDBC Channel则可以提供持久化支持。Spillable Memory Channel由于是实验性的,不可贸然用于生产环境。

MemoryJDBCFile三种Channel的任何一种,又不可能同时满足大缓存、高吞吐的系统要求,必须结合公司实际情况,对Channel进行个性化订制。当然,系统运行的初期在对处理速度和稳定性要求不高的情况下可以先使用他们上述三种。

 

四、预期效果

随着大数据技术的发展,其对于海量数据快速分析和处理的优势进一步显现。可以预期,日志收集系统的运行,将使得以往需要大量人力物力时间成本来完成的工作,可以在短时间内高效达成,至少有以下几点的优势:

1、异构系统海量日志的同时收集处理。

2、发现和预防问题的实时性大幅提升。

3、异常处理速度的大幅提升。

4、系统优化分析速度的大幅提升。

 

结语:大数据并非高不可攀,最大的拦路虎就是行动的意愿。


参考资料:

开源日志系统比较

Flume NG 简介及配置实战

Flume内置channel,source,sink三组件介绍

基于Flume的美团日志收集系统(一)架构和设计

flume-ng+Kafka+Storm+HDFS 实时系统搭建

  • Flume

    Flume 是一套分布式的、可靠的,可用于有效地收集、聚合和搬运大量日志数据的服务架构。

    9 引用 • 6 回帖 • 613 关注
  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    89 引用 • 113 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • 1439226817

    有具体的例子就好了

  • 其他回帖
  • sparon

    好项目支持!

推荐标签 标签

  • WordPress

    WordPress 是一个使用 PHP 语言开发的博客平台,用户可以在支持 PHP 和 MySQL 数据库的服务器上架设自己的博客。也可以把 WordPress 当作一个内容管理系统(CMS)来使用。WordPress 是一个免费的开源项目,在 GNU 通用公共许可证(GPLv2)下授权发布。

    45 引用 • 113 回帖 • 276 关注
  • 黑曜石

    黑曜石是一款强大的知识库工具,支持本地 Markdown 文件编辑,支持双向链接和关系图。

    A second brain, for you, forever.

    10 引用 • 88 回帖
  • FreeMarker

    FreeMarker 是一款好用且功能强大的 Java 模版引擎。

    23 引用 • 20 回帖 • 429 关注
  • Dubbo

    Dubbo 是一个分布式服务框架,致力于提供高性能和透明化的 RPC 远程服务调用方案,是 [阿里巴巴] SOA 服务化治理方案的核心框架,每天为 2,000+ 个服务提供 3,000,000,000+ 次访问量支持,并被广泛应用于阿里巴巴集团的各成员站点。

    60 引用 • 82 回帖 • 607 关注
  • 房星科技

    房星网,我们不和没有钱的程序员谈理想,我们要让程序员又有理想又有钱。我们有雄厚的房地产行业线下资源,遍布昆明全城的 100 家门店、四千地产经纪人是我们坚实的后盾。

    6 引用 • 141 回帖 • 566 关注
  • 区块链

    区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。所谓共识机制是区块链系统中实现不同节点之间建立信任、获取权益的数学算法 。

    91 引用 • 751 回帖
  • OkHttp

    OkHttp 是一款 HTTP & HTTP/2 客户端库,专为 Android 和 Java 应用打造。

    16 引用 • 6 回帖 • 48 关注
  • BND

    BND(Baidu Netdisk Downloader)是一款图形界面的百度网盘不限速下载器,支持 Windows、Linux 和 Mac,详细介绍请看这里

    107 引用 • 1281 回帖 • 29 关注
  • Gitea

    Gitea 是一个开源社区驱动的轻量级代码托管解决方案,后端采用 Go 编写,采用 MIT 许可证。

    4 引用 • 16 回帖 • 1 关注
  • AngularJS

    AngularJS 诞生于 2009 年,由 Misko Hevery 等人创建,后为 Google 所收购。是一款优秀的前端 JS 框架,已经被用于 Google 的多款产品当中。AngularJS 有着诸多特性,最为核心的是:MVC、模块化、自动化双向数据绑定、语义化标签、依赖注入等。2.0 版本后已经改名为 Angular。

    12 引用 • 50 回帖 • 441 关注
  • SOHO

    为成为自由职业者在家办公而努力吧!

    7 引用 • 55 回帖 • 65 关注
  • 新人

    让我们欢迎这对新人。哦,不好意思说错了,让我们欢迎这位新人!
    新手上路,请谨慎驾驶!

    51 引用 • 226 回帖
  • Maven

    Maven 是基于项目对象模型(POM)、通过一小段描述信息来管理项目的构建、报告和文档的软件项目管理工具。

    186 引用 • 318 回帖 • 330 关注
  • 深度学习

    深度学习(Deep Learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。

    41 引用 • 40 回帖
  • Q&A

    提问之前请先看《提问的智慧》,好的问题比好的答案更有价值。

    7017 引用 • 31714 回帖 • 220 关注
  • Ngui

    Ngui 是一个 GUI 的排版显示引擎和跨平台的 GUI 应用程序开发框架,基于
    Node.js / OpenGL。目标是在此基础上开发 GUI 应用程序可拥有开发 WEB 应用般简单与速度同时兼顾 Native 应用程序的性能与体验。

    7 引用 • 9 回帖 • 363 关注
  • Linux

    Linux 是一套免费使用和自由传播的类 Unix 操作系统,是一个基于 POSIX 和 Unix 的多用户、多任务、支持多线程和多 CPU 的操作系统。它能运行主要的 Unix 工具软件、应用程序和网络协议,并支持 32 位和 64 位硬件。Linux 继承了 Unix 以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。

    923 引用 • 936 回帖
  • danl
    92 关注
  • MyBatis

    MyBatis 本是 Apache 软件基金会 的一个开源项目 iBatis,2010 年这个项目由 Apache 软件基金会迁移到了 google code,并且改名为 MyBatis ,2013 年 11 月再次迁移到了 GitHub。

    170 引用 • 414 回帖 • 400 关注
  • frp

    frp 是一个可用于内网穿透的高性能的反向代理应用,支持 TCP、UDP、 HTTP 和 HTTPS 协议。

    16 引用 • 7 回帖 • 2 关注
  • Sphinx

    Sphinx 是一个基于 SQL 的全文检索引擎,可以结合 MySQL、PostgreSQL 做全文搜索,它可以提供比数据库本身更专业的搜索功能,使得应用程序更容易实现专业化的全文检索。

    1 引用 • 194 关注
  • H2

    H2 是一个开源的嵌入式数据库引擎,采用 Java 语言编写,不受平台的限制,同时 H2 提供了一个十分方便的 web 控制台用于操作和管理数据库内容。H2 还提供兼容模式,可以兼容一些主流的数据库,因此采用 H2 作为开发期的数据库非常方便。

    11 引用 • 54 回帖 • 648 关注
  • 百度

    百度(Nasdaq:BIDU)是全球最大的中文搜索引擎、最大的中文网站。2000 年 1 月由李彦宏创立于北京中关村,致力于向人们提供“简单,可依赖”的信息获取方式。“百度”二字源于中国宋朝词人辛弃疾的《青玉案·元夕》词句“众里寻他千百度”,象征着百度对中文信息检索技术的执著追求。

    63 引用 • 785 回帖 • 237 关注
  • 以太坊

    以太坊(Ethereum)并不是一个机构,而是一款能够在区块链上实现智能合约、开源的底层系统。以太坊是一个平台和一种编程语言 Solidity,使开发人员能够建立和发布下一代去中心化应用。 以太坊可以用来编程、分散、担保和交易任何事物:投票、域名、金融交易所、众筹、公司管理、合同和知识产权等等。

    34 引用 • 367 回帖 • 2 关注
  • GitBook

    GitBook 使您的团队可以轻松编写和维护高质量的文档。 分享知识,提高团队的工作效率,让用户满意。

    3 引用 • 8 回帖 • 1 关注
  • Telegram

    Telegram 是一个非盈利性、基于云端的即时消息服务。它提供了支持各大操作系统平台的开源的客户端,也提供了很多强大的 APIs 给开发者创建自己的客户端和机器人。

    5 引用 • 35 回帖
  • SVN

    SVN 是 Subversion 的简称,是一个开放源代码的版本控制系统,相较于 RCS、CVS,它采用了分支管理系统,它的设计目标就是取代 CVS。

    29 引用 • 98 回帖 • 688 关注