基于Flume的电力日志收集系统架构设计初探

本贴最后更新于 3905 天前,其中的信息可能已经东海扬尘

一、引言

     企业的信息化,离不开各种业务系统的支持。业务系统数量大,系统异构明显。而无论什么系统,要进行有效的监控、维护、优化、改进,都离不开对日志的收集与分析。而一般的日志,都是存放在各自系统所在的服务器上。相关人员每天要进到各种各样的系统后台,查阅海量的日志信息。如果有一套工具,可以实时的将分布在不同节点、机器上的日志进行收集,供离线查阅或在线分析所用,那么就可以极大的减少人力投入,提升工作效率,提升企业的信息化水平。随着大数据技术的兴起,使得这一切都变为可能。

FlumeApache基金会下的顶级项目。对于Flume,在其官网上有这样的一段描述:“Flume是一套分布式的、可靠的,可用于有效地收集,聚合和搬运大量日志数据的服务架构。它是基于流式数据的简单灵活的架构。它通过一系列可靠性机制和故障转移及恢复机制来实现强大的容错能力。使用简约、可扩展的数据模型,并允许在线分析应用程序”。可以基于Flume,来进行日志收集系统架构的设计。

 

二、初步设计

2.1、总体设计

         该日志收集系统,负责收集所有接入到系统的日志信息,转化为流式数据,或者永久数据,供StormHadoop等工具作为分析源。架构采用了Flume_NG作为基础构建。Agent层从各系统收集日志数据,使用loadBalance策略,将数据sink到中心路由服务器,中心服务器根据事先定义好的路由规则,将缓存在内存中的数据sink到相应的存储服务器中,供离线或在线分析所用。当然也可以不经过中心调度服务器,直接将clientAgent的日志信息持久化到HDFS或生成实时流数据供离线或在线分析。

如图2-1所示:

 

2-1总体架构

2.2、模块分解

         将整个架构拆分为三层,2-1图中,从左到右依次是源数据接入层,中心路由服务器,存储服务器。存储服务器分为流式存储服务器、HDFS分布式文件存储服务器,当然,也可以使Hbase这类数据库。采集到的存储服务器,最终提供给Hadoop这样的静态数据分析平台,或者Storm这样的流式数据分析平台来使用,抑或是其他平台。

 

2.2.1、源数据接入层

        基于Flume_NG的架构,源数据接入层中的每一个clientAgent都是一个独立的Flume进程,由SourceChannel以及Sink三个组件构成。Source接收传递而来的Event并负责将Event转移到ChannelChannel是一段零时存储的格式化Event数据,根据其存储介质的不同,可以分为FileChannelJDBCChannelMemoryChannel等不同类型,其作用可能类似于Java中的PipeLine),Sink组件从Channel中获取数据,一个Sink只能从一个Channel中获取数据,而一个Source的数据可以存入多个Channel,实际上是同时复制了多份数据存入Channel中。

2-2clientAgent

实际上,包括源数据接入层和中心调度服务器层,无论是clientAgent还是FlumeControllerAgent,主要都是由SourceChannelSink三个组件构成。源数据接入层的Sink组件获取到数据后,可以通过配置和编码实现定制化的功能,将数据sink到中心调度服务器的Source组件。基于系统可靠性和稳定性的考虑,需要在源数据接入层和中心调度服务器层之间实现loadBalance和重试机制。实现后,需要处理的各task均衡的负载在各中心调度服务器;同时,当某台中心调度服务器无法服务时,由clientAgent通过Sink组件将数据发送到另一台中心调度服务器。源数据服务层支持线性扩展,理论上,只需要在客户机上安装agent程序并进行相应的配置操作即可将新加的服务器日志加入日志处理队列。

2.2.2中心调度服务器

中心调度服务器层设计为服务器集群,在性能达到瓶颈时,同样可以采用线性扩展的方式对集群进行扩容,而这只需要变更配置文件及少许代码的修改而已。中心调度服务器的主要工作是接收来自数据源接入层的数据,根据路由规则将数据送到不同的存储服务器。

2-3FlumeControllerAgent

如图所示,数据从clientAgent传递到FlumeControllerAgent后,Source1Source2Source3中的数据将会汇聚到Channel中,作为Sinkhkdfsinkkafka,sinkbypass的数据来源。当然,一个FlumeControllerAgent中也可以有多个Channel,用以实现不同数据的隔离。

2.2.3存储服务器

存储服务器,设计分为HdfsServerKafkaServerByPassServerHdfsServer分布式存储所有日志,可供Hadoop进行离线分析使用;KafkaServer可以存储某段时间的日志(可配置),同时为Storm框架提供实时的流数据,供实时在线分析;ByPassServer的本质也是一台Agent,负责为其他的框架提供实时的日志流,可以通过配置和少量编码将日志流sink到其他框架,供分析使用。

三、目前可能存在的问题

目前FLume_NG框架中,主要提供了下面的几种Channel:

Channel

说明

Memory Channel

Event数据存储在内存中

JDBC Channel

Event数据存储在持久化存储中,当前Flume Channel内置支持Derby

File Channel

Event数据存储在磁盘文件中

Spillable Memory Channel

Event数据存储在内存中和磁盘上,当内存队列满了,会持久化到磁盘文件(当前试验性的,不建议生产环境使用)

Memory Channel的特点是速度快,高吞吐,缺点是容量有限,Agent死掉之后数据丢失;FileChannel的特点是容量高,数据完整性强,即使是Agent死掉,也可以恢复,缺点就是速度慢,单位时间吞吐量较低。JDBC Channel则可以提供持久化支持。Spillable Memory Channel由于是实验性的,不可贸然用于生产环境。

MemoryJDBCFile三种Channel的任何一种,又不可能同时满足大缓存、高吞吐的系统要求,必须结合公司实际情况,对Channel进行个性化订制。当然,系统运行的初期在对处理速度和稳定性要求不高的情况下可以先使用他们上述三种。

 

四、预期效果

随着大数据技术的发展,其对于海量数据快速分析和处理的优势进一步显现。可以预期,日志收集系统的运行,将使得以往需要大量人力物力时间成本来完成的工作,可以在短时间内高效达成,至少有以下几点的优势:

1、异构系统海量日志的同时收集处理。

2、发现和预防问题的实时性大幅提升。

3、异常处理速度的大幅提升。

4、系统优化分析速度的大幅提升。

 

结语:大数据并非高不可攀,最大的拦路虎就是行动的意愿。


参考资料:

开源日志系统比较

Flume NG 简介及配置实战

Flume内置channel,source,sink三组件介绍

基于Flume的美团日志收集系统(一)架构和设计

flume-ng+Kafka+Storm+HDFS 实时系统搭建

  • Flume

    Flume 是一套分布式的、可靠的,可用于有效地收集、聚合和搬运大量日志数据的服务架构。

    9 引用 • 6 回帖 • 686 关注
  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    91 引用 • 113 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • sparon

    好项目支持!

  • 1439226817

    有具体的例子就好了

推荐标签 标签

  • 以太坊

    以太坊(Ethereum)并不是一个机构,而是一款能够在区块链上实现智能合约、开源的底层系统。以太坊是一个平台和一种编程语言 Solidity,使开发人员能够建立和发布下一代去中心化应用。 以太坊可以用来编程、分散、担保和交易任何事物:投票、域名、金融交易所、众筹、公司管理、合同和知识产权等等。

    34 引用 • 367 回帖 • 1 关注
  • SSL

    SSL(Secure Sockets Layer 安全套接层),及其继任者传输层安全(Transport Layer Security,TLS)是为网络通信提供安全及数据完整性的一种安全协议。TLS 与 SSL 在传输层对网络连接进行加密。

    70 引用 • 193 回帖 • 403 关注
  • 微信

    腾讯公司 2011 年 1 月 21 日推出的一款手机通讯软件。用户可以通过摇一摇、搜索号码、扫描二维码等添加好友和关注公众平台,同时可以将自己看到的精彩内容分享到微信朋友圈。

    135 引用 • 798 回帖 • 2 关注
  • LaTeX

    LaTeX(音译“拉泰赫”)是一种基于 ΤΕΧ 的排版系统,由美国计算机学家莱斯利·兰伯特(Leslie Lamport)在 20 世纪 80 年代初期开发,利用这种格式,即使使用者没有排版和程序设计的知识也可以充分发挥由 TeX 所提供的强大功能,能在几天,甚至几小时内生成很多具有书籍质量的印刷品。对于生成复杂表格和数学公式,这一点表现得尤为突出。因此它非常适用于生成高印刷质量的科技和数学类文档。

    14 引用 • 84 回帖
  • 工具

    子曰:“工欲善其事,必先利其器。”

    308 引用 • 773 回帖
  • Visio
    1 引用 • 2 回帖 • 1 关注
  • MyBatis

    MyBatis 本是 Apache 软件基金会 的一个开源项目 iBatis,2010 年这个项目由 Apache 软件基金会迁移到了 google code,并且改名为 MyBatis ,2013 年 11 月再次迁移到了 GitHub。

    174 引用 • 414 回帖 • 344 关注
  • React

    React 是 Facebook 开源的一个用于构建 UI 的 JavaScript 库。

    192 引用 • 291 回帖 • 350 关注
  • Solidity

    Solidity 是一种智能合约高级语言,运行在 [以太坊] 虚拟机(EVM)之上。它的语法接近于 JavaScript,是一种面向对象的语言。

    3 引用 • 18 回帖 • 458 关注
  • BookxNote

    BookxNote 是一款全新的电子书学习工具,助力您的学习与思考,让您的大脑更高效的记忆。

    笔记整理交给我,一心只读圣贤书。

    1 引用 • 1 回帖 • 1 关注
  • Sublime

    Sublime Text 是一款可以用来写代码、写文章的文本编辑器。支持代码高亮、自动完成,还支持通过插件进行扩展。

    10 引用 • 5 回帖 • 1 关注
  • Dubbo

    Dubbo 是一个分布式服务框架,致力于提供高性能和透明化的 RPC 远程服务调用方案,是 [阿里巴巴] SOA 服务化治理方案的核心框架,每天为 2,000+ 个服务提供 3,000,000,000+ 次访问量支持,并被广泛应用于阿里巴巴集团的各成员站点。

    60 引用 • 82 回帖 • 636 关注
  • Latke

    Latke 是一款以 JSON 为主的 Java Web 框架。

    71 引用 • 535 回帖 • 847 关注
  • NetBeans

    NetBeans 是一个始于 1997 年的 Xelfi 计划,本身是捷克布拉格查理大学的数学及物理学院的学生计划。此计划延伸而成立了一家公司进而发展这个商用版本的 NetBeans IDE,直到 1999 年 Sun 买下此公司。Sun 于次年(2000 年)六月将 NetBeans IDE 开源,直到现在 NetBeans 的社群依然持续增长。

    78 引用 • 102 回帖 • 724 关注
  • SQLServer

    SQL Server 是由 [微软] 开发和推广的关系数据库管理系统(DBMS),它最初是由 微软、Sybase 和 Ashton-Tate 三家公司共同开发的,并于 1988 年推出了第一个 OS/2 版本。

    21 引用 • 31 回帖 • 1 关注
  • sts
    2 引用 • 2 回帖 • 260 关注
  • BAE

    百度应用引擎(Baidu App Engine)提供了 PHP、Java、Python 的执行环境,以及云存储、消息服务、云数据库等全面的云服务。它可以让开发者实现自动地部署和管理应用,并且提供动态扩容和负载均衡的运行环境,让开发者不用考虑高成本的运维工作,只需专注于业务逻辑,大大降低了开发者学习和迁移的成本。

    19 引用 • 75 回帖 • 702 关注
  • 分享

    有什么新发现就分享给大家吧!

    251 引用 • 1801 回帖 • 1 关注
  • JVM

    JVM(Java Virtual Machine)Java 虚拟机是一个微型操作系统,有自己的硬件构架体系,还有相应的指令系统。能够识别 Java 独特的 .class 文件(字节码),能够将这些文件中的信息读取出来,使得 Java 程序只需要生成 Java 虚拟机上的字节码后就能在不同操作系统平台上进行运行。

    180 引用 • 120 回帖 • 1 关注
  • 黑曜石

    黑曜石是一款强大的知识库工具,支持本地 Markdown 文件编辑,支持双向链接和关系图。

    A second brain, for you, forever.

    34 引用 • 333 回帖 • 1 关注
  • 设计模式

    设计模式(Design pattern)代表了最佳的实践,通常被有经验的面向对象的软件开发人员所采用。设计模式是软件开发人员在软件开发过程中面临的一般问题的解决方案。这些解决方案是众多软件开发人员经过相当长的一段时间的试验和错误总结出来的。

    201 引用 • 120 回帖
  • Node.js

    Node.js 是一个基于 Chrome JavaScript 运行时建立的平台, 用于方便地搭建响应速度快、易于扩展的网络应用。Node.js 使用事件驱动, 非阻塞 I/O 模型而得以轻量和高效。

    139 引用 • 269 回帖 • 1 关注
  • Swift

    Swift 是苹果于 2014 年 WWDC(苹果开发者大会)发布的开发语言,可与 Objective-C 共同运行于 Mac OS 和 iOS 平台,用于搭建基于苹果平台的应用程序。

    34 引用 • 37 回帖 • 565 关注
  • C++

    C++ 是在 C 语言的基础上开发的一种通用编程语言,应用广泛。C++ 支持多种编程范式,面向对象编程、泛型编程和过程化编程。

    110 引用 • 153 回帖
  • Ngui

    Ngui 是一个 GUI 的排版显示引擎和跨平台的 GUI 应用程序开发框架,基于
    Node.js / OpenGL。目标是在此基础上开发 GUI 应用程序可拥有开发 WEB 应用般简单与速度同时兼顾 Native 应用程序的性能与体验。

    7 引用 • 9 回帖 • 429 关注
  • Office

    Office 现已更名为 Microsoft 365. Microsoft 365 将高级 Office 应用(如 Word、Excel 和 PowerPoint)与 1 TB 的 OneDrive 云存储空间、高级安全性等结合在一起,可帮助你在任何设备上完成操作。

    6 引用 • 35 回帖
  • RYMCU

    RYMCU 致力于打造一个即严谨又活泼、专业又不失有趣,为数百万人服务的开源嵌入式知识学习交流平台。

    4 引用 • 6 回帖 • 56 关注