flume介绍及常见问题_第1页
flume介绍及常见问题_第2页
flume介绍及常见问题_第3页
flume介绍及常见问题_第4页
flume介绍及常见问题_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

日志收集之Flume贺永明博客:/rjhym微博:/4077200432012.03.08目录Flume简介Flume工作原理以及常见配置Flume如何支持Reliability、Scalability、Manageability和ExtensibilityFlume运行监控Flume部署过程中发现的问题Q&AFlume简介Flume介绍Flume的特性典型的体系结构节点介绍三种可靠性级别的对比Flume性能Flume可靠性Flume介绍

Flume是Cloudera提供的一个分布式、可靠、和高可用的海量日志采集、聚合和传输的日志收集系统,支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。flume的特性可靠性可伸缩性高性能可延展性可管理性开源社区的支持典型的体系结构Node介绍

节点是非常灵活的抽象体,每一个逻辑节点包含两个组成部分,source和sink。source告诉逻辑节点从哪里收集数据,sink告诉逻辑节点将数据发送到何处。两个节点之间唯一的不同之处在于source和sink的配置,即数据来源和目的地的不同。source和sink可以额外配置decorators用来实现对source到sink数据的简单处理。在先前的结构中source和sink是运行在同一个节点上的。三种可靠性方式的对比End-to-endStoreonfailureBesteffortFlume性能Flume数据准确性1.日收集日志量一亿条,天日志大小50-60G的情况下,日志数量误差在100条以内。引发条件为每天零点日志切割与日志读取(OStail)周期间误差导致。2.日志全部按照用户访问时间存放到对应时间段的文件中,没有误差。3.节点崩溃重启之后,滞后的日志会按照用户访问的时间发送到对应时间段文件。Flume工作原理以及常见配置Flume数据源以及输出方式

Flume提供了从console(控制台)、RPC(Thrift-RPC)、text(文件)、tail(UNIXtail)、syslog(syslog日志系统,支持TCP和UDP等2种模式),exec(命令执行)等数据源上收集数据的能力,主要分为以下两类。 PushSources:外部系统会主动地将数据推送到Flume中,如RPC、syslog。 PollingSources:Flume到外部系统中获取数据,一般使用轮询的方式,如text和exec。Flume数据源以及输出方式 Flume的数据接受方,可以是console(控制台)、text(文件)、dfs(HDFS文件)、RPC(Thrift-RPC)和syslogTCP(TCPsyslog日志系统)等。

Flume常用配置基本配置格式:node:source|sinkNode:source|decoratorssinkFlume常用配置之sourceConsoleExecTailtailDirMultitailcollectorSource……Flume常用配置之sinkagentSinkagentBESinkagentDFOChaincollectorSinksohuAgentSink……Flume常用配置之DecoratorsSplitBatchGzipformat……Flume如何支持Reliability、Scalability、Manageability和ExtensibilityReliability:Flume提供3中数据可靠性选项,包括End-to-end、Storeonfailure和Besteffort。其中End-to-end使用了磁盘日志和接受端Ack的方式,保证Flume接受到的数据会最终到达目的。Storeonfailure在目的不可用的时候,数据会保持在本地硬盘。和End-to-end不同的是,如果是进程出现问题,Storeonfailure可能会丢失部分数据。Besteffort不做任何服务质量保证。Flume如何支持Reliability、Scalability、Manageability和ExtensibilityScalability:Flume的3大组件:collector、master和storagetier都是可伸缩的。需要注意的是,Flume中对事件的处理不需要带状态,它的Scalability可以很容易实现。Flume如何支持Reliability、Scalability、Manageability和ExtensibilityManageability:Flume利用ZooKeeper和gossip,保证配置数据的一致性、高可用。同时,多Master,保证Master可以管理大量的节点。Flume如何支持Reliability、Scalability、Manageability和ExtensibilityExtensibility:基于Java,用户可以为Flume添加各种新的功能,如通过继承Source,用户可以实现自己的数据接入方式,实现Sink的子类,用户可以将数据写往特定目标,同时,通过SinkDecorator,用户可以对数据进行一定的预处理。Flume运行监控整个集群状态:http://masterip:35871/Flume运行监控Node节点状态:http://nodeip:port/node/reports(默认port为35862)Flume运行监控Node节点状态:http://nodeip:port/node/reports/logicnodename(默认port为35862)Flume部署过程中遇到的问题1.节点启动或配置后异常终止。(修改plugins异常)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论