大数据技术基础及应用(微课版)课件 第3章 Flume轻量日志采集工具_第1页
大数据技术基础及应用(微课版)课件 第3章 Flume轻量日志采集工具_第2页
大数据技术基础及应用(微课版)课件 第3章 Flume轻量日志采集工具_第3页
大数据技术基础及应用(微课版)课件 第3章 Flume轻量日志采集工具_第4页
大数据技术基础及应用(微课版)课件 第3章 Flume轻量日志采集工具_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

配色色系表RGB255/187/87RGB250/211/187RGB254/238/193RGB226/243/252RGB190/233/238RGB

153/54/54RGB

242/137/68RGB

253/211/81RGB

129/193/95RGB

86/196/210RGB

127/0/1RGB

237/109/0RGB

52/200/0RGB

98/178/48RGB

48/181/197RGB137/137/137RGB255/255/255RGB89/87/87RGB221/221/221RGB

35/24/21RGB181/181/181第3章Flume轻量日志采集工具本章主要讲述Flume的基本技术原理通过学习本节将能够学习Flume轻量日志采集组件的架构原理。通过本节学习可以:Flume定义和概述Flume组件原理Flume高级特性Flume定义和概述Flume组件原理Flume高级特性Flume是什么?Flume是流式日志采集工具,Flume提供对数据进行简单处理并且写到各种数据接受方(可定制)的能力,Flume提供从本地文件(spooldirectorysource)、实时日志(taildir、exec)、REST消息、Thrift、Avro、Syslog、Kafka等数据源上收集数据的能力。Flume适用环境Flume适用于应用系统产生的日志采集,采集后的数据供上层应用分析。Flume不适用于大量数据的实时数据采集(要求低延迟、高吞吐率)。与其他开源日志收集工具scribe比较而言,Flume几乎不用用户开发,scribe需要用户另外开发client,而Flume每一种数据源均有相应的source去读取或者接收数据。Flume适用环境适用环境:提供从固定目录下采集日志信息到目的地(HDFS,HBase,Kafka)能力。提供实时采集日志信息(taildir)到目的地的能力。Flume支持级联(多个Flume对接起来),合并数据的能力。同时支持按照用户定制采集数据的能力。Flume定义和概述Flume组件原理Flume高级特性Flume的外部结构数据发生器(如:facebook,twitter)产生的数据被单个的运行在数据发生器所在服务器上的agent所收集,之后数据收容器从各个agent(客户端,数据的实际产生单位)上汇集数据并将采集到的数据存入到HDFS或者HBase中Flume事件事件(event)作为Flume内部数据传输的最基本单元.它是由一个转载数据的字节数组和一个可选头部构成。典型的Flume事件如下面结构所示:event将传输的数据进行封装,如果是文本文件,通常是一行记录,event也是事务的基本单位。FlumeAgentFlume内部有一个或者多个Agent,然而对于每一个Agent来说,它就是一独立的守护进程(JVM)。它从客户端接收、收集数据,或者从其他的Agent接收数据,然后迅速的将获取的数据传给下一个目的节点sink或者其他下游agent。Agent主要由三部分构成:Source、Channel和Sink,如图所示:FlumeSourceSource负责接收events或通过特殊机制产生events,并将events批量放到一个或多个Channels。有驱动和轮询2种类型的Source。驱动型source:是外部主动发送数据给Flume,驱动Flume接受数据。轮询source:是Flume周期性主动去获取数据。Source必须至少和一个channel关联。FlumeChannelChannel位于Source和Sink之间,Channel的作用类似队列,用于临时缓存进来的events,当Sink成功地将events发送到下一跳的channel或最终目的,events从Channel移除。不同的Channel提供的持久化水平也是不一样的:MemoryChannel:不会持久化。FileChannel:基于WAL(预写式日志Write-AheadLog)实现。JDBCChannel:基于嵌入式Database实现。Sink负责将events传输到下一跳或最终目的,成功完成后将events从channel移除。Sink必须作用于一个确切的channel。Sink

Flume定义和概述Flume组件原理Flume高级特性Flume支持采集日志文件Flume支持将集群外的日志文件采集并归档到HDFS、HBase、Kafka上,供上层应用对数据分析、清洗数据使用。Flume支持多级级联和多路复制Flume支持将多个Flume级联起来,同时级联节点内部支持数据复制。Flume级联消息压缩加密Flume级联节点之间的数据传输支持压缩和加密,提升数据传输效率和安全性。Flume数据监控Flumesource接受数据量、channel缓存数据量、sink写入数据量,通过Manager图形化呈现监控指标。支持Channel缓存、数据发送、接收失败告警。Flume传输可靠性Flume在传输数据过程中,采用事务管理方式,保证传输过程中数据不会丢失,增强了数据传输的可靠性,同时缓存在channel中的数据如果采用filechannel,进程或者节点重启数据不会丢失。请简述Flume的适用场景?请简述Flume的数据处理流程?讲解了Flume的相关高级特性

(多选)以下哪些选项是Flume支持的监控指标?数据量channel缓存数据量sink写入数据量总处理数据量2.以下哪个选项不是Flume的channel类型?A. MemoryChannelB. JDBCChannelC. HDFSChannelFileChannel描述了Flume定义和概述介绍了Flume组件原理讲解了Flume高级特性学习推荐华为在线学习:/cn/华为认证-华为人才在线:/cn/talent/#/cert参考资料华

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论