《数据采集技术》课件-Flume拦截与排查2_第1页
《数据采集技术》课件-Flume拦截与排查2_第2页
《数据采集技术》课件-Flume拦截与排查2_第3页
《数据采集技术》课件-Flume拦截与排查2_第4页
《数据采集技术》课件-Flume拦截与排查2_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目5

动态网页访问日志数据采集使用Flume采集某官网访问日志数据目录Content1使用Kafka消费Flume中某官网访问日志数据

2学习目标零知识目标了解什么是日志采集;熟悉日志数据采集的方法;掌握Flume进行数据采集的方法;精通使用Kafka进行消息订阅发布的方法技能目标具备使用Flume拦截器过滤数据的能力;具备熟悉Kafka的脚本操作的能力;具备掌握Flume采集日志文件的能力;具备掌握使用Kafka进行消息发布订阅的能力;素养目标具备精通Flume+Kafka架构实现数据采集的能力。技能目标具备事业心和责任心;具有艰苦奋斗的精神和务实作风;具有健康的体魄,良好的身体素质;具备责任心。使用Flume采集某官网访问日志数据壹Flume简介任务技能Flume是一个由Cloudera开发的分布式、可靠和高可用的海量日志收集和传输系统,具有基于流数据的简单灵活的架构。Flume数据采集配置Flume实现数据采集的方式非常简单,只需编辑相应的配置文件即可完成特定数据的采集与存储。Flume启动启动Flume代理使用名为flume-ng的shell脚本,该脚本位于Flume发行版的bin目录中。Flume拦截器配置Flume能够在数据采集的过程中对事件进行删除或修改,可理解为对事件进行过滤,这些功能是靠拦截器完成的。使用Flume采集某官网访问日志数据壹3Flume启动启动Flume代理使用名为flume-ng的shell脚本,该脚本位于Flume发行版的bin目录中。启动时需要在命令中指定代理名称、配置目录以及配置文件,并且设置的代理名称要和配置文件中的代理名称一致,启动数据采集的命令如下。bin/flume-ngagent--nameagent_name--confconf–conf-fileconf/perties.template使用Flume采集某官网访问日志数据壹3Flume启动参数描述--name指定Agent的名称(必选)--conf指定配置文件所在目录--conf-file指定配置文件使用Flume采集某官网访问日志数据壹3Flume启动启动Flumeagent进行数据采集,命令如下所示。[root@masterflume-code]#cd/usr/local/flume/bin[root@masterbin]#./flume-ngagent--confconf--conf-file/usr/local/inspur/code/flume-code/example.conf--namea1使用Flume采集某官网访问日志数据壹3Flume启动

单独启动另一个终端,使用telnet向4444向Flume发送事件,启动成功后输入“Helloworld!”,命令如下所示。[root@master~]#telnetlocalhost4444使用Flume采集某官网访问日志数据壹4Flume拦截器配置

时间拦截器(TimestampInterceptor)1静态拦截器(StaticInterceptor)3正则表达式过滤拦截器(RegexFilteringInterceptor)5主机拦截器(HostInterceptor)2搜索和替换拦截器(SearchandReplaceInterceptor)4使用Flume采集某官网访问日志数据壹4Flume拦截器配置(1)时间拦截器(TimestampInterceptor)时间拦截器将处理事件的时间(以毫秒为单位)插入到事件头中。并根据时间戳将数据写入到不同文件中,当不使用任何拦截器时,Flume接收到的只有message。属性默认值描述type-组件类型名称,值为timestampheaderNametimestamp生成的时间戳的标头的名称preserveExistingfalse如果时间戳已经存在,是否应该保留值为true或falsea1.sources=r1a1.channels=c1a1.sources.r1.channels=c1a1.sources.r1.type=avroerceptors=i1erceptors.i1.type=timestamp使用Flume采集某官网访问日志数据壹4Flume拦截器配置(2)主机拦截器(HostInterceptor)

该拦截器向事件中添加包含当前Flume代理的主机名或IP地址,主要表现形式为在HDFS中显示以Flume主机IP地址做为前缀的文件名。属性默认值描述type-组件类型名称,值为hostpreserveExistingfalse如果主机头已经存在是否保留,值为true或falseuseIPtrue如果为true,请使用IP地址,否则使用主机名hostHeaderhost要使用的文件头a1.sources=r1a1.channels=c1erceptors=i1erceptors.i1.type=host使用Flume采集某官网访问日志数据壹4Flume拦截器配置(3)静态拦截器(StaticInterceptor)静态拦截器能够将具有静态值的静态事件头附加到所有事件,同一个静态拦截器中不能够设置多个事件头,但可以设置多个静态拦截器。属性默认值描述type-组件类型名称,值为staticpreserveExistingtrue配置的标头已经存在,是否应该保留。值为true或falsekeykey事件头名称valuevalue静态值a1.sources=r1a1.channels=c1a1.sources.r1.channels=c1a1.sources.r1.type=avroerceptors=i1erceptors.i1.type=staticerceptors.i1.key=datacentererceptors.i1.value=NEW_YORK使用Flume采集某官网访问日志数据壹4Flume拦截器配置(4)搜索和替换拦截器(SearchandReplaceInterceptor)该拦截器提供了基于Java正则表达式的字符串的搜索和替换功能。属性默认值描述type-组件类型名称,值为search_replacesearchPatterntrue要搜索和替换的模式replaceStringkey替换字符串charsetvalue事件主体的字符集。默认情况下假定为UTF-8erceptors=search-replaceerceptors.search-replace.type=search_replace#删除事件正文中的前导字母数字字符。erceptors.search-replace.searchPattern=^[A-Za-z0-9_]+erceptors.search-replace.replaceString=使用Flume采集某官网访问日志数据壹4Flume拦截器配置(5)正则表达式过滤拦截器(RegexFilteringInterceptor)该拦截器通过将事件主体解释为文本,并将文本与配置的正则表达式匹配完成事件的过滤。属性默认值描述type-组件类型名称,值为regex_filterregex“*”用于匹配事件的正则表达式excludeEventsfalse如果为true,则正则表达式确定要排除的事件,否则正则表达式确定要包含的事件。erceptors=i1erceptors.i1.type=regex_filtererceptors.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论