版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
项目5
动态网页访问日志数据采集使用Flume采集某官网访问日志数据目录Content1使用Kafka消费Flume中某官网访问日志数据
2学习目标零知识目标了解什么是日志采集;熟悉日志数据采集的方法;掌握Flume进行数据采集的方法;精通使用Kafka进行消息订阅发布的方法技能目标具备使用Flume拦截器过滤数据的能力;具备熟悉Kafka的脚本操作的能力;具备掌握Flume采集日志文件的能力;具备掌握使用Kafka进行消息发布订阅的能力;素养目标具备精通Flume+Kafka架构实现数据采集的能力。技能目标具备事业心和责任心;具有艰苦奋斗的精神和务实作风;具有健康的体魄,良好的身体素质;具备责任心。使用Flume采集某官网访问日志数据壹Flume简介任务技能Flume是一个由Cloudera开发的分布式、可靠和高可用的海量日志收集和传输系统,具有基于流数据的简单灵活的架构。Flume数据采集配置Flume实现数据采集的方式非常简单,只需编辑相应的配置文件即可完成特定数据的采集与存储。Flume启动启动Flume代理使用名为flume-ng的shell脚本,该脚本位于Flume发行版的bin目录中。Flume拦截器配置Flume能够在数据采集的过程中对事件进行删除或修改,可理解为对事件进行过滤,这些功能是靠拦截器完成的。使用Flume采集某官网访问日志数据壹3Flume启动启动Flume代理使用名为flume-ng的shell脚本,该脚本位于Flume发行版的bin目录中。启动时需要在命令中指定代理名称、配置目录以及配置文件,并且设置的代理名称要和配置文件中的代理名称一致,启动数据采集的命令如下。bin/flume-ngagent--nameagent_name--confconf–conf-fileconf/perties.template使用Flume采集某官网访问日志数据壹3Flume启动参数描述--name指定Agent的名称(必选)--conf指定配置文件所在目录--conf-file指定配置文件使用Flume采集某官网访问日志数据壹3Flume启动启动Flumeagent进行数据采集,命令如下所示。[root@masterflume-code]#cd/usr/local/flume/bin[root@masterbin]#./flume-ngagent--confconf--conf-file/usr/local/inspur/code/flume-code/example.conf--namea1使用Flume采集某官网访问日志数据壹3Flume启动
单独启动另一个终端,使用telnet向4444向Flume发送事件,启动成功后输入“Helloworld!”,命令如下所示。[root@master~]#telnetlocalhost4444使用Flume采集某官网访问日志数据壹4Flume拦截器配置
时间拦截器(TimestampInterceptor)1静态拦截器(StaticInterceptor)3正则表达式过滤拦截器(RegexFilteringInterceptor)5主机拦截器(HostInterceptor)2搜索和替换拦截器(SearchandReplaceInterceptor)4使用Flume采集某官网访问日志数据壹4Flume拦截器配置(1)时间拦截器(TimestampInterceptor)时间拦截器将处理事件的时间(以毫秒为单位)插入到事件头中。并根据时间戳将数据写入到不同文件中,当不使用任何拦截器时,Flume接收到的只有message。属性默认值描述type-组件类型名称,值为timestampheaderNametimestamp生成的时间戳的标头的名称preserveExistingfalse如果时间戳已经存在,是否应该保留值为true或falsea1.sources=r1a1.channels=c1a1.sources.r1.channels=c1a1.sources.r1.type=avroerceptors=i1erceptors.i1.type=timestamp使用Flume采集某官网访问日志数据壹4Flume拦截器配置(2)主机拦截器(HostInterceptor)
该拦截器向事件中添加包含当前Flume代理的主机名或IP地址,主要表现形式为在HDFS中显示以Flume主机IP地址做为前缀的文件名。属性默认值描述type-组件类型名称,值为hostpreserveExistingfalse如果主机头已经存在是否保留,值为true或falseuseIPtrue如果为true,请使用IP地址,否则使用主机名hostHeaderhost要使用的文件头a1.sources=r1a1.channels=c1erceptors=i1erceptors.i1.type=host使用Flume采集某官网访问日志数据壹4Flume拦截器配置(3)静态拦截器(StaticInterceptor)静态拦截器能够将具有静态值的静态事件头附加到所有事件,同一个静态拦截器中不能够设置多个事件头,但可以设置多个静态拦截器。属性默认值描述type-组件类型名称,值为staticpreserveExistingtrue配置的标头已经存在,是否应该保留。值为true或falsekeykey事件头名称valuevalue静态值a1.sources=r1a1.channels=c1a1.sources.r1.channels=c1a1.sources.r1.type=avroerceptors=i1erceptors.i1.type=staticerceptors.i1.key=datacentererceptors.i1.value=NEW_YORK使用Flume采集某官网访问日志数据壹4Flume拦截器配置(4)搜索和替换拦截器(SearchandReplaceInterceptor)该拦截器提供了基于Java正则表达式的字符串的搜索和替换功能。属性默认值描述type-组件类型名称,值为search_replacesearchPatterntrue要搜索和替换的模式replaceStringkey替换字符串charsetvalue事件主体的字符集。默认情况下假定为UTF-8erceptors=search-replaceerceptors.search-replace.type=search_replace#删除事件正文中的前导字母数字字符。erceptors.search-replace.searchPattern=^[A-Za-z0-9_]+erceptors.search-replace.replaceString=使用Flume采集某官网访问日志数据壹4Flume拦截器配置(5)正则表达式过滤拦截器(RegexFilteringInterceptor)该拦截器通过将事件主体解释为文本,并将文本与配置的正则表达式匹配完成事件的过滤。属性默认值描述type-组件类型名称,值为regex_filterregex“*”用于匹配事件的正则表达式excludeEventsfalse如果为true,则正则表达式确定要排除的事件,否则正则表达式确定要包含的事件。erceptors=i1erceptors.i1.type=regex_filtererceptors.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 配电室智能化改造专项施工方案
- 2026年兵团兴新职业技术学院面向高校毕业生招聘工作人员(37人)考试备考题库及答案解析
- 2026年及未来5年市场数据中国公路货运行业市场调查研究及投资前景预测报告
- 协议离婚协议书
- 2026年佳木斯富锦市市政设施管护中心公开招聘一线工程技术人员3人考试备考题库及答案解析
- 纤维板工变革管理测试考核试卷含答案
- 2026年及未来5年市场数据中国版权行业市场发展现状及投资规划建议报告
- 保育师安全规程测试考核试卷含答案
- 十二碳二元酸装置操作工安全文明测试考核试卷含答案
- 2026年4月广东深圳市第二高级中学选聘教师12人笔试备考试题及答案解析
- 【方案】2026工业企业和园区数字化能碳管理中心解决方案
- 2026中国细胞培养助剂行业运行状况与投资盈利预测报告
- 2026年北京市通州区事业单位招聘笔试参考试题及答案解析
- 福州市平潭县2025-2026学年第二学期二年级语文期中考试卷(部编版含答案)
- 矿泉水对比研究报告
- JJF 1221-2025 汽车排气污染物检测用底盘测功机校准规范
- 生产精细化管理培训资料
- 河南工业和信息化职业学院2026年单独招生《职业适应性测试》模拟试题(二)
- (新教材)2026年部编人教版二年级下册语文 《语文园地四》 教学课件
- 2025年鲁信创业投资集团股份有限公司社会招聘(5人)笔试历年常考点试题专练附带答案详解
- 医院内部医保管理制度汇编
评论
0/150
提交评论