版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
项目5
动态网页访问日志数据采集使用Flume采集某官网访问日志数据目录Content1使用Kafka消费Flume中某官网访问日志数据
2项目导言零
日志中通常包含了大量的用户访问网站的行为信息,比如页面响应时间、消耗的流量、访问时间、停留时间、是否访问成功等等一系列的信息,网站运营者可通过分析这些信息,对网站运营做出一定的决策。学习目标零知识目标了解什么是日志采集;熟悉日志数据采集的方法;掌握Flume进行数据采集的方法;精通使用Kafka进行消息订阅发布的方法技能目标具备使用Flume拦截器过滤数据的能力;具备熟悉Kafka的脚本操作的能力;具备掌握Flume采集日志文件的能力;具备掌握使用Kafka进行消息发布订阅的能力;素养目标具备精通Flume+Kafka架构实现数据采集的能力。技能目标具备事业心和责任心;具有艰苦奋斗的精神和务实作风;具有健康的体魄,良好的身体素质;具备责任心。使用Flume采集某官网访问日志数据壹Flume简介任务技能Flume是一个由Cloudera开发的分布式、可靠和高可用的海量日志收集和传输系统,具有基于流数据的简单灵活的架构。Flume数据采集配置Flume实现数据采集的方式非常简单,只需编辑相应的配置文件即可完成特定数据的采集与存储。Flume启动启动Flume代理使用名为flume-ng的shell脚本,该脚本位于Flume发行版的bin目录中。Flume拦截器配置Flume能够在数据采集的过程中对事件进行删除或修改,可理解为对事件进行过滤,这些功能是靠拦截器完成的。使用Flume采集某官网访问日志数据壹1Flume简介Flume是一个由Cloudera开发的分布式、可靠和高可用的海量日志收集和传输系统,具有基于流数据的简单灵活的架构。它具有可调整的可靠性机制以及故障转移和恢复机制,具有健壮性和容错性。Flume-og,随着功能的逐渐增多和完善,其存在的缺点也逐渐的暴露出来,Flume-og部分缺点如下:2核心组件设计不合理代码过于臃肿14“日志传输”十分不稳定核心配置缺乏标准3使用Flume采集某官网访问日志数据壹(1)Flume三层架构Flume由三层架构组成,分别为agent、collector和storage。Agent层(前端采集)01包含Flume的Agent组件,与需要传输数据的数据源进行连接Collector(数据汇聚)02通过多个收集器收集Agent层的数据,然后将这些转发到下一层Storage(数据存储)03接收collector层的数据并存储
数据源-->agent层-->collector层-->storage层使用Flume采集某官网访问日志数据壹(1)Flume三层架构
agent中包含三个核心组件分别为Source、Channel和Sink,组件说明如下所示。Sink(数据存储)下沉组件,负责取出Channel中的消息数据,将channel中的event数据发送到文件存储系统或服务器等。采集组件,用于与数据源进行对接,获取数据。Source支持的数据源包括Avro、Thrift、exec、JMS、spoolingdirectory、netcat、sequencegenerator、syslog、http、legacy、自定义类型。Source(数据源对接)Channel(数据汇聚)是一个缓存区,用于链接Source和Sink组件,缓存Source写入的Event使用Flume采集某官网访问日志数据壹(2)Flume扇入与扇出
扇入流(数据流合并)0102Flume日志收集中常见的场景是将客户端大量生成的日志数据发送到存储子系统或一消费者代理。使用Flume采集某官网访问
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 容器编排集群滚动发布运维手册
- 日志集中采集压缩备份策略规范
- 内容社区需求优先级决策文档
- 急救护理概述
- 办公设备维修申请流程规范
- 个人独资企业法律制度教学设计中职专业课-经济法律法规-纳税事务-财经商贸大类
- 焊接程序焊缝交叉验证流程
- 单元挑战 认识并制作二维码教学设计高中信息技术沪科版2019必修1 数据与计算-沪科版2019
- 招标文件编制审查管理方案
- 高处作业吊篮操作安全交底
- 公共数据共享安全保密协议模板
- 公众责任险及财产一切险调查情况
- 五郎河流域特性分析
- 客户资信调查表三篇
- 微生物次级代谢及调节
- RB/T 040-2020病原微生物实验室生物安全风险管理指南
- GB/T 706-2016热轧型钢
- GA/T 1710-2020南水北调工程安全防范要求
- 危险化学品MSDS(叔丁醇)
- DB11∕994-2021 平战结合人民防空工程设计规范
- 数学分析(2)期末试题
评论
0/150
提交评论