版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第5章
离线处理辅助系统1目录01Flume日志采集02Kafka消息订阅03Sqoop数据迁移Flume日志采集01Flume简介Cloudera开发的实时日志收集系统Flume,经历重大改版后成为ApacheFlume。Flume是什么Flume提供三级别可靠性:end-to-end、Storeonfailure、Besteffort。Flume的可靠性Flume支持分布式日志采集,可将数据传输至HDFS供分析。Flume的功能Flume的可恢复性依赖于Channel,推荐使用FileChannel以确保数据持久化。Flume的可恢复性通过本节学习,我们可以初步了解Flume的基本功能,接下来我们来学习一下Flume的一些核心概念。小结Flume简介Flume由Agent、Source、Channel和Sink组成:Agent:使用JVM运行Flume的最小独立单元。单agent由Source、Sink和Channel三大组件构成。Source:从Client收集数据,传递给Channel。不同类型的Source包括:与系统集成的Source:Syslog,Netcat;自动生成事件的Source:Exec;用于Agent和Agent之间通信的IPCSource:Avro、Thrift。Channel:连接sources和sinks,像一个队列。不同类型的Channel包括:MemoryChannel:内存,volatile(挥发);FileChannel:基于WAL(预写式日志Write-AheadLogging)实现;JDBCChannel:基于嵌入Database实现。Channel支持事务,但是提供较弱的顺序保证。Sink:从Channel收集数据,运行在一个独立线程,可以存储数据,也可以继续传输。不同类型的Sink包括:存储event到最终目的的终端Sink.比如:HDFS,HBase;自动消耗的Sink.比如:NullSink;用于Agent间通信的IPCsink:Avro;sink必须作用于一个确切的channel。Client:生产数据,运行在一个独立的线程。Events:Event是Flume的数据传输的基本单元。Flume本质上是将数据作为一个event从源头传到结尾。是由可选的Headers和载有数据的一个bytearray构成。Flume的核心概念Flume日志采集系统结构Flume由Source、Channel和Sink组成,用于数据收集、聚合和传输至HDFS。Flume结构Flume日志采集系统结构用工具或者命令上传安装文件到/home/Hadoop下上传su-Hadooptar-zxvfapache-flume-1.6.0-bin.tar解压mvapache-flume-1.6.0-binflume重命名Flume安装配置Flume安装配置修改~/.bashrc,添加Flume环境变量并更新PATH。修改环境变量修改Flume配置文件,设置JAVA_HOME路径。修改配置文件查看版本:flume-ngversion测试案例2:SpoolSpool监测并读取配置目录下新增文件的数据,文件不可再编辑。Syslogtcp案例解析Syslogtcp监听TCP端口,Flume捕获数据作为数据源。案例1:AvroFlume通过Avro接收数据,配置Agent监控指定IP和端口。案例3:ExecEXEC用tail命令监控文件,新增内容作为数据源发送至Flume。JSONHandler案例解析Flumeagent接收HTTP发送的JSON数据,通过配置文件与curl命令实现。Flume负载均衡配置Flumeagent输出日志至文件,每30秒滚动一次。01FileRollSink解析Flume复制选择器配置,实现数据多通道传输。02复现通道选择器消息按类型分发至不同通道,通过HTTP头筛选,使用Avro协议发送。03多路复用选择器FlumeSinkProcessors实现故障转移,确保数据传输的可靠性。04Flume负载均衡处理器负载均衡Sink处理器支持轮询和随机两种配置,自动跳过故障节点。05负载均衡Sink处理Flume负载均衡案例背景介绍通过Flume添加拦截器区分日志类型,标记后分类存储,提高数据分析效率。案例流程分析Flume拦截器用于日志文件采集,标记不同类型后统一发往HDFS。模块开发——数据采集配置文件定义了多个数据源和一个AVRO接收端,使用内存通道连接。综合案例——Flume多数据源分类采集综合案例——Flume多数据源分类采集01配置文件定义了数据从Avro源到HDFS存储的流程及参数。02在master上分别启动数据汇总与数据采集的Flumeagent。03循环写入访问日志、Nginx日志和Web日志。模块开发——数据汇总模块开发——启动应用模块开发——数据测试Kafka消息订阅02Kafka简介ApacheKafka,开源分布式消息系统,由LinkedIn开发并开源。什么是KafkaKafka用于网站活性跟踪和日志收集,实现实时数据分析。Kafka功能Kafka非JMS规范实现,以Topic归类消息,依赖ZooKeeper保证系统可用性。Kafka特性Kafka核心组件:Topic、Producer、Consumer、broker、ZooKeeper,各司其职。核心组件Kafka通过partition和segment管理消息,offset确保消息唯一性。Topics组件介绍Kafka核心组件介绍partition写数据示意图:Kafka核心组件介绍partition分布示意图:Kafka核心组件介绍segment文件:Kafka核心组件介绍Producer发布消息至Kafka,集群持久化存储,Consumer拉取数据。消息收发流程概述Kafkaconsumer通过pull方式从broker获取消息,控制消费进度和数量。消费消息消息发布至指定Topic,由Producer客户端决定partition,支持异步批量发送。发布消息Kafka工作流程分析消息发布:Kafka工作流程分析消费Kafka消息:Kafka工作流程分析组消费:Kafka工作流程分析消息按接收顺序存储,消费者顺序读取,支持N-1副本失效。消息保证机制解析学习Kafka工作流程,掌握消息存储与消费机制,进而熟悉其使用方法。小结Kafka工作流程分析安装Kafka安装ZooKeeper需准备奇数台Linux机器,配置环境变量及集群设置。安装ZooKeeper上传、解压Kafka文件,配置环境变量,修改配置文件,启动服务。安装Kafka创建订单topic创建order主题,使用Kafka脚本命令。2)生产数据使用Kafka控制台生产者向order主题发送消息。3)消费数据使用Kafka控制台消费者从ZooKeeper读取订单主题数据。Kafka的命令行使用方式Sqoop数据迁移03使用Import命令从数据库导入HDFS,Export命令则相反。Sqoop命令工具用于Hadoop与关系型数据库间的数据转移,支持双向操作。Sqoop简介Sqoop简介连接MySQL与Hive,实现数据高效迁移,支持双向操作,适用于大数据环境。Sqoop作用介绍Sqoop安装步骤,确保环境配置正确,便于数据迁移操作。安装指南Sqoop的作用Sqoop安装0102上传su-Hadoop解压解压命令用于解压文件。03重命名mvsqoop-1.4.6.bin__Hadoop-2.0.4-alphasqoop修改环境变量修改~/.bashrc文件,设置SQOOP_HOME和PATH,添加MySQL连接器JAR。修改配置文件上传sqoop-env.sh至sqoop/conf,设置Hadoop和Hive路径。测试使用Sqoop命令连接MySQL数据库并列出数据库及表。Sqoop安装导入MySQL数据到HDFS通过sqoopimport--query参数,选择性导入MySQL表jobinfo中id=1的数据至HDFS目录/sqoop/test4。部分数据导入HDFS使用sqoopimport命令,将MySQL表jobinfo全量数据导入HDFS目录/sqoop/test7,设置字段分隔符为\t。MySQL数据导入HDFS使用sqoopexport命令,从HDFS指定目录导出数据至MySQL数据库表。HDFS数据导出MySQL通过具体案例实践,进一步掌握Sqoop导入导出操作技巧。Sqoop使用加深导出HDFS数据到MySQL案例一MySQL数据量大时分析缓慢,案例介绍将其导入Hive进行高效分析的方法。案例背景描述使用Sqoop将MySQL表结构复制至Hive,不包含数据。MySQL表结构迁Hive使用Sqoop将MySQL数据导入Hive表,字段以制表符分隔。MySQL数据迁Hive表使用Sqoop将MySQL数据导入Hive表中,包括创建表和导入数据。MySQL数据迁Hive表MySQL数据导入Hive,解决大数据分析难题。案例总结使用Sqoop命令将MySQL特定列及条件数据导入Hive表。MySQL数据迁Hive表010203案例一Hive数据分析结果需导出
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 风险线索核查工作制度
- 高铁跟车保洁工作制度
- 鼠疫交通检疫工作制度
- 绥化市庆安县2025-2026学年第二学期五年级语文第八单元测试卷(部编版含答案)
- 湛江市廉江市2025-2026学年第二学期四年级语文第七单元测试卷(部编版含答案)
- 潜江市2025-2026学年第二学期五年级语文第八单元测试卷(部编版含答案)
- 行李计划员变革管理测试考核试卷含答案
- 圆机操作工岗前安全管理考核试卷含答案
- 花艺环境设计师安全文明考核试卷含答案
- 2026年智慧旅游森林景区游客定位系统
- 隐私保护技术发展现状与趋势分析
- 2026年及未来5年市场数据中国剑麻行业发展运行现状及发展趋势预测报告
- 中国皮肤激光治疗指南(2025版)
- 兵团事业编考试题库2026
- 全国税务机关信访工作规则
- 2025年郑州信息科技职业学院单招职业技能测试题库附答案解析
- 2026年全国硕士研究生招生考试管理类联考综合能力试卷及答案
- 水土保持工程调查与勘测标准
- 安徽2021-2025真题及答案
- 蒙古民俗课件
- 中国铁路总公司《铁路技术管理规程》普速铁路部分
评论
0/150
提交评论