




已阅读5页,还剩9页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Flume-NG安装部署说明保密文件不得外传目录1.前言51.1.适用范围51.2.专业术语51.3.前提和假设51.4.注意事项51.5.参考文档52.Apache Flume介绍62.1.数据流模型62.2.Apache Flume支持的其它数据流模型62.2.1.多代理流62.2.2.合并流72.2.3.多通路流73.部署说明83.1.先决条件83.1.1.操作系统平台83.1.2.所需软件83.2.环境准备83.2.1.账号分配83.2.2.目录分配83.2.3.环境变量设置83.3.安装步骤83.3.1.下载安装包83.3.2.解压安装包83.3.3.配置说明94.日常维护104.1.启动Apache Flume Agent104.2.启动Apache Flume Client114.3.停止Apache Flume134.4.Apache Flume命令135.其它141. 前言Flume开始由Cloudera公司开发,2011年Cloudera公司将Flume贡献给开源社区,现在Apache Flume是Apache Software Foundation的一个顶级项目。目前Flume有两个可用的Release版本:0.9x和1.x。0.9x版本称为Flume-OG由Cloudera公司开发和维护,1.x版本称为Flume-NG由Apache Software Foundation开发和维护。本文档只对Apache Flume 1.2.0进行介绍说明。1.1. 适用范围本手册说明了Apache Flume的安装、配置、日常维护、及常见问题的处理方法。1.2. 专业术语术语解释avro基于二进制的高性能的通讯中间件. 提供了数据序列化的功能和RPC服务。agent一个JVM进程,其中运行了Flume NG组件。event在Flume NG中传输的单个数据单元。sourceFlume NG中接收数据源的地方。sink在flume NG中数据流动的终点。channelsource和sink之间的数据连接导管。1.3. 前提和假设阅读本手册前,您需要对linux操作系统和java编程语言的基础知识比较了解。1.4. 注意事项不要在手册描述的生产环境进行学习类型的操作,否则将引发生产故障。1.5. 参考文档/FlumeUserGuide.html/FLUME/flume-ng.html2. Apache Flume介绍Apache Flume是一个分布式部署的、可靠的、高效率的日志采集系统,其通过一个简单灵活的框架实现了海量日志的采集、聚合和统一存储。2.1. 数据流模型Flume Agent是一个JVM进程,其中包含包括三个组件:Source、Channel、Sink。Flume Source从外部数据源获得数据(events) 如:Web Server,外部数据源使用目前公认格式将数据(events)传送给Flume Source 如:Avro的Flume Source可以接受Avro Clinet传送来的数据。当数据到达Flume Source后,Flume Source将数据存储在一个或多个Channel中,Channel存储数据直到数据被Sink所处理。2.2. Apache Flume支持的其它数据流模型2.2.1. 多代理流2.2.2. 合并流2.2.3. 多通路流3. 部署说明3.1. 先决条件3.1.1. 操作系统平台GNU/Linux 2.6.18-308.el5xen或以上版本3.1.2. 所需软件JRE:Java(TM) SE Runtime Environment (build 1.6.0_32-b05)或以上版本Flume:Aapche Flume 1.2.03.2. 环境准备3.2.1. 账号分配本手册主要说明如何配合HDFS使用,所以请使用为Haoop集群所分配的账号操作Flume,以免对HDFS写入时出现权限问题。如不涉及HDFS的写入,请单独分配账号进行操作。3.2.2. 目录分配由于使用Haoop集群的账号,为了方便管理和操作起见请在Haoop用户目录下建立一个独立目录存放Haoop集群用户所使用到的应用。如:/home/hadoop/app/flume 。3.2.3. 环境变量设置JAVA_HOME,CLASS_PATH3.3. 安装步骤3.3.1. 下载安装包到Apache Flume官网下载Apache Flume 1.2.0的安装包,并将其上传至安装主机,存放在/home/hadoop/app目录下。Apache Flume的官方下载地址如下:/download.html3.3.2. 解压安装包执行命令对Flume安装包进行解压hadoopcassdb $ cd /home/hadoop/apphadoopcassdb app$ tar -xzvf apache-flume-1.2.0-bin.tar.gz解压完Flume目录结构如下:3.3.3. 配置说明本手册只对简单数据流及Avro client进行说明,Apache Flume的其它配置方法请参见/FlumeUserGuide.html。Step1在Flume的conf目录下新建一个配置文件,并命名为flume-avro.confhadoopcassdb conf$ touch flume-avro.confStep2编辑配置文件使用文本编辑器对flume-avro.conf文件进行编辑,并输入以下内容:agent1.sources = avro_sourceagent1.sinks = hdfs_sinkagent1.channels = mem_channelagent1.sources.avro_source.type = avroagent1.sources.avro_source.bind = agent1.sources.avro_source.port = 4141agent1.sources.avro_erceptors = timestampagent1.sources.avro_erceptors.timstamp.type=erceptor.TimestampInterceptor$Builderagent1.sinks.hdfs_sink.type = hdfsagent1.sinks.hdfs_sink.hdfs.path = hdfs:/41/flume/weblog/%y-%m-%d agent1.sinks.hdfs_sink.hdfs.filePrefix = testagent1.sinks.hdfs_sink.hdfs.rollSize = 65000000agent1.sinks.hdfs_sink.hdfs.rollInterval = 0 agent1.sinks.hdfs_sink.hdfs.rollCount = 0 agent1.sinks.hdfs_sink.hdfs.fileType = DataStream agent1.sinks.hdfs-sinks.writeFormat = Textagent1.channels.mem_channel.type = memoryagent1.channels.mem_channel.capacity = 1000agent1.channels.mem_channel.transactionCapactiy = 100agent1.channels.mem_channel.keep-alive = 30agent1.sources.avro_source.channels = mem_channelagent1.sinks.hdfs_sink.channel = mem_channel上面的配置文件定义了一个Flume Agent,source是avro,sink是hdfs,channel是memory。avro的RPC server启动在本地的4141端口。hdfs的输出目录为hdfs:/41/flume/weblog,并按天产生下一级目录,文件名前缀是test,文件到达64M时换一个文件存储。4. 日常维护4.1. 启动Apache Flume Agent进入安装路径的bin目录hadoopcassdb $ cd /home/hadoop/app/apache-flume-1.2.0/bin执行启动命令hadoopcassdb bin$ ./flume-ng agent -conf-file ./conf/flume-avro.conf -name agent1 -Dflume.root.logger=INFO,console如Flume正常启动,会有如下日志信息产生:4.2. 启动Apache Flume ClientApache Flume Client可以运行在任何安装有Apache Flume环境的主机上,只要和运行Apache Flume Agent的主机网络上相通。运行命令如下:flume-ng avro-client -H $avro_host -p $avro_port -filename $filename我们在测试环境中针对Apache Flume Client的启停编写了shell脚本,该脚本会将运行目录下所有的文件传输到Apache Flume Agent。启动脚本如下:#!/bin/bashlocal_file_dir=/home/hadoop/mr_data/hwlocal_bak_dir=/home/hadoop/mr_data/back_up/hwavro_host=41avro_port=4141status_file=/home/hadoop/apache-flume-1.2.0/conf/status_fileif ! -d $local_file_dir ; then echo $local_file_dir not found exit 1fiif ! -d $local_bak_dir ; then echo $local_bak_dir not found exit 2fiif ! -f $status_file ; then touch $status_file echo $(date) $status_filefiecho change currect dir to $local_file_dircd $local_file_dirif 0 -ne $? ; then echo cant change dir to $local_file_dir exit 3fiwhile -f $status_file do for filename in $(ls -lrt | awk print $9) do echo filename if $filename = $status_file ; then continue fi if -n $filename & -f $filename ; then echo upload file: $filename flume-ng avro-client -H $avro_host -p $avro_port -filename $filename echo mv file: $filename mv $filename $local_bak_dir fi done sleep 10done停止脚本如下:#!/bin/bashstatus_file=status_fileecho stoping flume-ng .if -f $status_file ; then rm -f $status_file if 0 -eq $? ; then echo rm $status_file successed. else echo rm $status_file failed. fielse echo cant find $status_filefi4.3. 停止Apache FlumeApache Flume并没有提供停止的命令,所以要停止Apache Flume需要kill进程号hadoopcassdb 20120917$ ps -ef | grep flumehadoopcassdb 20120917$ kill -9 进程号4.4. Apache Flume命令Usage: ./flume-ng mands: help display this help text agent run a Flume agent avro-client run an avro Flume client version show Flume version infoglobal options: -conf,-c use configs in directory -classpath,-C append to the classpath -dryrun,-d do not actually start Flume, just print the command -Dproperty=value sets a JDK system property valueagent options: -conf-file,-f speci
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 蚌埠医学院《生物水处理技术》2023-2024学年第二学期期末试卷
- 蚌埠学院《设计理论》2023-2024学年第二学期期末试卷
- 蚌埠工商学院《社会学原著导读》2023-2024学年第二学期期末试卷
- 电子商务视觉设计(第3版全彩慕课版)(PhotoshopCC AIGC)课件 项目三 店铺品牌视觉设计
- 工业机器人(1)复习测试卷附答案
- DB13T 5117-2019 利用黑水虻处理狐貉粪便技术规程
- DB13T 2856-2018 铁矿石钾、钠含量的测定 电感耦合等离子体原子发射光谱法
- DB13T 5126-2019 枣种植气象服务规范
- DB13T 2963-2019 验配眼镜企业诚信计量建设规范
- 安阳学院《数据结构与算法(Python)》2023-2024学年第二学期期末试卷
- 学院意识形态工作责任制实施细则
- 证券股份有限公司股票期权经纪业务风险控制实施细则模版
- 2021年上海市中考数学试卷
- 老年人心理护理(老年人心理变化特点)
- 公路路面基层施工技术规范
- 2023-2024学年江苏省靖江市小学数学五年级下册期末模考试卷
- 2023-2024学年河南省邓州市小学数学六年级下册期末评估试卷
- 公安机关业务技术用房建设标准
- 国家职业技能标准(家政服务员)
- 三快乐农场运算律复习(共19张)
- 王绵之方剂学讲稿
评论
0/150
提交评论