版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Flume数据采集实战实验背景Flume是大数据组件中重要的数据采集工具,我们常利用Flume采集各种数据源的数据供其他组件分析使用。在日志分析业务中,我们常采集服务器日志,以分析服务器运行状态是否正常。在实时业务中,我们常将数据采集到Kafka中,以供实时组件Streaming或Spark等分析处理,Flume在大数据业务中有着重要的应用。实验目的掌握Flume的配置和使用,能够使用Flume实现数据采集操作。实验前提实验环境创建成功后,请等待1-2分钟,后台在执行start-oms.sh脚本:执行sh${BIGDATA_HOME}/om-server/om/sbin/status-oms.sh命令查看OMS的状态,显示信息表示主备OMS服务启动正常再执行下一步。在windows-client打开GoogleChrome浏览器登录FusionInsightManager地址(00:8080/web)。用户名admin,密码Huawei!@34(如原密码过期,则自行修改密码)登录FusionInsightManager后,单击“服务管理”,选择“更多操作>启动集群”。在弹出的提示框中单击“确定”,开始启动集群。界面提示“操作成功。”,单击“完成”,集群成功启动。使用SecureCRT工具登录到fihsots-1节点上,接下来进行环境变量设置与用户认证。cd/opt/hadoopclient/切换到客户端安装目录。sourcebigdata_env配置环境变量。kinituser01进行用户认证,输入用户密码客户端文件安装于fihosts-1服务器的/opt/hadoopclient目录中,认证用户user01,密码Huawei!@34实验任务安装Flume客户端操作场景该操作指导安装工程师安装Flume客户端。前提条件已成功安装集群及Flume服务。安装目的目录可以不存在,会自动创建;但如果存在,则必须为空。目录路径不能包含空格。操作步骤获取软件包。登录FusionInsightHD集群,单击“服务管理>Flume>下载客户端”,设置“客户端类型”为“完整客户端”,下载Flume服务客户端文件。上传软件包。使用WinSCP工具将“FusionInsight_Flume_Client.tar”文件上传到将要安装Flume服务客户端的节点目录上,例如“/opt”。注:本次实验,Flume客户端安装在fihosts-1节点上,从本地采集数据存放到HDFS中。解压软件包。使用“SecureCRT”工具登录到将要安装Flume服务客户端的节点。进入安装包所在目录,例如“/opt”,执行如下命令解压安装包到本地目录。cd/opttar-xvfFusionInsight_Flume_Client.tar校验软件包。执行sha256sum命令校验解压得到的文件“FusionInsight_Flume_ClientConfig.tar”,回显“OK”表示校验通过。例如:sha256sum-cFusionInsight_Flume_ClientConfig.tar.sha256FusionInsight_Flume_ClientConfig.tar:OK解压“FusionInsight_Flume_ClientConfig.tar”文件,生成“FusionInsight_Flume_ClientConfig”文件夹。tar-xvfFusionInsight_Flume_ClientConfig.tarJDK环境设置使用“vim/etc/profile”命令编辑profile文件,跳转到profile文件末尾unsetiunset-fpathmunge\\添加以下行代码exportJAVA_HOME=/usr/lib/jvm/jre-1.7.0-openjdk.x86_64exportJRE_HOME=${JAVA_HOME}/jreexportPATH=$PATH:$JAVA_HOME/binexportCLASSPATH=.:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:x //保存并退出!使用“source/etc/profile”命令使环境变量生效在Flume客户端安装目录下执行以下命令,安装客户端到指定目录(绝对路径),例如安装到“opt/FlumeClient”目录。cd/opt/FusionInsight_Flume_ClientConfig/Flume/FlumeClient命令示例:./install.sh-d/opt/FlumeClient-fMonitorServer角色的业务IP或主机名-l/var/log/Bigdata-eFlumeServer的业务IP或主机名-nFlume客户端名称说明:“-d”:Flume客户端安装路径。“-f”(可选):两个MonitorServer角色的业务IP,中间用逗号分隔,若不设置则Flume客户端将不向MonitorServer发送告警信息,同时在FusionInsightManager界面上看不到该客户端的相关信息。“-c”(可选):配置文件,安装以后可通过修改“/opt/FlumeClient/fusioninsight-flume-1.6.0/conf/perties”配置Flume角色客户端参数,首次安装客户端,perties文件还没有配置,需要先行配置客户端参数。“-l”(可选):日志目录,默认值为“/var/log/Bigdata”(“user”用户需要对此目录有写权限)。第一次安装客户端会生成一个名为flume-client的子目录,之后安装会依次生成格式为flume-client-n的子目录,n代表一个序号,从1依次递增。在Flume客户端安装目录下的conf目录中,编辑ENV_VARS文件,搜索FLUME_LOG_DIR属性,可以看到客户端日志路径。“-e”(可选):FlumeServer的业务IP地址,主要用于接收客户端上报的监控指标信息。“-n”(可选):Flume客户端的名称,可以通过在FusionInsightManager上单击“服务管理>Flume>Flume管理”查看对应节点上客户端的名称。若产生以下错误提示,可执行命令exportJAVA_HOME=JDK路径进行处理。JAVA_HOMEisnullincurrentuser,pleaseinstalltheJDKandsettheJAVA_HOMEIBM的JDK不支持“-Xloggc”,需要修改“flume/conf/flume-env.sh”,将“-Xloggc”修改为“-Xverbosegclog”,若JDK为32位,“-Xmx”不能大于3.25GB。操作命令:./install.sh-d/opt/FlumeClient-f,-l/var/log/Bigdata-e-nFlumeClientCST2019-06-1311:42:03[flume-clientinstall]:installflumeclientsuccessfully.MonitorServer地址在集群管理界面查看Flume实例信息获取从本地采集静态日志保存到HDFS操作场景该任务指导用户使用FusionInsightHDFlume从本地(业务IP:)采集静态日志保存到HDFS上“/flume/static”目录下。前提条件已成功安装集群、HDFS及Flume服务。确保集群网络环境安全。已创建用户user01并授权验证日志时操作的HDFS目录和数据。操作步骤在FusionInsightManager管理界面,选择“系统设置>用户管理”下载用户user01的kerberos证书文件并保存在本地。下载user01的认证凭据,解压并上传到fihsots-1的/opt/test/conf/目录下配置Flume角色客户端参数。使用FusionInsightManager界面中的Flume配置工具来配置Flume角色客户端参数并生成配置文件。登录FusionInsightManager,单击“服务管理>Flume>配置工具”。“Agent名”选择“client”,然后选择要使用的Source、Channel以及Sink,将其拖到右侧的操作界面中并将其连接。采用SpoolDirSource、FileChannel和HDFSSink,如图1所示。图1Flume配置工具示例
SpoolDirSource监控并传输目录下新增的文件,可实现准实时数据传输。FileChannel使用本地磁盘作为缓存区,Events存放在设置的dataDirs配置项文件夹中。HDFSSink将数据写入Hadoop分布式文件系统(HDFS)。表1Flume角色客户端所需修改的参数列表参数名称参数值填写规则参数样例名称不能为空,必须唯一testspoolDir待采集的文件所在的目录路径,此参数不能为空。该路径需存在,且对flume运行用户有读写执行权限。/srv/BigData/hadoop/data1/zbtrackerDirflume采集文件信息元数据保存路径。/srv/BigData/hadoop/data1/trackerbatch-sizeFlume一次发送数据的最大事件数61200dataDirs缓冲区数据保存目录,默认为运行目录。配置多个盘上的目录可以提升传输效率,多个目录使用逗号分隔。如果为集群内,则可以指定在如下目录/srv/BigData/hadoop/dataX/flume/data,dataX为data1~dataN。如果为集群外,则需要单独规划。/srv/BigData/hadoop/data1/flume/datacheckpointDircheckpoint信息保存目录,默认在运行目录下。如果为集群内,则可以指定在如下目录/srv/BigData/hadoop/dataX/flume/checkpoint,dataX为data1~dataN。如果为集群外,则需要单独规划。/srv/BigData/hadoop/data1/flume/checkpointtransactionCapacity事务大小:即当前channel支持事务处理的事件个数,建议和Source的batchSize设置为同样大小,不能小于batchSize。61200hdfs.path写入HDFS的目录,此参数不能为空hdfs://hacluster/flume/testhdfs.inUsePrefix正在写入HDFS的文件的前缀TMP_hdfs.batchSize一次写入HDFS的最大事件数目61200hdfs.kerberosPrincipalkerberos认证时用户,在安全版本下必须填写。安全集群需要配置此项,普通模式集群无需配置flume_hdfshdfs.kerberosKeytabkerberos认证时keytab文件路径,在安全版本下必须填写。安全集群需要配置此项,普通模式集群无需配置/opt/test/conf/user.keytab说明:user.keytab文件从下载用户flume_hdfs的kerberos证书文件中获取,另外,确保用于安装和运行Flume客户端的用户对user.keytab文件有读写权限。hdfs.useLocalTimeStamp是否使用本地时间,取值为"true"或者"false"true双击对应的Source、Channel以及Sink,根据实际环境与表1设置对应的配置参数。单击“导出”,将配置文件“perties”保存到本地。使用“WinSCP”工具将“perties”文件上传到Flume客户端安装目录“/opt/FlumeClient/”下的“fusioninsight-flume-1.6.0/conf/”中。重设客户端配置文件后,要重启Flume客户端执行以下命令,停止Flume客户端,假设Flume客户端安装路径为“/opt/FlumeClient”:cd/opt/FlumeClient/fusioninsight-flume-1.6.0/bin./flume-manage.shstop执行以下命令启动Flume客户端:./flume-manage.shstartforce在HDFS中创建/flume/static目录验证日志是否传输成功。在spooldir目录下创建文件并写入内容登录FusionInsightManager,在FusionInsightManager界面选择“服务管理>HDFS”,单击“NameNode(主)”对应的链接,打开HDFSWebUI,登录使用flume账户“user01”,然后选择“Utilities>BrowseDirectory”。观察HDFS上“/flume/static”目录下是否有产生数据。图3查看HDFS目录和文件
也可以使用集群客户端执行shell命令查看验证但继续在spooldir目录下已创建的文件中新写入的内容,无法被spooldirsource获取到,同学们自行验证。从本地采集静态日志到Kafkaspooldir数据源是通过Flume监控指定路径的文件夹,并将数据发送到Kafka的主题,通过控制台消费者的方式读取数据。配置Flume角色客户端参数。使用FusionInsightManager界面中的Flume配置工具来配置Flume角色客户端参数并生成配置文件。登录FusionInsightManager,单击“服务管理>Flume>配置工具”。“Agent名”选择“client”,然后选择要使用的Source、Channel以及Sink,将其拖到右侧的操作界面中并将其连接。采用SpoolDirSource、FileChannel和kafkaSink,如下图所示。SpoolDirSource监控并传输目录下新增的文件,可实现准实时数据传输。MemoryChannel使用内存作为缓存区,Events存放在内存队列中。KafkaSink将数据写入kafka消息订阅系统。主要设置kafka.topic名称kafka.bootstrap.servers:kafka的bootstrap地址端口列表。如果集群安装好kafka并且配置已经同步,保持默认即可。tocol:当前集群是安全模式,保持默认即可新建并编辑/opt/FlumeClient/fusioninsight-flume-1.6.0/conf/jaas.conf配置文件,进行kafka的用户认证KafkaClient{com.sun.security.auth.module.Krb5LoginModulerequireduseKeyTab=truekeyTab="用户认证凭证的绝对路径"principal="用户名@HADOOP.COM"useTicketCache=falsestoreKey=truedebug=true;};单击“导出”,将配置文件“perties”保存到本地。使用“WinSCP”工具将“perties”文件上传到Flume客户端安装目录“/opt/FlumeClient/”下的“fusioninsight-flume-1.6.0/conf/”中。重设客户端配置文件后,要重启Flume客户端执行以下命令,停止Flume客户端,假设Flume客户端安装路径为“/opt/FlumeClient”:cd/opt/FlumeClient/fusioninsight-flume-1.6.0/bin./flume-manage.shstop执行以下命令启动Flume客户端:./flume-manage.shstartforce创建Kafka主题进入Kafka目录,执行命令:cd/opt/hadoopclient/Kafka/kafka/bin/kafka-topics.sh--create--topictopic-1--partitions1--replication-factor1--zookeeper:24002/kafka创建console消费者执行命令:bin/kafka-console-consumer.sh--topictopic-1--bootstrap-server:21007--new-consumer--consumer.configconfig/perties注:该命令执行后,就会消费topic-1002数据,此窗口不要再做其他操作,不要关闭。测试数据在SecureCRT中,克隆fihosts-1的会话,进入目录:/home/omm/test使用vi命令编写文件,输入任意内容,保存退出。查看结果切回到消费者的shell窗口,发现数据有输出:--实验结束!从本地采集动态日志保存到HDFS操作场景该任务指导用户使用FusionInsightHDFlume从本地(业务IP:)采集动态日志保存到HDFS上“/flume/dynamic”目录下。前提条件已成功安装集群、HDFS及Flume服务。确保集群网络环境安全。已创建用户user01并授权验证日志时操作的HDFS目录和数据,请参见《管理员指南》的“添加组件业务管理员”章节。操作步骤在FusionInsightManager管理界面,选择“系统设置>用户管理”下载用户user01的kerberos证书文件并保存在本地。配置Flume角色客户端参数。使用FusionInsightManager界面中的Flume配置工具来配置Flume角色客户端参数并生成配置文件。登录FusionInsightManager,单击“服务管理>Flume>配置工具”。“Agent名”选择“client”,然后选择要使用的Source、Channel以及Sink,将其拖到右侧的操作界面中并将其连接。采用TaildirSource、FileChannel和HDFSSink,如图1所示。图1Flume配置工具示例
TaildirSource监控目录下文件的变化并自动读取文件内容,可实现实时数据传输表1Flume角色客户端所需修改的参数列表参数名称参数值填写规则参数样例名称不能为空,必须唯一testfilegroups文件分组列表名,此参数不能为空,以空格分隔epgtestpositionFile保存当前采集文件信息(文件名和已经采集的位置),此参数不能为空。该文件不需要手工创建,但其上层目录需对flume运行用户可写/home/omm/flume/positionfilebatch-sizeFlume一次发送数据的最大事件数61200dataDirs缓冲区数据保存目录,默认为运行目录。配置多个盘上的目录可以提升传输效率,多个目录使用逗号分隔。如果为集群内,则可以指定在如下目录/srv/BigData/hadoop/dataX/flume/data,dataX为data1~dataN。如果为集群外,则需要单独规划。/srv/BigData/hadoop/data1/flume/datacheckpointDircheckpoint信息保存目录,默认在运行目录下。如果为集群内,则可以指定在如下目录/srv/BigData/hadoop/dataX/flume/checkpoint,dataX为data1~dataN。如果为集群外,则需要单独规划。/srv/BigData/hadoop/data1/flume/checkpointtransactionCapacity事务大小:即当前channel支持事务处理的事件个数,建议和Source的batchSize设置为同样大小,不能小于batchSize。61200hdfs.path写入HDFS的目录,此参数不能为空hdfs://hacluster/flume/testhdfs.inUsePrefix正在写入HDFS的文件的前缀TMP_hdfs.batchSize一次写入HDFS的最大事件数目61200hdfs.kerberosPrincipalkerberos认证时用户,在安全版本下必须填写。安全集群需要配置此项,普通模式集群无需配置flume_hdfshdfs.kerberosKeytabkerberos认证时keytab文件路径,在安全版本下必须填写。安全集群需要配置此项,普通模式集群无需配置/opt/test/conf/user.keytab说明:user.keytab文件从下载用户flume_hdfs的kerberos证书文件中获取,另外,确保用于安装和运行Flume客户端的用户对user.keytab文件有读写权限。hdfs.useLocalTimeStamp是否使用本地时间,取值为"true"或者"false"true双击对应的Source、Channel以及Sink,根据实际环境并参考表1设置对应的配置参数。Filegroups要设置为日志文件的绝对路径+名称。/home/omm/test/dynamic-test.txt此文件名称建议复制粘贴输入,不要手动输入由于上一个实验已经使用过“/srv/BigData/hadoop/data1/flume/data”与“/srv/BigData/hadoop/data1/flume/checkpoint”目录,为了防止冲突,在本次实验中需要对“DataDirs”与“CheckpointDir”做修改,修改如下:DataDirs:/srv/BigData/hadoop/data1/flume/data1CheckpointDir:/srv/BigData/hadoop/data1/flume/checkpoint1单击“导出”,将配置文件“perties”保存到本地。使用“WinSCP”工具将“perties”文件上传到Flume客户端安装目录下的“flume/conf/”下。重设客户端配置文件后,要重启Flume客户端验证日志是否传输成功。登录FusionInsightManager,在FusionInsightManager界面选择“服务管理>HDFS”,单击“NameNode(主)”对应的链接,打开HDFSWebUI,然后选择“Utilities>BrowseDirectory”。观察HDFS上“/flume/dynamic”目录下是否有产生数据。重复在dynamic测试文件中写入数据,再观察HDFS上“/flume/dynamic”目录的变化。从Kafka客户端采集日志经Flume客户端保存到HDFS采用KafkaSource、MemoryChannel和HDFSSink配置Flume客户端单击“导出”,将配置文件“perties”保存到本地。使用“WinSCP”工具将“perties”文件上传到Flume
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医学三基考试部分试题及答案
- 放射医学副高高级职称试题库及答案
- 成都快速电焊操作证考试题库附答案
- 供应链岗位招聘笔试题与参考答案(某大型国企)
- 2026年计算机组成与体系结构试题
- 2025年文县招教考试备考题库附答案解析(必刷)
- 未来五年机械治疗器具市场需求变化趋势与商业创新机遇分析研究报告
- 未来五年女士毛衣毛裤批发行业市场营销创新战略制定与实施分析研究报告
- 未来五年新形势下划艇行业顺势崛起战略制定与实施分析研究报告
- 未来五年新形势下报告口腔灯行业顺势崛起战略制定与实施分析研究报告
- 2026年福建莆田市涵江区区属一级国有企业高级管理人员招聘2人笔试备考题库及答案解析
- 2026福建莆田市涵江区选聘区属一级国有企业高级管理人员2人笔试备考题库及答案解析
- 2026春季开学教职工大会校长精彩发言:大格局!3个变局、3个确定性、3个转变
- 西安市离婚协议书(2026简易标准版)
- 养老机构护理服务操作手册
- 《非物质文化遗产概论(第三版)》全套教学课件
- 星星之火可以燎原读后感课件
- 2025年重庆市中考语文试卷真题(含答案解析)
- JG/T 502-2016环氧树脂涂层钢筋
- (高清版)DG∕TJ 08-2093-2019 电动汽车充电基础设施建设技术标准 含2021年局部修订
- 多模块化大数据分析处理软件操作手册
评论
0/150
提交评论