大数据技术基础及应用（微课版）实验手册集群综合实验2

上传人：q*** IP属地：山东上传时间：2025-12-08 格式：DOCX 页数：20 大小：1.79MB 积分：15 举报 版权申诉

已阅读5页，还剩15页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

集群综合实验2实验背景大数据业务中，通常需要将多种组件构建成一个业务系统，以满足上层业务需要。本实验将前面的组件进行有机的组合，构建一个大数据分析和实时查询平台。某企业现在提出了相关需求，该企业数据是存储在外部服务器中的。需要将数据导入到大数据平台，并进行存储。之后需要对数据进行持久化存储和快捷查询的功能。为了实现以上要求。我们在该实验中使用了Flume、HDFS、Hue、Loader、Hbase、Solr六个相关组件。实现流程概况如下：首先由Flume读取日志数据存入到HDFS中，然后采用Loader将HDFS中的数据导入到HBase中，最后Solr为HBase的数据创建实时索引。实验分为两部分，第一部分Flume静态采集新建的日志文件内的数据，通过Loader批量导入到HBase中并且建立Solr索引。第二部分，Flume动态采集日志文件内更新的数据，通过Loader定时导入到HBase，Solr为HBase中的新数据创建实时索引。实验目的综合运用大数据组件进行数据的转换和索引查询。实验前提已完成各组件的实验任务，对各组件的工作原理有一定的了解，掌握各组件常见操作。实验环境创建成功后，请等待1-2分钟，后台在执行start-oms.sh脚本：执行sh${BIGDATA_HOME}/om-server/om/sbin/status-oms.sh命令查看OMS的状态，显示信息表示主备OMS服务启动正常再执行下一步。在windows-client打开GoogleChrome浏览器登录FusionInsightManager地址（00:8080/web）。用户名admin，密码Huawei!@34（如原密码过期，则自行修改密码）登录FusionInsightManager后，单击“服务管理”，选择“更多操作>启动集群”。在弹出的提示框中单击“确定”，开始启动集群。界面提示“操作成功。”，单击“完成”，集群成功启动。使用SecureCRT工具登录到fihsots-1节点上，接下来进行环境变量设置与用户认证。cd/opt/hadoopclient/切换到客户端安装目录。sourcebigdata_env配置环境变量。kinituser01进行用户认证，输入用户密码客户端文件安装于fihosts-1服务器的/opt/hadoopclient目录中，认证用户user01，密码Huawei!@34实验任务Flume+HDFS+Hue+Loader+HBase+Solr离线数据采集分析与实时查询服务组件准备登录FusionManager。安装Flume客户端由于Flume客户端独立于集群客户端文件，所以需要单独安装。参考《Flume数据采集实战》实验手册，在fihosts-1节点中安装Flume客户端文件，能在Manager的Flume客户端管理界面查看到状态为“良好”即表示Flume客户端安装成功。实验文件与数据表准备准备本地日志文件路径注：本实验使用数据表的数据来代替日志数据在fihosts-1创建Flume的SpoolDirSource的spoolDir路径，用于监控采集日志>mkdir-p/home/omm/test/由于Flume的SpoolDirSource只监控并传输目录下新增的文件，所以在此我们只创建日志读取路径，而不提前创建日志文件准备HDFS-sink输出目录在HDFS中创建/flume/static目录，用于存放Flume采集好的日志数据>hdfsdfs-mkdir/flume/static准备HBase表。在HBase中预先创建好一张数据表，$HBaseshellHBase>create'cga_info',{NAME=>'info',REPLICATION_SCOPE=>'1'}Solr的实时索引要求此处必须设置table属性REPLICATION_SCOPE=>'1'Flume静态采集日志数据设置Flume从本地采集静态日志保存到HDFS配置Flume角色客户端参数1.参考《Flume数据采集实战》实验手册，完成SpoolDirSource、MemoryChannel、HDFSSink的参数配置注意：spoolDir路径填写正确hdfs.path设置为提前创建好的HDFS-sink文件输出目录（/flume/static）hdfs.filePrefix文件名称前缀与hdfs.fileSuffix文件名称后缀自行定义，但注意不要添加变量例如：hdfs.filePrefix为“HBase”，hdfs.fileSuffix为“.txt”2. 单击“导出”，将配置文件“perties”保存到本地。3. 使用“WinSCP”工具将“perties”文件上传到Flume客户端安装目录“/opt/FlumeClient/”下的“fusioninsight-flume-1.6.0/conf/”中。4. 重设客户端配置文件后，要重启Flume客户端验证日志是否传输成功1.在spooldir目录下创建文件并写入内容[root@fihosts-1~]#cd/home/omm/test[root@fihosts-1test]#vim1.txt123001.Ben.male.31.NewYork123002.Victoria.female.40.London123003.Taylor.female.30.Redding123004.LeBron.male.33.Cleveland:x保存退出2.观察HDFS上“/flume/static”目录下是否有产生数据[root@fihosts-1client]#hdfsdfs-ls/flume/staticFound1items-rw-r--r--3user01hadoop1242019-07-1014:56/flume/static/HBase.txt[root@fihosts-1client]#hdfsdfs-cat/flume/static/HBase.txt123001.Ben.male.31.NewYork123002.Victoria.female.40.London123003.Taylor.female.30.Redding123004.LeBron.male.33.Cleveland设置Solr实时创建索引使用Solr用户进行客户端认证>kinitsolrPasswordforsolr@HADOOP.COM:默认密码Solr@123Passwordexpired.Youmustchangeitnow.Enternewpassword:修改密码为Huawei!@34Enteritagain:重新输入要修改的密码Huawei!@34创建HBaseIndexer所需配置文件进入客户端安装目录“Solr/HBase-indexer/conf”，执行viuser.xml，创建文件“user.xml”[root@fihosts-1~]#cat/opt/hadoopclient/Solr/HBase-indexer/conf/user.xml<?xmlversion="1.0"?><indexertable="cga_info"mapping-type="row"read-row="never"><fieldname="address_s"value="info:address"/><fieldname="age_i"value="info:age"/><fieldname="gender_s"value="info:gender"/><fieldname="name_s"value="info:name"/><paramname="zookeeper.znode.parent"value="/HBase"/></indexer>:x保存退出创建Solrcollection、HBaseIndexerIndexer1.参考《Solr全文检索服务实战》实验手册创建collection与HBaseIndexerIndexer2.执行以下命令显示collection的node信息solrctlcollection--statname，name为需要显示信息的某个collection的名称[root@fihosts-1client]#solrctlcollection--statcoll-indexdemocoll-indexdemo/leader_elect/shard2/1297036717790199834-core_node2-n_0000000002(0)coll-indexdemo/leader_elect/shard3/1441151905993523269-core_node1-n_0000000002(0)coll-indexdemo/leader_elect/shard1/1441151905993523249-core_node3-n_0000000002(0)以上信息表示名称为coll-indexdemo的HBasecollection创建成功3.执行以下命令查看当前建立的Indexers状态[root@fihosts-1client]#hbase-indexerlist-indexers……Numberofindexes:X……能看到HBase-indexer表示indexers创建成功4.collection与HBaseIndexerIndexer创建完成后，使用Loader以putlist的方式向HBase导入数据，Solr就会实时的创建索引Loader导入HBase数据创建Loader作业参照《Loader数据导入导出实战》创建作业，将HDFS数据导至HBase作业设置注意事项：1.HDFS的输入路径为Flume的HDFS-sink输出文件2.使用hdfsdfs-cat查看FlumeHDFS-sink输出文件(/flume/static/HBase.txt)，确定分隔符是逗号还是句号3.查看HBase的数据表信息，确定表名称和列族名4.Solr实时索引要求存储类型必须为HBASE_PUTLIST保存并运行Loader作业保存并运行Loader作业后，查看作业执行状态。进度执行100%，并且状态为“成功”就进行下一步操作。如果作业执行失败，请参考《Loader数据导入导出实战》实验手册排查错误后，重新执行作业。在HBase中查询数据导入情况HBase(main):001:0>scan'cga_info4'ROWCOLUMN+CELL123001column=info:address,timestamp=1562574507169,value=NewYork123001column=info:age,timestamp=1562574507169,value=31123001column=info:gender,timestamp=1562574507169,value=male123001column=info:name,timestamp=1562574507169,value=Ben123002column=info:address,timestamp=1562574507169,value=London123002column=info:age,timestamp=1562574507169,value=40123002column=info:gender,timestamp=1562574507169,value=female123002column=info:name,timestamp=1562574507169,value=Victoria123003column=info:address,timestamp=1562574507169,value=Redding123003column=info:age,timestamp=1562574507169,value=30123003column=info:gender,timestamp=1562574507169,value=female123003column=info:name,timestamp=1562574507169,value=Taylor123004column=info:address,timestamp=1562574507169,value=Cleveland123004column=info:age,timestamp=1562574507169,value=33123004column=info:gender,timestamp=1562574507169,value=male123004column=info:name,timestamp=1562574507169,value=LeBron查看Solr索引创建情况执行Solr查询命令在SolrAdmin界面找到创建好的collection，执行查询命令可以看到从HBase表索引到Solrcollection中的数据。Flume动态采集日志数据使用Flume动态采集日志文件内更新的数据，保存到HDFS中。准备HDFS-Sink输出文件在HDFS中创建/flume/dynamic目录，用于存放Flume收集到的新增日志数据>hdfsdfs-mkdir/flume/dynamic准备本地日志文件在Flume的客户端节点fihosts-1中，创建/home/omm/test/add_data.txt文件，用于录入新增日志数据[root@fihosts-1~]#touch/home/omm/test/add_data.txt[root@fihosts-1~]#ls/home/omm/test1.txtadd_data.txt配置Flume角色客户端参数1.参考《Flume数据采集实战》实验手册，完成TaildirSource、MemoryChannel、HDFSSink的参数配置注意事项：采集文件的名称一定要填写正确填写hdfs的输出路径设置HDFS文件写入完成后的前缀名称与后缀设置正在写入的HDFS文件的后缀hdfs.fileCloseByEndEvent设置为false，保持HDFS文件开启状态2. 单击“导出”，将配置文件“perties”保存到本地。3. 使用“WinSCP”工具将“perties”文件上传到Flume客户端安装目录“/opt/FlumeClient/”下的“fusioninsight-flume-1.6.0/conf/”中。4. 重设客户端配置文件后，要重启Flume客户端验证日志是否传输成功在filegroup文件中写入新内容[root@fihosts-1~]#cd/home/omm/test[root@fihosts-1test]#vimadd_data.txt123005.Amanda.male.55.Tokyo:x保存退出观察HDFS上“/flume/dynamic”目录下是否有产生数据[root@fihosts-1client]#hdfsdfs-ls/flume/dynamicFound1items-rw-r--r--3user01hadoop1242019-07-1015:06/flume/dynamic/add.txt[root@fihosts-1client]#hdfsdfs-cat/flume/dynamic/add.txt123005.Amanda.male.55.Tokyo设置定时任务通过Oozie定时调用Loader作业将HDFS中的更新数据导入到HBase中设置Loader更新数据的作业参照《Loader数据导入导出实战》创建作业，将HDFS数据导至HBase配置注意事项：输入路径：HDFS-sink的输出文件存储类型：HBASE_PUTLIST最后点击“保存”，只保存不运行作业设置OozieWorkflow调度Loader作业参照《Oozie任务调度实战》实验手册，先完成Oozie配置文件上传工作，再使用Hue创建Oozieworkflow调度Loader作业注意：作业ID与Loader的作业ID要保持一致设置OozieWorkflow调度HDFS作业在Loader将新增数据导入HBase后，要删除HDFS-Sink的输出文件/flume/dynamic/add.txt，避免遗留旧数据，导致Loader重复导入。所以创建多一个HDFSworkflow，用于Loaderworkflow执行完成后删除遗留旧数据创建OozieCoordinator任务关联Loader与HDFS的Workflow并启用1.首先关联Loader与HDFS的Workflow，使Loaderworkflow执行完后继续执行HDFSworkflow打开Loader的Workflow作业的编辑界面，添加一个子workflow任务，并选择之前创建好的MyHDFSWorkflow。2.创建Coordinator定时任务3.设置Coordinator作业选择计划执行Loaderworkflow设定频率为每“小时”在“全部”超过小时的分钟数，这样每分钟都会执行一次Coordinator任务4.参数调试完毕后“保存”查看Coordinator执行结果打开Coordinator仪表板查看Coordinator任务执行状态打开查看Coordinator执行的详细信息查看HBase中是否有导入新的数据HBase(main):001:0>scan'cga_info4'ROWCOLUMN+CELL123001column=info:address,timestamp=1562574507169,value=NewYork123001column=info:age,timestamp=1562574507169,value=31123001column=info:gender,timestamp=1562574507169,value=male123001column=info:name,timestamp=1562574507169,value=Ben123002column=info:address,timestamp=1562574507169,value=London123002column=info:age,timestamp=1562574507169,value=40123002column=info:gender,timestamp=1562574507169,value=female123002column=info:name,timestamp=1562574507169,value=Victoria123003column=info:address,timestamp=1562574507169,value=Redding123003column=info:age,timestamp=1562574507169,value=30123003column=info:gender,timestamp=1562574507169,value=female123003column=info:name,timestamp=1562574507169,value=Taylor123004column=info:address,timestamp=1562574507169,value=Cleveland123004column=info:age,timestamp=1562574507169,value=33123004column=info:gender,timestamp=1562574507169,value=male123004column=info:name,timestamp=1562574507169,value=LeBron123005column=info:address,timestamp=1562641876658,value=Tokyo123005column=info:age,timestamp=1562641876658,value=55123005column=info:gender,timestamp=1562641876658,value=male123005column=info:name,timestamp=1562641876658,value=Amanda5row(s)in0.3120seconds查看Solr是否实时为HBase数据创建索引重新查询索引，发现已有新添加数据的索引信息重复添加多行数据查看HBase数据表hbase(main):002:0*scan'cga_info4'ROWCOLUMN+CELL123001column=info:address,timestamp=1562813790108,value=NewYork123001column=info:age,timestamp=1562813790108,value=31123001column=info:gender,timestamp=1562813790108,value=male123001column=info:name,timestamp=1562813790108,value=Ben123002column=info:address,timestamp=1562813790108,value=London123002c

人人文库> 全部分类> 教育资料 > 备课教案

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据技术基础及应用（微课版）实验手册集群综合实验2

文档简介

温馨提示

最新文档

评论

大数据技术基础及应用（微课版） 实验手册集群综合实验2

文档简介

温馨提示

最新文档

评论

相关文档

大数据技术基础及应用（微课版）实验手册集群综合实验2