




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据与云计算智能建造技术专业资源库知识点大数据分析案例(一)3交通流量分析1日志分析2电商购买记录分析大数据分析案例日志分析
大规模系统每天会产生大量的日志,日志是企业后台服务系统的重要组成部分,企业每天通过日志分析监控可以及时地发现系统运行中出现的问题,从而尽量将损失减小到最少。
由于企业中的日志数据一般规模比较庞大,需要Hadoop这样的大数据处理系统来处理大量的日志。日志分析
以一个运行一段时间的Hadoop集群产生的日志文件为例,来说明使用Hadoop来进行日志分析的过程。
现在我们有Hadoop运行的日志文件,需要找出WARN级别的日志记录信息,输出结果信息包括日志文件中的行号和日志记录内容。
该问题的解决方法是采用类似Grep的方法,在Map阶段对输人的每条日志记录匹配查找,如果有匹配关健字WARN,则产生<行号,记录内容>这样的key-value键值对;在Reduce阶段,则基本不采取任何操作,只是把所有的key-value键值对输出到HDFS文件中。关键部分代码:日志分析publicstaticciassMyMapperextendsMapper<LongWritable,Text,Longhritable,Test>{publicvoidmap(Longwritablelinenumber,Textline,Contextcontext)throwsIOException,InterruptedException{Stringpattern=context.getConfiguration().get("grep");Stringlinecontent=line.toString();if(linecontent.index0f(pattern)==-1){return;}context.write(linenumber,line);}}publicstaticclassMyReducerextendsReducer<LongWritable,Text,Longlwritable,Text>{publicvoidreduce(LongWritablelinenumber,Iterable<Text>line,Contextcontext)throwsIOException,InterruptedException{for(Textelement:line){context.write(linenumber.element);}}}日志分析
详细完整的代码和数据可以从GitHub上下载(ttps://github.com/bdintro/bdintro.git)。
编译源代码采用mvnpackage的方式,测试数据为hadoopuser-datanodedell119.log.zip.
在测试之前先把对应数据上传到HDFS集群中,把使用mvnpackage编译好的jar文件复制到Hadoop集群节点上,当前测试为复制到del119机器上。日志分析启动如下命令,执行日志分析任务./bin/hdfsdfs/user/root/log/output./bin/hadoopjar/home/qzhong/bigdata-0.0.1.jar\bigdata.bigdata,.GrepWARN/user/root/log/input/hadoopyangyarudatanode-dell119.log/user/root/log/output运行结果如下图,图中左边是原始日志文件中对应WARN记录的符号,右边是对应WARN级别日志记录的具体内容:知识点大数据分析案例(二)3交通流量分析1日志分析2电商购买记录分析大数据分析案例电商购买记录分析当前电子商务快速发展,大量的用户开始在网上进行购物。各大电商为了更好地给用户推荐商品,会将用户的购买行为记录下来。电商平台存储了大量用于挖掘产生价值的数据。单台物理服务器无法完成分析大量数据的任务,因此需要部署大规模大数据分析系统来完整电商购买记录分析。电商购买记录分析有一个电商平台的部分用户购买记录数据,利用上述搭建的简易的Hndop运行平台,分析得出每个商家每天的成交量信息。购买记录为一个CSV格式文件,数器的格式为<用户ID.商家ID,日期,时间>.前面三个字段采用逗号分隔,最后面的一个字段采用空格分隔,部分数据格式如图。采用Hadop的MapReduce来进行商家每天的成交量电商购买记录分析采用Hadoop的MoapReduce来进行商家每天的成交量分析。在Map阶段对于每个输人的购买记录信息分隔,产生key为<商家ID,日期>和value为1的键值对:在Reduce阶段对于相同的key<商家ID,日期>的进行合并。完整的代码可以在GitHub上下载(ttps//githubcombdintro/bdintro.git)。测试数据为shop.txt.zi。在测试之前需要先上传shop.1x文件到HDFS集群中.利用mvnpacknge生成的jar文件,执行如下命令如左图,运行结果如右图交通流量分析现在车辆迅速增多,交通产生了大量的数据。为了有效地减少交通事故以及减少交通拥堵时间,需要有效地利用交通数据进行海量数据分析。现在有交通违规的数据信息,需要找出每天的交通违规数据总的统计信息。交通流量的数据是csv格式文件,详细的交通流量数据格式描述如网站所述(https://www./jana36/ustrafficviolationsmontgomery-countypolict)。采用MapReduce的方式来解决上述问题。在Map阶段,产生<日期,1>这样的key-value键值对;在Reduce阶段,对相同的日期做总数相加统计操作。对应的关键代码如图(见下一张幻灯片)交通流量分析完整的代码可以从GitHub上下载https:/
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025贵州凯里汽车运输(集团)有限责任公司招聘笔试历年参考题库附带答案详解
- 2025第二季度四川广安鑫鸿集团有限公司招聘及考察笔试历年参考题库附带答案详解
- 2025福建光阳蛋业股份有限公司招聘10人笔试历年参考题库附带答案详解
- 2025湖北交投智能检测股份有限公司遴选拟录用人员笔试历年参考题库附带答案详解
- 2025浙江宁波市奉化区交通控股集团有限公司调整招聘笔试与面谈环节顺序笔试历年参考题库附带答案详解
- 2025枣庄机场建设投资有限公司公开招聘笔试笔试历年参考题库附带答案详解
- 2025四川绵阳市九州光电子技术有限公司招聘技术工程师(研发工程助理)拟录用人员笔试历年参考题库附带答案详解
- 2025届春季江苏金陵科技集团有限公司校园招聘考前自测高频考点模拟试题参考答案详解
- 2025年武汉农村商业银行股份有限公司招聘77人模拟试卷及答案详解参考
- 2025江苏无锡市卫生健康委直属事业单位招聘专技人才50人考前自测高频考点模拟试题附答案详解
- TSG Z7004-2011 特种设备型式试验机构核准规则
- 回收垃圾培训课件
- 2025-2030中国钩针系列行业市场发展趋势与前景展望战略研究报告
- 司法确认调解协议(2025年版)
- 医疗器械直调管理制度
- (高清版)DBJ33∕T 1294-2023 建设工程造价指标采集分析标准
- 八年级英语上学期 选词填空解题方法及专项训练(解析版)
- 《永遇乐-京口北固亭怀古》课件
- 《幼儿舞蹈基础》 课件 项目八 蒙古族舞蹈
- 穴位按摩法操作评分标准
- 城乡供水一体化项目(一期)-给水工程施工图设计说明
评论
0/150
提交评论