版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Hadoop大数据项目开发——单词统计分析-mapper代码实现目录content02Reducer类的编写01Mapper类的编写03Driver类的编写添加依赖:hadoop-commonhadoop-hdfshadoop-client实战开发:WordCountMapperWordCountReducerWordCountMain/开发环境:mavenIDEA/Eclipse上传运行:hadoopjarwordcount-1.0-SNAPSHOT.jar
/input/data.txt/output/wc单词统计功能开发流程引入依赖<dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-mapreduce-client-common</artifactId><version>2.9.2</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-mapreduce-client-core</artifactId><version>2.9.2</version></dependency>本案例中的测试数据位于“G:/wordcount/input”的文件夹中。首先在新建项目中的pom.xml文件中引入依赖,如图所示:Mapper类的编写新建WordCountMapper类,该类继承了org.apache.hadoop.mapreduce.Mapper类。WordCountMapper类是map()函数的执行者,用户需要根据数据处理需求重写map()方法。创建WordCountMapper类Mapper类的编写importjava.io.IOException;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapreduce.Mapper;publicclassWordCountMapperextendsMapper<LongWritable,Text,Text,IntWritable>{ @Override protectedvoidmap(LongWritablekey,Textvalue,Contextcontext) throwsIOException,InterruptedException{ Stringline=value.toString();//将Text类型转成字符型 String[]words=line.split("");//切割单词 for(Stringword:words){//遍历words context.write(newText(word),newIntWritable(1)); } }}WordCountMapper类的代码如图所示:Mapper类的编写上述代码中可知,WordCountMapper类使用extends关键字继承了Mapper<KEYIN,VALUEIN,KEYOUT,VALUEOUT>类,其中:KEYIN:是MapTask读取到key的数据类型,是一行的起始偏移量的数据类型,使用长整型,在MapReduce中使用LongWritable。VALUEIN:是MapTask读取到的数据的value的类型,是一行的内容的数据类型,本案例中一行内容的数据类型为文本型,在MapReduce中使用Text。KEYOUT:是用户的自定义map方法要返回的结果Key-Value中的key的数据类型,在WordCount逻辑中,需要输出的单词是字符型,在MapReduce中使用Text。VALUEOUT:是用户的自定义map方法要返回的结果Key-Value中value的数据类型,在wordcount逻辑中,需要输出的单词数量是整数,在MapReduce中使用IntWritable。在mapreduce中,map产生的数据需要传输给reduce,需要进行序列化和反序列化。而jdk中的原生序列化机制产生的数据量比较冗余,就会导致数据在mapreduce运行过程中传输效率低下。所以,hadoop专门设计了自己的序列化机制,那么,mapreduce中传输的数据类型就必须实现hadoop自己的序列化接口。hadoop为jdk中的常用基本类型Long,String,Integer,Float等数据类型封装了自己的实现了hadoop序列化接口的类型:LongWritable,Text,IntWritable,FloatWritable。Mapper类的编写Mapper类的编写然后需要重写map方法上述代码中对map方法的重写,可以通过快捷键实现,使用Alt+Insert组合键会出现提示,如图所示:在生成类的各项基本方法界面中选择OverrideMethods,出现可以重写的方法,选择重写方法界面如图所示:Mapper类的编写选中要重写的方法之后,会出现如图代码,将代码中的super.map(key,value,context);删除,就可以在map()方法中编写逻辑代码,map()读入进来的数据为Text类型,要对单词按空格进行切分,需要将Text类型转换为字符型,转换代码如下所示:Stringline=value.toString();//将Text类型转成字符型删除此行Mapper类的编写其次,将读入进来的数据按照空格进行切分,切分代码如下所示:String[]words=line.split("");//切割单词最后,需要将单词转换成为<单词,1>的形式,遍历切割完成后的单词数组,将每个单词都转化成为<单词,1>形式,代码如下所示:for(Stringword:words){//遍历
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 压疮的护理伦理
- 儿童眼部护理的推广与普及
- 油层物理18-第八节-地层流体高压物性参数的计算
- 铁路装车线改造工程项目环境影响报告表
- 人工气道患者的护理计划
- 陕西省西安市益新中学2026年初三下学期第四次周考数学试题试卷含解析
- 浙江省杭州市锦绣育才教育科技集团2026届高中毕业班第二次诊断性检测试题生物试题含解析
- 产后睡眠质量提升
- Castleman病的饮食护理
- 机器学习在教学数据中的应用
- 2026学校防范电信网络诈骗“无诈校园”建设工作方案(完整版)
- 2026时事政治必考试题库含答案
- 2026届高考政治一轮复习:统编版必修1~4+选择性必修1~3全7册必背考点提纲汇编
- 2025年组织生活会个人发言提纲存在问题及具体整改措施
- T/CECS 10143-2021高分子量高密度聚乙烯(HMWHDPE)双波峰缠绕结构壁排水管
- DL∕T 1616-2016 火力发电机组性能试验导则
- GB/T 13773.2-2008纺织品织物及其制品的接缝拉伸性能第2部分:抓样法接缝强力的测定
- 腰骶部疾病诊断及治疗
- 施工方案审批意见及修改回复单
- 限度样品标示卡
- 东北地区的地理位置与自然环境课件
评论
0/150
提交评论