WordCount Hadoop计数.doc_第1页
WordCount Hadoop计数.doc_第2页
WordCount Hadoop计数.doc_第3页
WordCount Hadoop计数.doc_第4页
WordCount Hadoop计数.doc_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Hadoop Streaming是Hadoop提供的多语言编程工具,通过该工具,用户可采用任何语言编写MapReduce程序,本文将介绍几个Hadoop Streaming编程实例,大家可重点从以下几个方面学习:(1)对于一种编写语言,应该怎么编写Mapper和Reduce,需遵循什么样的编程规范(2) 如何在Hadoop Streaming中自定义Hadoop Counter(3) 如何在Hadoop Streaming中自定义状态信息,进而给用户反馈当前作业执行进度(4) 如何在Hadoop Streaming中打印调试日志,在哪里可以看到这些日志(5)如何使用Hadoop Streaming处理二进制文件,而不仅仅是文本文件我已经在多篇文章中介绍了Hadoop Streaming,如果你对它还不了解,可以阅读:“Hadoop Streaming 编程”,“Hadoop Streaming高级编程”等文章。本文重点解决前四个问题,给出了C+和Shell编写的Wordcount实例,供大家参考。1. C+版WordCount(1)Mapper实现(mapper.cpp)12345678910111213141516#include #include using namespace std;int main() string key;while(cin key) cout key t 1 endl;/ Define counter named counter_no in group counter_groupcerr reporter:counter:counter_group,counter_no,1n;/ dispaly statuscerr reporter:status:processing.n;/ Print logs for testingcerr This is log, will be printed in stdout filen;return 0;(2)Reducer实现(reducer.cpp)12345678910111213141516171819202122#include #include using namespace std;int main() /reducer将会被封装成一个独立进程,因而需要有main函数string cur_key, last_key, value;cin cur_key value;last_key = cur_key;int n = 1;while(cin cur_key) /读取map task输出结果cin value;if(last_key != cur_key) /识别下一个keycout last_key t n endl;last_key = cur_key;n = 1; else /获取key相同的所有value数目n+; /key值相同的,累计value值cout last_key t n endl;return 0;(3)编译运行编译以上两个程序:g+ -o mapper mapper.cppg+ -o reducer reducer.cpp测试一下:echo “dong xicheng is here now, talk to dong xicheng now” | ./mapper | sort | ./reducer注:上面这种测试方法会频繁打印以下字符串,可以先注释掉,这些字符串hadoop能够识别reporter:counter:counter_group,counter_no,1reporter:status:processingThis is log, will be printed in stdout file测试通过后,可通过以下脚本将作业提交到集群中(run_cpp_mr.sh):1234567891011121314#!/bin/bashHADOOP_HOME=/opt/yarn-clientINPUT_PATH=/test/inputOUTPUT_PATH=/test/outputecho Clearing output path: $OUTPUT_PATH$HADOOP_HOME/bin/hadoop fs -rmr $OUTPUT_PATH$HADOOP_HOME/bin/hadoop jar$HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-2.2.0.jar-files mapper,reducer-input $INPUT_PATH-output $OUTPUT_PATH-mapper mapper-reducer reducer2. Shell版WordCount(1)Mapper实现(mapper.sh)123456789101112131415#! /bin/bashwhile read LINE; dofor word in $LINEdoecho $word 1# in streaming, we define counter by# reporter:counter:,# define a counter named counter_no, in group counter_group# increase this counter by 1# counter shoule be output through stderrecho reporter:counter:counter_group,counter_no,1 &2echo reporter:counter:status,processing. &2echo This is log for testing, will be printed in stdout file &2donedone(2)Reducer实现(mapper.sh)12345678910111213141516#! /bin/bashcount=0started=0word=while read LINE;donewword=echo $LINE | cut -d -f 1if $word != $newword ;then $started -ne 0 & echo $wordt$countword=$newwordcount=1started=1elsecount=$( $count + 1 )fidoneecho $wordt$count(3)测试运行测试以上两个程序:echo “dong xicheng is here now, talk to dong xicheng now” | sh mapper.sh | sort | sh reducer.sh注:上面这种测试方法会频繁打印以下字符串,可以先注释掉,这些字符串hadoop能够识别reporter:counter:counter_group,counter_no,1reporter:status:processingThis is log, will be printed in stdout file测试通过后,可通过以下脚本将作业提交到集群中(run_shell_mr.sh):1234567891011121314#!/bin/bashHADOOP_HOME=/opt/yarn-clientINPUT_PATH=/test/inputOUTPUT_PATH=/test/outputecho Clearing output path: $OUTPUT_PATH$HADOOP_HOME/bin/hadoop fs -rmr $OUTPUT_PATH$HADOOP_HOME/bin/hadoop jar$HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-2.2.0.jar-files mapper.sh,reducer.sh-input $INPUT_PATH-output $OUTPUT_PATH-mapper sh mapper.sh-reducer sh reducer.sh3. 程序说明在Hadoop Streaming中,标准输入、标准输出和错误输出各有妙用,其中,标准输入和输出分别用于接受输入数据和输出处理结果,而错误输出的意义视内容而定:(1)如果标准错误输出的内容为:reporter:counter:group,counter,amount,表示将名称为counter,所在组为group的hadoop counter值增加amount,hadoop第一次读到这个counter时,会创建它,之后查找counter表,增加对应counter值(2)如果标准错误输出的内容为:reporter:status:message,则表示在界面或者终端上打印message信息,可以是一些状态提示信息(3)如果采用错误输出的内容不是以上两种情况,则表示调试日志,Hadoop会将其重定向到stderr文件中。注:每个Task对应三个日志文件,分别是stdout、stderr

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论