hadoop开发视频教程.ppt_第1页
hadoop开发视频教程.ppt_第2页
hadoop开发视频教程.ppt_第3页
hadoop开发视频教程.ppt_第4页
hadoop开发视频教程.ppt_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Hadoop大数据解决方案进阶应用,Hadoop,讲师:迪伦(北风网版权所有),MapReduce高阶实现 (7),计数器 内置计数器 用户定义的Java计数器 计数器名称的易读性,课程目标,计数器,通过计数器了解待分析的数据,比如分析数据集中的无效记录 计数器是一种手机作业统计信息的有效手段,用于质量控制或应用级统计 计数器可辅助诊断系统故障 对于大型分布式作业而言,使用计数器检测事件更为方便 获取计数器比输出日志更方便 根据计数器值统计特定时间的发生次数要比分析一堆日志文件容易得多 计数器由其关联任务维护,并定期传给tasktracker,再由tasktracker传给jobtracker 用户可以自定义计数器,需要在整个网络中发送 一个任务的计数器值每次都是完整传输的,而非增量传输 只有当作业执行成功后,计数器的值才是完整可靠的,内置计数器,Hadoop为每个作业维护若干内置计数器,以描述该作业的各项指标 Map-Reduce框架计数器 map输入的记录、跳过的记录、输入的字节,输出的记录、输出的字节 Combine输入的记录、输出的记录 Reduce输入的记录、输出的记录、跳过的组、溢出的记录 文件系统计数器 文件系统读的字节 文件系统写的字节 作业计数器 已启用的map任务、reduce任务(包括推测执行的任务) 失败的map任务、reduce任务 数据本地/机架本地/其他本地的map任务,用户定义的Java计数器,MapReduce允许用户编写程序来定义计数器,计数器的值可在mapper或reducer中增加 多个计数器由一个Java枚举(enum)类型来定义,以便对计数器分组 一个作业可以定义的枚举类型数量不限,各个枚举类型所包含的字段数量也不限 枚举类型名称即为组的名称,枚举类型的字段就是计数器名称 MapReduce框架将跨所有map和reduce聚集这些计数器,并在作业结束时产生一个最终结果,动态计数器,动态计数器不由Java枚举类型定义的计数器 定义动态计数器: public void incrCounter(String group, String counter, long amount) Hadoop会先将Java枚举类型转变成String类型,再通过RPC发送计数器值 使用枚举类型和String类型在事实上是等价的 枚举类型易于使用,还提供类型安全,适合大多数作业使用 某些特定场合需要动态创建计数器,可以使用String接口,用户自定义计数器实例,实例:统计最高气温的作业,也统计气温值缺失的记录,不规范的字段和质量代码,用户自定义计数器实例,用户自定义计数器实例,运行程序: $ hadoop jar job.jar MaxTemperatureWithCounters input/ncdc/all out

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论