




已阅读5页,还剩39页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.,1,Hadoop分布式计算技术交流,2012年3月27日,.,2,Hadoop简介,Hadoop主要由HDFS、MapReduce和Hbase组成。它是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下开发分布式程序。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。,.,3,HDFSMapreduce介绍Hadoop安装Mapreduce编程示例,.,4,WhatisHDFS,HDFS是hadoop应用程序的主要的存储系统。HDFS通过创建datablocks的多个副本并分布到计算机集群的各个计算节点来保证可靠性和快速计算特点:1存储以及管理PB级数据2处理非结构化数据3注重数据处理的吞吐量(latency不敏感)4应用模式(writeronce-readmany)存取模式,.,5,HDFS不适宜做的,1小文件的存储(不建议)2大量文件的随机读取(不建议)3文件的修改(不支持),.,6,目前应用hadoop的公司,.,7,HDFS通讯机制,DN每3秒想NN发送心跳,如果10分钟没有收到则该节点宣告死亡然后NN取出DN上的datablocks进行副本拷贝,.,8,Hdfs,BlocksNamenode(NN)Datanode(DN)Secondnamenode(SNN)HDFS数据保存HDFS数据读取HDFS数据写入HDFS目录结构,.,9,Hdfs架构,.,10,Hdfsblocks,HDFS(HadoopDistributedFileSystem)默认的最基本的存储单位是64M的数据块。和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。,.,11,Namenode(NN),元数据节点用来管理文件系统的命名空间其将所有的文件和文件夹的元数据保存在一个文件系统树中。这些信息也会在硬盘上保存成以下文件:命名空间镜像(namespaceimage)及修改日志(editlog)其还保存了一个文件包括哪些数据块,分布在哪些数据节点上。然而这些信息并不存储在硬盘上,而是在系统启动的时候从数据节点收集而成的。,.,12,Datandoe(DN),数据节点是文件系统中真正存储数据的地方。客户端(client)或者元数据信息(namenode)可以向数据节点请求写入或者读出数据块。其周期性的向元数据节点回报其存储的数据块信息。,.,13,Secondnamenode(SNN),从元数据节点(secondarynamenode)从元数据节点并不是元数据节点出现问题时候的备用节点,它和元数据节点负责不同的事情。其主要功能就是周期性将元数据节点的命名空间镜像文件和修改日志合并,以防日志文件过大。这点在下面会相信叙述。合并过后的命名空间镜像文件也在从元数据节点保存了一份,以防元数据节点失败的时候,可以恢复。,.,14,Hdfs数据保存,.,15,Hdfs数据读取,.,16,Hdfs数据写入,.,17,HdfsNN目录结构,.,18,HADOOPDN目录结构,.,19,mapreduce,Map/Reduce是一个用于大规模数据处理的分布式计算模型,它最初是由Google工程师设计并实现的,Google已经将它完整的MapReduce论文公开发布了。其中对它的定义是,Map/Reduce是一个编程模型(programmingmodel),是一个用于处理和生成大规模数据集(processingandgeneratinglargedatasets)的相关的实现。用户定义一个map函数来处理一个key/value对以生成一批中间的key/value对,再定义一个reduce函数将所有这些中间的有着相同key的values合并起来。很多现实世界中的任务都可用这个模型来表达。,.,20,总体结构,Mapper和ReducerJobTracker和TaskTrackerJobClientJobInProgressTaskInProgressMapTask和ReduceTask,.,21,.,22,Job创建过程,JobClient.runJob()开始运行job并分解输入数据集JobClient.submitJob()提交job到JobTracker,.,23,.,24,JobTracker初始化Job和Task队列过程,JobTracker.submitJob()收到请求JobTracker.resortPriority()加入队列并按优先级排序JobTracker.JobInitThread通知初始化线程JobInProgress.initTasks()初始化TaskInProgress,.,25,.,26,TaskTracker执行Task的过程,TaskTracker.run()连接JobTrackerTaskTracker.offerService()主循环TaskTracker.transmitHeartBeat()获取JobTracker指令TaskTracker.startNewTask()启动新任务TaskTracker.localizeJob()初始化job目录TaskTracker.launchTaskForJob()执行任务TaskTracker$TaskInProgress.launchTask()执行任务Task.createRunner()创建启动Runner对象TaskRunner.start()启动子进程真正执行Task,.,27,.,28,Mapreduce执行过程,.,29,Mapreduce执行过程,.,30,commbiner,.,31,Hadoop安装,设备环境共有4台虚拟机,均使用的LINUX系统,Java使用的是jdk1.6.0。IP配置如下:1had2had3had34had4,.,32,环境准备,1修改主机名2修改hosts3创建hadtest用户4配置ssh互信,.,33,5配置环境变量,.,34,启动前配置,.,35,hdfs-site.xml,hdfs:/had1:9000Thenameofthedefaultfilesystem.Eithertheliteralstringlocalorahost:portforDFS.mapred.job.trackerhad1:9001ThehostandportthattheMapReducejobtrackerrunsat.Iflocal,thenjobsarerunin-processasasinglemapandreducetask.,.,36,hadoop.tmp.dir/home/hadtest/hadoopin/tmpA.dir/home/hadtest/hadoopin/nameDetermineswhereonthelocalfilesystemtheDFSnamenodeshouldstorethenametable.Ifthisisacomma-delimitedlistofdirectoriesthenthenametableisreplicatedinallofthedirectories,forredundancy.,.,37,dfs.data.dir/home/hadtest/hadoopin/filesystem/dataDetermineswhereonthelocalfilesystemanDFSdatanodeshouldstoreitsblocks.Ifthisisacomma-delimitedlistofdirectories,thendatawillbestoredinallnameddirectories,typicallyondifferentdevices.Directoriesthatdonotexistareignored.dfs.replication3Defaultblockreplication.Theactualnumberofreplicationscanbespecifiedwhenthefileiscreated.Thedefaultisusedifreplicationisnotspecifiedincreatetime.,.,38,catcore-site.xml,hadtesthad1conf$hdfs:/had1:9000Thenameofthedefaultfilesystem.Eithertheliteralstringlocalorahost:portforDFS.,.,39,mapred-site.xml,mapred.job.trackerhad1:9001ThehostandportthattheMapReducejobtrackerrunsat.Iflocal,thenjobsarerunin-processasasinglemapandreducetask.mapred.system.dir/tmp/hadoop-hadtest/mapred/system,.,40,Master配置,hadtesthad1conf$catmastershad1,.,41,Slave配置,hadtesthad1conf$catslaveshad1had2had3had4,.,42,hadtesthad1bin$./hadoopnamenode-formatstart-all.sh启动所有的Hadoop守护。包括namenode,datanode,jobtracker,tasktrack*stop-all.sh停止所有的Hadoop*start-mapred.sh启动Map/Reduce守护。包括Jobtracker和Tasktrack*stop-mapred.sh停止Map/Reduce守护*start-dfs.sh启动HadoopDFS守护.Namenode和Datanode*stop-dfs.sh停止DFS守护,.,43,测试命令,bin/h
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年劳动卫生与职业病防护知识测试模拟卷答案及解析
- 2025年妇产科常见疾病防治知识考试试题答案及解析
- 2025【合同范本】铁路货物运输合同实施细则
- 2025年神经内科卒中患者康复训练模拟考试答案及解析
- 2025年病理科病理切片鉴定与报告撰写规范性考核试卷答案及解析
- 2025年的物业管理合同
- 2025建筑材料采购合同范本示例
- 2025年急诊医学危重病例处置模拟考核答案及解析
- 全球与2025-2030中国构件式玻璃幕墙行发展趋势预测及投资风险剖析报告
- 五年级信息技术下册 第1课 初识因特网说课稿 闽教版
- 中国绿色食品市场深度调查研究报告2025-2028版
- 2025年苏教版小学数学小升初模拟考试测试卷及答案(共五套)
- 基于赋能理论的老年COPD稳定期患者慢病管理方案的构建及应用
- 公司员工特殊岗位补贴政策
- 2025会计基础工作规范
- 《人工智能基础与应用-(AIGC实战 慕课版)》全套教学课件
- 医院 查对制度
- 2025教育方针解读
- 消化道出血护理查房课件(完整版)
- 教师职业道德与专业发展知到智慧树章节测试课后答案2024年秋鲁东大学
- 物业总经理转正述职报告
评论
0/150
提交评论