版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 Map/Reduce 的名字源于这个模型中的两项核心操作:Map 和 Reduce,实际处理的都是大量像对这样的简单数据类型。在模型中首先对输入的数据进行分割,将分割后的数据分配给 Map 函数,而 Map 把分配到的数据(一般为一组对)映射为另外的一组型中间数据,其映射的规则由一个函数指定;Reduce是对 Map 输出的型中间数据进行归约并输出最终结果,这个归约的规则也是由一个函数指定。这两项操作的规则是可以由程序设计人员的指定,正是这一点带给了 Map/Reduce 模型巨大的灵活性。(1)首先,用户程序中的 Map Reduce 函数库把输入文件分成 M 块(Hadoop 中每个数据
2、分块大小一般为 64MB,这个可通过参数修改)。然后用户程序在集群中创建多个程序副本,执行处理程序。 (2)在大量的程序副本中有一个比较特殊主控程序 Master。其余程序副本都是作为 worker 在工作,也即图 2.4 中的 Map0,Map1,Map2 以及 Reduce0 和 Reduce1。总共有 M 个 Map 和 R 个 Reduce 任务。Master 会给空闲的 worker 分配这些任务。 Master 类似于数据管道,通过该管道,中间键值对的存储信息(比如存储区域的大小,位置)可从 Map 传递到 Reduce。此外,Master 具备一些数据结构,存储 worker 的
3、标识和每一个 Map 和 Reduce 任务的状态:空闲、工作中或完成。 (3)在 Map 阶段,Slaves 作为 worker 接受 Master 分配的 Map 任务,读取并解析输入数据分块,以 key/value 键值对形式输出给用户自定义的 Map 函数。Map 函数对输入数据并行处理后同样以键值形式输出,在内存中作临时缓存。 (4)对于缓存的中间键值对,程序会调用分区函数定期执行本地写入操作,同时程序会将中间键值对在本地硬盘的存储位置回传给 Master,由 Master 记录这些位置信息为Reduce 阶段做好准备。 (5)在 Reduce 阶段,Reduce worker 首先
4、获取 Master 传递的中间键值对位置信息,接着调用 RPC(远程过程调用协议)读取 Map worker 方存储的全部中间键值对,再使用中间 key 对这些数据进行排序,使所有有相同 key 值的数据聚集在一起,以达到排序的效果。 (6)Reduce worker 将所有经排序的中间数据传递给用户自定义的 Reduce 函数处理。Reduce 函数同样以键值形式输出操作结果。 (7)在所有 Map 任务和 Reduce任务执行结束时,Master 重新激活用户主程序,代表一次“映射”与“化简”操作执行完毕。在一次 Map Reduce 操作中,输入的 M 个数据分首先在多台机器上调用 Ma
5、p 功能函数作并行处理,对应输出的中间文件再传递给 Reduce 功能函数进行化简处理,但是程序不对 Reduce 任务产生的 R 个输出文件进行合并,而是将其作为另一个 Map Reduce 操作的输入或者用另一个分布式应用来处理。Hadoop 是一个基于 Map/Reduce 的相当成功的分布式计算平台,Map/Reduce 是 Google 的一项重要技术,是一种简化并行计算的编程模型,它让那些没有多少并行计算经验的开发人员也可以开发并行应用。Map/Recuce 可以将被划分成多个小的 Block 的海量检索数据以分布式的方法局部计算,并应用 Map 将他们映射到一个提供 Reduce
6、 的中心上,从而达到快速处理海量数据检索的目的。分布式文件系统 HDFS(Hadoop Distributed File System)是 Hadoop 的另一重要功能。HDFS 是受 Google 文件系统的启发,建立在大型集群上可靠存储大数据集的文件系统。HDFS 与 Map/Reduce 紧密集成,是 Hadoop 分布式计算的存储基石。它有自己明确的设计目标,那就是支持大的数据文件(大至 T 级),并且这些文件以顺序读取为主,以文件读的高吞吐量为目标。具体的存取过程如下。 (1)文件写入过程: 首先,Client 向 Name Node 发起写入请求; Name Node 接收到请求后
7、,根据文件大小和块配置情况将 Client 负责的 Data Node信息返回; Client 将文件划分为多个数据块(block),然后将 Name Node 提供的 Data Node 地址信息逐个写入对应的 Data Node 中;(2)文件读取过程: 首先,Client 向 Name Node 发起读取请求; Name Node 接收到请求后,返回目标文件所在 Data Node 的信息; Client 读取目标文件信息; (3)HDFS 通过配置来复制文件数据块(block)以保证数据安全: 当 Name Node 发现部分 Data Node 失效或者部分文件 Block 不符合最
8、小复制数时,通知 Data Node 进行相互复制; Data Node 执行相互复制; 图 2.5 给出 Name Node 中文件的索引目录,这里显示有两个数据文件:Data1 和 Data2,分别拥有 1,2,3 三个数据块和 4,5 两个数据块,均分布在 4 个数据节点中。每个数据块有 3 个副本,无论其中任何一个数据节点故障或崩溃而无法实现网络访问时,都可以成功读取文件信息。Hadoop 分布式计算结构 综合 Map/Reduce 和 HDFS,就是 Hadoop 平台的整体结构了。在Hadoop 分布式计算平台中,必须有一个 Master 节点,主要负责 Name Node 和 J
9、ob Tracker 的工作,如果是大型分布集群环境,更理想的方式是将 Name Node 和 Job Tracker 分别部署到由两台计算机共同组成 Master 节点,这样可以提高平台的响应速度。此外,会有多个 Slave 节点,每个 Slave 节点通常具有 Data Node 的功能并负责 Task Tracker 的工作。综合Map/Reduce 和 HDFS 的 Hadoop 整体结构如图 2-3 所示:本文提出的基于 Hadoop 的分布式搜索引擎系统,将 Map/Reduce 技术应用到搜索引擎的工作流程中,应用 HDFS 分布式文件系统存储数据。按照搜索引擎的特点,可以将系统
10、分为三个业务功能子系统包括:爬行器 Crawler、索引器 Indexer、查询器 Searcher。这三个子系统应用了 Map/Reduce 编程模型,运行于分布式系统环境。1. 爬行器漫游于网络中抓取网页数据,对网页数据进行分析提取链接,生成链接列表以供爬行器下一次爬行使用。 2. 爬行器将网页文本数据和网页链接数据保存到网页数据库中。 3. 爬行器在完成采集工作后(所有应抓取的网页文本数据和网页链接数据都已经保存到数据库中),通知索引器可以开始索引。 4. 索引器开始执行索引,对网页文本数据进行分词(主要包括英文分词和中文分词),建立全文索引,并对一些倒排文档执行增量索引,新建立的索引保存在缓存中。同时,还要根据评分策略给网页评分。 5. 索引器执行全文索引和增量索引的过程中锁定部分倒排文档,因此,通知搜索器停止部分查询。当索引完成后索引器解除倒排索引文档锁定,通知搜索器新倒排索引可以提供查询。 6. 当缓存中的索引数量达到一个阈值后,索
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 物料索道操作工安全文化竞赛考核试卷含答案
- 胶带机移设机司机冲突解决强化考核试卷含答案
- 供电服务员常识知识考核试卷含答案
- 水产品腌熏干制品制作工冲突解决考核试卷含答案
- 高压试验工岗前客户关系管理考核试卷含答案
- 矿山救护工安全宣贯水平考核试卷含答案
- 滤棒成型设备操作工测试验证知识考核试卷含答案
- 2024年湖北体育职业学院辅导员考试笔试题库附答案
- 船舶木塑帆缆制造工安全风险竞赛考核试卷含答案
- 梳理缝编非织造布制作工班组评比考核试卷含答案
- 2025年延安市市直事业单位选聘(76人)考试参考试题及答案解析
- 2026长治日报社工作人员招聘劳务派遣人员5人参考题库及答案1套
- 2026年菏泽学院单招职业倾向性考试题库附答案解析
- 2025年体育教师个人年终述职报告
- 实际问题与一次函数课件2025-2026学年人教版八年级数学下册
- 2024年盐城市体育局直属事业单位招聘真题
- 档案管理操作规程及实施细则
- 2025-2026学年教科版(新教材)二年级上册科学全册知识点梳理归纳
- MDT在老年髋部骨折合并症患者中的应用策略
- 2026天津农商银行校园招聘考试历年真题汇编附答案解析
- 八上语文期末作文押题常考主题佳作
评论
0/150
提交评论