




已阅读5页,还剩81页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
分类号 密级 UDC 编号 学 位 论 文 基于 Hadoop 平台的教育资源垂直搜索系统的设计与实现 Implementation of Education Resource Vertical Searching System Based on Hadoop 分分 类类 号号 : 密密 级级 : U D C : 编编 号号 : 学学 位位 论论 文文 基于 Hadoop 平台的教育资源垂直搜索系统的设计与实现 Implementation of Education Resource Vertical Searching System Based on Hadoop 学科专业:学科专业: 计算机应用技术 计算机科学与通信工程学院 2 0 11 年年 04 月月 江 苏 大 学 工 程 硕 士 学 位 论 文 I 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和 借阅。本人授权江苏大学可以将本学位论文的全部内容或部分内容编入有关数 据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密 , 在 年解密后适用本授权书。 本学位论文属于 不保密 。 学位论文作者签名: 指导教师签名: 年 月 日 年 月 日 毕业设计(论文)原创性声明和使用授权说明毕业设计(论文)原创性声明和使用授权说明 原创性声明原创性声明 本人郑重承诺:所呈交的毕业设计(论文) ,是我个人在指导教 师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别 加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过 的研究成果,也不包含我为获得 及其它教育机构的学位 或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人 或集体,均已在文中作了明确的说明并表示了谢意。 作 者 签 名: 日 期: 指导教师签名: 日 期: 使用授权说明使用授权说明 本人完全了解 大学关于收集、保存、使用毕业设计(论 文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和 电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并 提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其 它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论 文的部分或全部内容。 作者签名: 日 期: 学位论文原创性声明学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行 研究所取得的研究成果。除了文中特别加以标注引用的内容外,本 论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本 文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。 本人完全意识到本声明的法律后果由本人承担。 作者签名: 日期: 年 月 日 学位论文版权使用授权书学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权 大学可以将本学位 论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或扫描等复制手段保存和汇编本学位论文。 涉密论文按学校规定处理。 作者签名:日期: 年 月 日 导师签名: 日期: 年 月 日 指导教师评阅书指导教师评阅书 指导教师评价:指导教师评价: 一、撰写(设计)过程 1、学生在论文(设计)过程中的治学态度、工作精神 优 良 中 及格 不及格 2、学生掌握专业知识、技能的扎实程度 优 良 中 及格 不及格 3、学生综合运用所学知识和专业技能分析和解决问题的能力 优 良 中 及格 不及格 4、研究方法的科学性;技术线路的可行性;设计方案的合理性 优 良 中 及格 不及格 5、完成毕业论文(设计)期间的出勤情况 优 良 中 及格 不及格 二、论文(设计)质量 1、论文(设计)的整体结构是否符合撰写规范? 优 良 中 及格 不及格 2、是否完成指定的论文(设计)任务(包括装订及附件)? 优 良 中 及格 不及格 三、论文(设计)水平 1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 及格 不及格 2、论文的观念是否有新意?设计是否有创意? 优 良 中 及格 不及格 3、论文(设计说明书)所体现的整体水平 优 良 中 及格 不及格 建议成绩:建议成绩: 优优 良良 中中 及格及格 不及格不及格 (在所选等级前的内画“”) 指导教师:指导教师: (签名) 单位:单位: (盖章) 年年 月月 日日 评阅教师评阅书评阅教师评阅书 评阅教师评价:评阅教师评价: 一、论文(设计)质量一、论文(设计)质量 1、论文(设计)的整体结构是否符合撰写规范? 优 良 中 及格 不及格 2、是否完成指定的论文(设计)任务(包括装订及附件)? 优 良 中 及格 不及格 二、论文(设计)水平二、论文(设计)水平 1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 及格 不及格 2、论文的观念是否有新意?设计是否有创意? 优 良 中 及格 不及格 3、论文(设计说明书)所体现的整体水平 优 良 中 及格 不及格 建议成绩:建议成绩: 优优 良良 中中 及格及格 不及格不及格 (在所选等级前的内画“”) 评阅教师:评阅教师: (签名) 单位:单位: (盖章) 年年 月月 日日 江苏大学硕士研究生毕业论文 I 教研室(或答辩小组)及教学系意见教研室(或答辩小组)及教学系意见 教研室(或答辩小组)评价:教研室(或答辩小组)评价: 一、答辩过程一、答辩过程 1、毕业论文(设计)的基本要点和见解的叙述情况 优 良 中 及格 不及格 2、对答辩问题的反应、理解、表达情况 优 良 中 及格 不及格 3、学生答辩过程中的精神状态 优 良 中 及格 不及格 二、论文(设计)质量二、论文(设计)质量 1、论文(设计)的整体结构是否符合撰写规范? 优 良 中 及格 不及格 2、是否完成指定的论文(设计)任务(包括装订及附件)? 优 良 中 及格 不及格 三、论文(设计)水平三、论文(设计)水平 1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 及格 不及格 2、论文的观念是否有新意?设计是否有创意? 优 良 中 及格 不及格 3、论文(设计说明书)所体现的整体水平 优 良 中 及格 不及格 评定成绩:评定成绩: 优优 良良 中中 及格及格 不及格不及格 (在所选等级前的内画“”) 教研室主任(或答辩小组组长):教研室主任(或答辩小组组长): (签名) 年年 月月 日日 教学系意见:教学系意见: 系主任:系主任: (签名) 年年 月月 日日 江苏大学硕士研究生毕业论文 II 摘 要 互联网的出现改变了我们的生活、工作、学习乃至娱乐的方式。网上丰富 的基础教育资源为广大基础教育工作者、学生以及学生家长提供了充足的参考 资料和教育信息,然而由于缺乏行之有效的整合标准和手段,目前这些资源的 分布呈现高度分散状态,内容庞杂无序,结构化程度低,用户往往难以快速准 确地获取到自己需要的信息。所以我们必须研究和设计出针对教育资源搜索的 网络平台,以提高用户获取教育资源信息的速度和准确度。 本文通过对现有的互联网搜索平台的分析,借鉴其他应用领域的垂直搜索 平台所采用的架构和设计方法,通过使用 Hadoop 平台的分层分布的架构和聚 焦蜘蛛的爬行技术,提出基于 Hadoop 平台的 B/S 多层分布式架构系统模型, 给出提高搜索运行效率的若干关键技术,并基于该架构的设计实现了系统。本 文的主要工作包括: (1) 通过对 Hadoop 平台的基本原理和架构以及 Hadoop 平台的两个核心组 件 HDFS 与 Map/Reduce 的分析,选择 Hbase 对系统的数据进行管理,并对可 视化系统的 Hbase 数据模型的设计以及条件查询的改进进行阐述。 (2) 基于抽样调查和教育经验,进行 MDVSP 的软件需求分析,设计基于 Hadoop 平台的教育资源垂直搜索(MDVSP)架构模型。该架构模型把业务处理服 务器与 Web 服务器分开,采用并行计算提高业务处理能力,使得基于该架构模 型下的系统具有良好的可伸缩性、可扩展性、可维护性和更高的安全性。 (3) 研究基于 Hadoop 平台的教育资源搜索系统所采用的关键技术,包括聚 焦蜘蛛的爬行技术、网页信息结构化提取技术、远程过程调用(RPC)技术、基于 Hadoop 的 Map/Reduce 技术和基于 Hadoop 的负载均衡技术。 (4) 以 Hadoop 为基础架构,采用 Java 开发语言,设计并实现 Hadoop 平台 的教育资源搜索系统。经过详细的系统测试,系统在实现效率、搜索的准确率 和可扩展性等方面较有代表性的垂直搜索平台先进。 关键词:垂直搜索引擎;Hadoop;网页信息抽取;抽取规则;索引库 江苏大学硕士研究生毕业论文 III Abstract The WWW has been a tremendous impact on the way of human beings lives, works, and studies, even entertainments. Especially in education realm, educators, students and their parents can get more and more references and education resources with the help of internet. However, theres still an unresolved a problem, for lacking of suitable standards and filtering methods, actually, it will spend more time to get the resource you really want .To solve this issue, we need to do some research and design a better platform to extract interesting information conveniently, accurately and efficiently. On the basis of comparing the frameworks and designing methods adopted by current Searching Engines, and learning from other applications used in vertical searching platform architecture and design method, by means of the hierarchical structure and the focused-spider creeping technology, this dissertation presents a new model of Multi-tier Distributed Vertical Searching Platform(MDVSP) for Educational Realm based on Hadoop, which is a mixed B/S framework. The thesis also amply demonstrates the key techniques of improving the operating efficiency of the MDVSP. Moreover, based on the new mixed framework of MDVSP, the dissertation succeeds in designing the Prototype System of MDVSP. The dissertation mainly concerns the following four aspects: 1. This dissertation presents the basic principles and framework of the Hadoop platform, and introduces the two core components of Hadoop HDFS and Map/Reduce algorithm. To manage data on the Hadoop platform better, the MDVSP chooses Hbase as database storage, which is a major component of Hadoop. This thesis also uses several sections to describe the Hbases date structure model design and the query improvements. 2. MDVSP software requirement analysis is based on sampling survey results and education experiences. MDVSP is chosen based on the analysis result. The advantage of this model is to process the business and Web separately, and it can parallel compute Map/Reduce. Which provide MDVSP better condensability, expendability, maintainability and higher security. 3. The key technologies that MDVSP has been used includes focused-spider creeping technology, structured web information extraction technology, remote 江苏大学硕士研究生毕业论文 IV procedure call(RPC) technology, Map/Reduce technology based on Hadoop and load balancing technology based on Hadoop. 4. With the key technologies researching, and detailed analyzing the requirement of the MDVSP, this dissertation accomplishes the design of the Prototype System of M-Disem, which uses Java programming language and structures on Hadoop platform. After a detailed system testing and compared with other Vertical Searching Systems, the MDVSP achieves high efficiency, accuracy searching and good scalability. Keywords Vertical; Searching Engine; Hadoop; Web Information Extraction; Extraction rules; Index Database 江苏大学硕士研究生毕业论文 V 目 录 第一章第一章绪绪 论论.1 1 1.1 课题研究背景及意义.1 1.1.1 背景及意义.1 1.1.2 目前现状.1 1.2 教育资源搜索存在的问题.2 1.3 本文主要工作.3 1.4 本文的组织结构.3 第二章第二章 HADOOP 平台架构平台架构 .5 5 2.1 Hadoop 的产生.5 2.2 基于 Hadoop 分布式架构的优势 .5 2.3 Hadoop 组件.6 2.4 本章小结.6 第三章第三章 MDVSP 平台需求分析平台需求分析 .8 8 3.1 教育资源垂直搜索的用户群.8 3.2 MDVSP 搜索资源类型需求 .9 3.3 MDVSP 搜索平台功能需求 .10 3.4 本章小结.11 第四章第四章基于基于 HADOOP 平台的平台的 MDVSP 模型模型.1212 4.1 分布式文件系统 HDFS 与 Map/Reduce 技术 .12 4.1.1 分布式文件系统 HDFS.13 4.1.2 Map/Reduce 技术.16 4.2 基于 Hadoop 的 MDVSP 平台的多层分布式架构 .19 4.2.1 系统体系结构.19 4.2.2 MDVSP 平台数据处理模型整体框架.20 4.2.3 MDVSP 平台数据在 HDFS 中存放结构.21 4.3 MDVSP 通信数据模型设计 .21 4.3.1 数据模型分析.21 4.3.2 数据模型设计.22 4.3.3 主表设计.23 4.4 本章小结.25 第五章第五章基于基于 HADOOP 平台的平台的 MDVSP 的关键技术的关键技术.2727 5.1 MDVSP 中聚焦蜘蛛 .27 5.1.1 工作原理.27 5.1.2 关键技术.28 5.2 Map/Reduce 设计 .31 5.2.1 Map/Reduce 逻辑结构设计.32 5.2.2 Map/Reduce 数据流设计.32 5.2.3 容错和可靠性设计.33 5.2.4 任务粒度和 backup 任务性能优化设计.34 5.3 远程调用设计.35 5.3.1 MDVSP 采用的 RPC 远程调用设计思想.35 5.3.2 MDVSP-RPC 数据表示设计.36 5.3.3 MDVSP-RPC 服务器端的实现.38 5.3.4 MDVSP-RPC 客户端的实现.38 5.4 Hadoop 的 HA 设计 .39 5.4.1 Health Check 设计.40 5.4.2 Hadoop Failover 流程设计.41 江苏大学硕士研究生毕业论文 VI 5.5 本章小结.42 第六章第六章 MDVSP 平台的实现平台的实现.4343 6.1 方案部署.43 6.1.1 硬件配置.44 6.1.2 SSH 公钥认证配置.44 6.1.3 Hadoop 平台搭建.44 6.1.4 Hbase 平台搭建.45 6.1.5 与垂直搜索引擎结合.46 6.2 开发平台及其开发工具.47 6.2.1 操作系统.47 6.2.2 硬件平台.47 6.2.3 开发工具.47 6.3 MDVSP 系统的实现 .48 6.3.1 聚焦蜘蛛模块的实现.48 6.3.2 教育资源搜索结果.49 6.3.3 教育资源信息自动抽取的实现.51 6.3.4 LUCENE倒排文件索引结构.56 6.3.5 教育资源信息的存储实现 .58 6.4 用户查询功能的实现 .58 6.4.1 用户查询主要函数实现 .58 6.4.2 教育资源信息查询 .60 6.5 运行结果与对比.62 6.6 本章小结.64 第七章第七章 总结与展望总结与展望.6565 7.1 总结.65 7.2 展望.65 参考文献参考文献.6767 致致 谢谢.6969 江苏大学硕士研究生毕业论文 1 第一章绪论 1.11.1 课题研究背景及意义课题研究背景及意义 .1 背景及意义背景及意义 随着网络与通信技术的迅速发展,Web信息爆炸性的增长,互联网已经成为一个 巨大的海量信息空间。如何迅速、准确、方便的从如此庞大的信息库获取自己需要 的信息,是互联网用户面临的一个重要问题。 搜索引擎的出现,整合了众多网站信息,极快的查询起到了信息导航的作用, 信息的价值得到众多商家的普遍认可,成为互联网中最有价值的领域。大家熟知的 搜索引擎Google、百度、雅虎等都是搜索引擎的杰出代表,为互联网的发展做出了 重要的贡献。我国互联网络信息中心CNNIC于2006年1月发布的第17次中国互联网 络发展统计报告显示:搜索引擎以65.7%的使用率成为第二大网络服务1。 互联网的信息量呈爆炸趋势增长,几年前全球式搜索引擎收录的网页量只有几 千万页,而现在已经达到几十亿页,数量增加带来的是搜索服务的品质下降,查询 的结果集就是海量的,经常是几十万笔的资料,结果里存在大量的重复信息和垃圾 信息,用户越来越难迅速找到符合的信息,现在经常使用搜索引擎可以感觉到很难 在短时间内准确的筛选出需要的内容。因此,如何对通用搜索引擎技术进行改进, 使查询的结果更加贴近用户的要求,成为搜索引擎行业近期的研究热点。 对于基础教育领域的广大教师、学生、家长以及其他教育工作者,互联网已经 成为他们获取基础教育资源和信息的重要工具,网上大量的试卷、教学研究论文、 课件、课外阅读材料、招生信息等基础教育资源信息可以使教师提高自己的工作效 率和水平,使学生扩大自己的知识面,使家长掌握最新的教育信息。那么对教育资 源用户来讲,目前的信息服务能否满足他们的需求?他们更倾向于什么样的信息服 务形式? .2 目前现状目前现状 1.获取基础教育资源最常用的方式是搜索引擎2 用户获取基础教育资源的较经常使用的方式为搜索引擎、学科专题网站、基础 教育综合网站。其中使用最多的是搜索引擎。 2.目前的搜索引擎还不能完全满足用户需求2 江苏大学硕士研究生毕业论文 2 综合性通用搜索引擎在一定程度上方便了用户查找利用网上信息,但由于它面 向的是大众,强调通用性,搜索结果中有很多杂乱信息,信息的准确度较低,不能 完全满足基础教育用户的需求。 3.倾向简单的检索方式2 大多数人通常使用关键词查询,一部分人使用诸如“+(and) ” 、 “-(or) ”等 检索技巧,使用高级检索的人很少,用合适的关键词检索是被所有用户认为是比较 容易的,所有用户都倾向于简单易用的检索方式。 4.通常输入的检索内容包含不同层次的信息 大多数用户输入单个或多个关键词,而多个关键词的查询往往包含有两类信息 主题描述信息和资源的类别限制信息。比如说,一位教师输入“阿 Q 正传 教案” ,关键词“阿 Q 正传”是主题信息,关键词“教案” ,是类别限制信息,再如 一个学生查找“八年级(上)生物学试题”为学段(年级) 、学科和资源类型的组合。 最常见的主题描述信息是学科内知识点、语文课文标题等,常见的类别限制信息是 学科、学段(或年级) 、资源类型。 总体上,用户使用通用搜索引擎获取基础教育资源存在的问题可归为以下两个 方面: 1. 教育资源的关键词不能被搜索引擎正确识别,导致检索结果的信息杂乱与过 量,即使搜索出来也与可能是与教育无关的资源信息。 2. 由于在通过关键词检索方式中,关键词与类别词的混杂使用导致信息准确度 较低。往往要搜索的信息排序靠后或漏检。 1.21.2 教育资源搜索存在的问题教育资源搜索存在的问题 根据以上分析,用户获取网上教育资源主要存在以下问题: 1、信息过量。网上资源内容广泛,通用搜索引擎返回的大量信息过多过杂,专 业性不强.使用户淹没在海量信息里,筛选信息需要耗费大量的精力。 2、信息准确度低。由于通用搜索引擎强调通用性,检索范围广,对资源没有 筛选分类,资源索引库十分庞杂,很难满足特定用户群的特定需求。 3、信息服务缺乏针对性,缺少用户交互。通用搜索引擎检索结果完全依赖于 用户的关键词,即对于不同的用户,同一个关键词返回的结果相同,没有与用户联 系起来,难以满足用户的个性化需求。 江苏大学硕士研究生毕业论文 3 1.31.3 本文本文主要工作主要工作 本人通过对现有教育领域搜索引擎的技术分析,结合问卷抽样调查反馈,对用 户的需求进行鉴别、综合和建模,清除用户需求的模糊性、歧义性和不一致性,定 义了本系统的功能和性能需求,在对 Hadoop 平台的框架研究基础之上,提出了基 于 Hadoop 平台的 MDVSP(Multi-tier Distributed Vertical Searching Platform)模型,详细 阐述了 MDVSP 系统在设计和实现过程中应用到的一些关键技术,并基于该模型实 现了 MDVSP 原型。 本文的工作包括: (1) 提出了基于 Hadoop 平台的教育资源垂直搜索系统(MDVSP)模型。包括切合 本系统的分布式的集群整体框架和 HDFS 存放结构。 (2) 阐述了 MDVSP 中应用的关键技术,包括聚焦蜘蛛的原理和爬行算法。 (3) 设计了 Map/Reduce 的逻辑结构和数据流。 (4) 设计和封装了 RPC 远程调用协议。给出了设计思想和数据表示设计。 (5) 设计了 MDVSP 的 HA。包括框架、原理和详细实现。 (6) 以 JAVA 和 PERL 为工具实现了 MDVSP 系统原型。 最后对全文的内容进行了总结,分析了系统现有的不足,并提出了进一步完善 的目标和基本方法。 1.41.4 本文的组织结构本文的组织结构 本论文共分为七章,各章内容具体安排如下: 第一章 绪论。主要论述课题的研究背景,垂直搜索引擎发展现状、存在的问题。 第二章 Hadoop平台架构。介绍Hadoop的概念和Hadoop的优点,Hadoop平台架构。 第三章 MDVSP平台需求分析。给出MDVSP平台的使用用户群,并基于抽样调查和 多年的教育经验,对用户的需求进行鉴别、清除用户需求的模糊性、歧义性和不一 致性,将原始问题的理解与软件开发经验结合,深入描述软件的功能和性能需求。 第四章 基于Hadoop平台的MDVSP模型。叙述基于Hadoop平台的教育资源垂直搜 索模型(MDVSP),并阐述这种架构的优点,提出使用这种架构可以解决目前现有搜 索平台在教育领域搜索中存在的一些问题。对MDVSP系统进行了逻辑结构设计和物 理结构设计。 江苏大学硕士研究生毕业论文 4 第五章 基于Hadoop平台的MDVSP的关键技术。阐述基于Hadoop平台模型下构建 教育资源垂直搜索系统(MDVSP)中用到的关键技术。主要包括聚焦蜘蛛的爬行技术、 基于Hadoop平台下Map/Reduce的逻辑结构和数据流设计和系统采用的MDVSP-RPC 远程调用的封装技术。 第六章 MDVSP平台的实现。以JAVA和PERL为开发工具,通过Hadoop平台框架实 现基于上述架构模型的MDVSP系统的各层设计,并列出相关功能的关键性JAVA和 PERL代码。通过试验,并与有代表性的垂直搜索平台的搜索结果进行性能对比,分 析MDVSP平台在教育资源领域的搜索效率和准确度都有所提高。 第七章 总结与展望。对本文的工作进行总结,并从系统功能和理论研究两个 方面对以后的工作进行规划和展望。 江苏大学硕士研究生毕业论文 5 第二章Hadoop 平台架构 2.12.1 HadoopHadoop 的产生的产生 自从 Google 工程师 Jeffrey Dean 提出 Map Reduce 编程思想,MapReduce 便在 Google 的各种 Web 应用中释放着魔力。然而,也许出于技术保密的目的, Google 公司并没有透露其 MapReduce 的实现细节。幸运的是,Doug Cutting 开发 Hadoop 作为 MapReduce5-6开源实现,让 MapReduce 这么平易近人地走到 了我们面前。 2006 年 1 月, Doug Cutting 因其在开源项目 Nutch 和 Lucene 的卓越表现受邀加入 Yahoo 公司,专职在 Hadoop 项目上进行开发。现在,Doug Cutting 已经加盟 Cloudera(一家从事 Hadoop 产品商业化及技术支持的公司) 。作为 Google MapReduce 技术的开源实现,Hadoop 理所当然地借鉴了 Google 的 Google File System 文件系统、MapReduce 并行算法以及 BigTable。因此, Hadoop 也是一个能够分布式处理大规模海量数据的软件框架,这一点不足为奇。 Hadoop 假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出 现故障时可以对失败的节点重新分布处理。Hadoop 的高效性在 MapReduce 的思 想下, Hadoop 是并行工作的,以加快任务处理速度。Hadoop 的可扩展性-依 赖于部署 Hadoop 软件框架计算集群的规模,Hadoop 的运算是可扩展的,具有处 理 PB 级数据的能力。 2.22.2 基于基于 HadoopHadoop 分布式架构分布式架构的优势的优势 没有不好的工具,只用不适用的工具。本系统采用Hadoop分布式架构的目 的有以下几个方面: 1. 可扩展:不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根 本。 2. 经济:框架可以运行在任何普通的PC上。 3. 可靠:分布式文件系统的备份恢复机制以及MapReduce的任务监控保证 了分布式处理的可靠性。 4. 高效:分布式文件系统的高效数据交互实现以及MapReduce结合 LocalData处理的模式,为高效处理海量的信息作了基础准备。 江苏大学硕士研究生毕业论文 6 2.32.3 HadoopHadoop 组件组件 Hadoop是一个分布式计算基础架构这把大伞下的相关子项目的集合,其 中最出名的是MapReduce及其分布式文件系统HDFS,还有其他子项目提供配套服 务.如下: 表2.1 Hadoop组件 PigChukwaHiveHBase MapReduceHDFSZoo Keeper CoreAvro Core: 一系列分布式文件系统和通用 I/O 的组件和接口(序列化、Java RPC 和持久化数据结构。 Avro: 一种提供高效、跨语言 RPC(Remote Procedure Call Protocol)的数据序 列系统,持久化数据存储。 MapReduce: 分布式数据处理模式和执行环境,运行于大型商用机集群。 HDFS:(Hadoop Distributed File System)分布式文件系统,运行于大型商用 机集群。 Pig: 一种数据流语言和运行环境,用以检索非常大的数据集。Pig 运行在 MapReduce 和 HDFS 的集群上。 HBase: 一个分布式的、列存储数据库。HBase 使用 HDFS 作为底层存储, 同时支持 MapReduce 的批量式计算和点查询(随机读取)。 ZooKeeper: 一个分布式的、高可用性的协调服务。ZooKeeper 提供分布式 锁之类的基本服务用于构建分布式应用。 Hive: 分布式数据仓库。Hive 管理 HDFS 中存储的数据,并提供基于 SQL 的查询语言(由运行时引擎翻译成 MapReduce 作业)用以查询数据。 Chukwa: 分布式数据收集和分析系统。Chukwa7-9运行 HDFS 中存储数据的 收集器,它使用 MapReduce 来生成报告。 2.2. 本章小结本章小结 本章重点介绍了Hadoop技术背景和基于HDFS分布式架构的优点,也指出了 江苏大学硕士研究生毕业论文 7 目前Hadoop版本的HDFS在功能上和性能上的一些不足之处,如名称节点的单点 故障隐患。尽管HDFS目前仍然不尽完善,但是这些缺陷和不足之处不会影响到 具体项目的成功实施。为了更好的应用Hadoop平台框架,对MDVSP系统中设计到 的组件进行剖析。 江苏大学硕士研究生毕业论文 8 第三章MDVSP 平台需求分析 当我要查找高三物理试卷模拟考试,为什么百度,谷歌都出现了培训中 心的广告?想要查找小学三年级上学期课件,搜索结果出现了大量的招生广 告越来越多的教育工作者、学生发现百度和谷歌搜索平台,不容易使用了, 想要获得自己想要的信息,需要大量的时间来筛选。今日,中国科学院研究生 院管理学院副院长吕本富博士对此现象也给出了这样的结论:”从信息的匹配 度上看,两家搜索引擎都不能满足用户完全需要”。 造成这种现象的原因是什么呢?用一句话概括就是“
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论