(计算机应用技术专业论文)感动hadoop平台的教育资源垂直搜索系统的设计与实现.pdf_第1页
(计算机应用技术专业论文)感动hadoop平台的教育资源垂直搜索系统的设计与实现.pdf_第2页
(计算机应用技术专业论文)感动hadoop平台的教育资源垂直搜索系统的设计与实现.pdf_第3页
(计算机应用技术专业论文)感动hadoop平台的教育资源垂直搜索系统的设计与实现.pdf_第4页
(计算机应用技术专业论文)感动hadoop平台的教育资源垂直搜索系统的设计与实现.pdf_第5页
已阅读5页,还剩76页未读 继续免费阅读

(计算机应用技术专业论文)感动hadoop平台的教育资源垂直搜索系统的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

学位论文版权使用授权书 i i i i ll , ii ii i ii l l li ii ii il 18 9 4 3 7 4 江苏大学、中国科学技术信息研究所、国家图书馆、中国学术期 刊( 光盘版) 电子杂志社有权保留本人所送交学位论文的复印件和电 子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文 档的内容和纸质论文的内容相一致,允许论文被查阅手 l 借阅,同时授 权中国科学技术信息研究所将本论文编入中国学位论之伞文数据库 并向社会提供查询,授权中国学术期刊( 光盘版) 电子杂志社将本论 文编入中国优秀博硕士学位论文全文数据库并向社会提供查询。 论文的公布( 包括刊登) 授权江苏大学研究生处办理。 本学位论文属于不保密。 学位论文作者签名:孔:均 沙,年6 月,p 日 指导教师签名:砒 知f 年易只f d 日 分类号: u dc : 学位论文 密级: 编号: 基于h a d o o p 平台的教育资源垂直搜索系统的设计与实现 i m p l e m e n t a t i o no fe d u c a t i o nr e s o u r c ev e r t i c a ls e a r c h i n g s y s t e mb a s e do nh a d o o p 学科专业:过篡扭应旦撞垄 研究生:孔擅 指导老师:堂建踢 计算机科学与通信工程学院 201 1 年6 月 江苏大学工程硕士论文 摘要 互联网的出现改变了我们的生活、工作、学习乃至娱乐的方式。网上丰富的 基础教育资源为广大基础教育工作者、学生以及学生家长提供了充足的参考资料 和教育信息,然而由于缺乏行之有效的整合标准和手段,目前这些资源的分布呈 现高度分散状态,内容庞杂无序,结构化程度低,用户往往难以快速准确地获取 到自己需要的信息。所以我们必须研究和设计出针对教育资源搜索的网络平台, 以提高用户获取教育资源信息的速度和准确度。 本文通过对现有的互联网搜索平台的分析,借鉴其他应用领域的垂直搜索平 台所采用的架构和设计方法,通过使用h a d o o p 平台的分层分布的架构和聚焦蜘 蛛的爬行技术,提出基于h a d o o p 平台的b s 多层分布式架构系统模型,给出提 高搜索运行效率的若干关键技术,并基于该架构的设计实现了系统。本文的主要 工作包括: ( 1 ) 通过对h a d o o p 平台的基本原理和架构以及h a d o o p 平台的两个核心组件 h d f s 与m a p r e d u c e 的分析,选择h b a s e 对系统的数据进行管理,并对可视化 系统的h b a s e 数据模型的设计以及条件查询的改进进行阐述。 ( 2 ) 基于抽样调查和教育经验,进行m d v s p 的软件需求分析,设计基于 h a d o o p 平台的教育资源垂直搜索( m d v s p ) 架构模型。该架构模型把业务处理服 务器与w e b 服务器分开,采用并行计算提高业务处理能力,使得基于该架构模 型下的系统具有良好的可伸缩性、可扩展性、可维护性和更高的安全性。 ( 3 ) 研究基于h a d o o p 平台的教育资源搜索系统所采用的关键技术,包括聚 焦蜘蛛的爬行技术、网页信息结构化提取技术、远程过程调用( r p c ) 技术、基于 h a d o o p 的m a p r e d u c e 技术和基于h a d o o p 的负载均衡技术。 ( 4 ) 以h a d o o p 为基础架构,采用j a v a 开发语言,设计并实现h a d o o p 平台 的教育资源搜索系统。经过详细的系统测试,系统在实现效率、搜索的准确率和 可扩展性等方面较有代表性的垂直搜索平台先进。 关键词:垂直搜索引擎;h a d o o p ;网页信息抽取;抽取规则;索引库 江苏大学工程硕士论文 江苏大学工程硕士论文 a b s t r a c t t h ew w wh a sb e e nat r e m e n d o u si m p a c to nt h ew a yo fh u m a nb e i n g sl i v e s , w o r k s ,a n ds t u d i e s ,e v e ne n t e r t a i n m e n t s e s p e c i a l l yi ne d u c a t i o nr e a l m ,e d u c a t o r s , s t u d e n t sa n dt h e i rp a r e n t sc a ng e tm o r ea n dm o r er e f e r e n c e sa n de d u c a t i o nr e s o u r c e s w i t ht h eh e l po fi n t e m e t h o w e v e r , t h e r e ss t i l la nu n r e s o l v e dap r o b l e m ,f o rl a c k i n g o fs u i t a b l es t a n d a r d sa n df i l t e r i n gm e t h o d s ,a c t u a l l y ,i tw i l ls p e n dm o r et i m et og e tt h e r e s o u r c ey o ur e a l l yw a n t t os o l v et h i si s s u e ,w en e e dt od os o m er e s e a r c ha n dd e s i g n ab e t t e rp l a t f o r mt oe x t r a c ti n t e r e s t i n gi n f o r m a t i o nc o n v e n i e n t l y , a c c u r a t e l ya n d e f f i c i e n t l y o nt h eb a s i so fc o m p a r i n gt h ef r a m e w o r k sa n dd e s i g n i n gm e t h o d sa d o p t e db y c u r r e n ts e a r c h i n ge n g i n e s ,a n dl e a r n i n gf r o mo t h e ra p p l i c a t i o n su s e di nv e r t i c a l s e a r c h i n gp l a t f o r ma r c h i t e c t u r ea n dd e s i g nm e t h o d ,b ym e a n so ft h eh i e r a r c h i c a l s t r u c t u r ea n dt h ef o c u s e d - s p i d e rc r e e p i n gt e c h n o l o g y ,t h i sd i s s e r t a t i o np r e s e n t san e w m o d e lo fm u l t i - t i e rd i s t r i b u t e dv e r t i c a ls e a r c h i n gp l a t f o r m ( m d v s p ) f o re d u c a t i o n a l r e a l mb a s e do nh a d o o p ,w h i c hi sam i x e db sf r a m e w o r k t h et h e s i sa l s oa m p l y d e m o n s t r a t e st h ek e yt e c h n i q u e so fi m p r o v i n gt h eo p e r a t i n ge f f i c i e n c yo ft h em d v s p m o r e o v e r , b a s e do nt h en e wm i x e df r a m e w o r ko fm d v s p ,t h ed i s s e r t a t i o ns u c c e e d s i nd e s i g n i n gt h ep r o t o t y p es y s t e mo fm d v s p t h ed i s s e r t a t i o nm a i n l yc o n c e r n st h e f o l l o w i n gf o u ra s p e c t s : 1 t h i sd i s s e r t a t i o np r e s e n t st h eb a s i cp r i n c i p l e sa n df r a m e w o r ko ft h eh a d o o p p l a t f o r m ,a n di n t r o d u c e st h et w oc o r ec o m p o n e n t so fh a d o o ph d f sa n dm a p r e d u c e a l g o r i t h m t om a n a g ed a t ao nt h eh a d o o pp l a t f o r mb e t t e r ,t h em d v s pc h o o s e s h b a s ea sd a t a b a s es t o r a g e ,w h i c hi sam a j o rc o m p o n e n to fh a d o o p t h i st h e s i sa l s o u s e ss e v e r a ls e c t i o n st od e s c r i b et h eh b a s e sd a t es t r u c t u r em o d e ld e s i g na n dt h e q u e r yi m p r o v e m e n t s 2 m d v s ps o f t w a r er e q u i r e m e n ta n a l y s i si sb a s e do ns a m p l i n gs u r v e yr e s u l t sa n d e d u c a t i o ne x p e r i e n c e s m d v s pi sc h o s e nb a s e do nt h ea n a l y s i sr e s u l t t h ea d v a n t a g e o ft h i sm o d e li st op r o c e s st h eb u s i n e s sa n dw e bs e p a r a t e l y , a n di tc a np a r a l l e l c o m p u t em a p r e d u c e w h i c hp r o v i d em d v s pb e t t e rc o n d e n s a b i l i t y , e x p e n d a b i l i t y , m a i n t a i n a b i l i t ya n dh i g h e rs e c u r i t y i i i 江苏大学工程硕士论文 3 t h ek e yt e c h n o l o g i e st h a tm d v s ph a sb e e nu s e di n c l u d e sf o c u s e d s p i d e r c r e e p i n gt e c h n o l o g y ,s t r u c t u r e dw e bi n f o r m a t i o n e x t r a c t i o nt e c h n o l o g y , r e m o t e p r o c e d u r ec a l l ( r p c ) t e c h n o l o g y , m a p r e d u c et e c h n o l o g yb a s e do nh a d o o pa n dl o a d b a l a n c i n gt e c h n o l o g yb a s e do nh a d o o p 4 w i t ht h ek e yt e c h n o l o g i e sr e s e a r c h i n g ,a n dd e t a i l e da n a l y z i n gt h er e q u i r e m e n t o ft h em d v s p ,t h i sd i s s e r t a t i o na c c o m p l i s h e st h ed e s i g no ft h ep r o t o t y p es y s t e mo f m d i s e m ,w h i c hu s e sj a v ap r o g r a m m i n gl a n g u a g ea n ds t r u c t u r e so nh a d o o pp l a t f o r m a f t e rad e t a i l e ds y s t e mt e s t i n ga n dc o m p a r e dw i t ho t h e rv e r t i c a ls e a r c h i n gs y s t e m s , t h em d v s pa c h i e v e sh i g he f f i c i e n c y ,a c c u r a c ys e a r c h i n ga n dg o o ds c a l a b i l i t y k e y w o r d sv e r t i c a l ;s e a r c h i n ge n g i n e ;h a d o o p ;w e bi n f o r m a t i o ne x t r a c t i o n ; e x t r a c t i o nr u l e s ;i n d e xd a t a b a s e 江苏大学硕士研究生毕业论文 目录 第一章绪论1 1 1 课题研究背景及意义1 1 1 1 背景及意义l 1 1 2 目前现状1 1 2 教育资源搜索存在的问题2 1 3 本文主要工作3 1 4 本文的组织结构3 第二章h a d o o p 平台架构5 2 1h a d o o p 的产生5 2 2 基于h a d o o p 分布式架构的优势5 2 3h a d o o p 组件6 2 4 本章小结6 第三章m d v s p 平台需求分析8 3 1 教育资源垂直搜索的用户群8 3 2m d v s p 搜索资源类型需求9 3 3m d v s p 搜索平台功能需求1 0 3 4 本章小结1 1 第四章基于t t a d o o p 平台的m d v s p 模型1 2 4 1 4 2 4 3 4 4 第五章 5 1 5 2 5 3 江苏大学硕士研究生毕业论文 5 3 1m d v s p 采用的i 冲c 远程调用设计思想3 5 5 3 2m d v s p r p c 数据表示设计3 6 5 3 3m d v s p r p c 服务器端的实现。3 8 5 3 4m d v s p r p c 客户端的实现3 8 5 4h a d o o p 的h a 设计3 9 5 4 1h e a l t hc h e c k 设计。4 0 5 4 2h a d o o pf a i l o v e r 流程设计4 l 5 5 本章小结。4 2 第六章m d v s p 平台的实现4 3 6 1 方案部署4 3 6 1 1 硬件配置4 3 6 1 2s s h 公钥认证配置4 4 6 1 3h a d o o p 平台搭建4 4 4 5 4 6 4 7 4 7 4 7 4 7 4 8 4 8 4 9 51 5 6 5 8 5 8 5 8 6 0 6 2 6 4 6 5 6 5 6 5 6 7 6 9 江苏大学工程硕士论文 1 1 课题研究背景及意义 第一章绪论弟一早殖比 1 1 1 背景及意义 随着网络与通信技术的迅速发展,w e b 信息爆炸性的增长,互联网已经成为一个 巨大的海量信息空间。如何迅速、准确、方便的从如此庞大的信息库获取自己需要的 信息,是互联网用户面临的一个重要问题。 搜索引擎的出现,整合了众多网站信息,极快的查询起到了信息导航的作用,信 息的价值得到众多商家的普遍认可,成为互联网中最有价值的领域。大家熟知的搜索 引擎g o o g l e 、百度、雅虎等都是搜索引擎的杰出代表,为互联网的发展做出了重要的 贡献。我国互联网络信息中一o c n n i c 于2 0 0 6 年1 月发布的第1 7 次中国互联网络发展统 计报告显示:搜索引擎以6 5 7 的使用率成为第二大网络服务n 1 。 互联网的信息量呈爆炸趋势增长,几年前全球式搜索引擎收录的网页量只有几千 万页,而现在已经达到几十亿页,数量增加带来的是搜索服务的品质下降,查询的结 果集就是海量的,经常是几十万笔的资料,结果里存在大量的重复信息和垃圾信息, 用户越来越难迅速找到符合的信息,现在经常使用搜索引擎可以感觉到很难在短时间 内准确的筛选出需要的内容。因此,如何对通用搜索引擎技术进行改进,使查询的结 果更加贴近用户的要求,成为搜索引擎行业近期的研究热点。 对于基础教育领域的广大教师、学生、家长以及其他教育工作者,互联网已经成 为他们获取基础教育资源和信息的重要工具,网上大量的试卷、教学研究论文、课件、 课外阅读材料、招生信息等基础教育资源信息可以使教师提高自己的工作效率和水 平,使学生扩大自己的知识面,使家长掌握最新的教育信息。那么对教育资源用户来 讲,目前的信息服务能否满足他们的需求? 他们更倾向于什么样的信息服务形式? 1 1 2 目前现状 1 获取基础教育资源最常用的方式是搜索引擎乜1 用户获取基础教育资源的较经常使用的方式为搜索引擎、学科专题网站、基础 教育综合网站。其中使用最多的是搜索引擎。 2 目前的搜索引擎还不能完全满足用户需求乜1 综合性通用搜索引擎在一定程度上方便了用户查找利用网上信息,但由于它面 江苏大学工程硕士论文 向的是大众,强调通用性,搜索结果中有很多杂乱信息,信息的准确度较低,不能 完全满足基础教育用户的需求。 3 倾向简单的检索方式雎3 大多数人通常使用关键词查询,一部分人使用诸如“+ ( a n d ) 、“一( o r ) ”等检 索技巧,使用高级检索的人很少,用合适的关键词检索是被所有用户认为是比较容 易的,所有用户都倾向于简单易用的检索方式。 4 通常输入的检索内容包含不同层次的信息 大多数用户输入单个或多个关键词,而多个关键词的查询往往包含有两类信息 一一主题描述信息和资源的类别限制信息。比如说,一位教师输入“阿q 正传教 江苏大学工程硕士论文 1 3 本文主要工作 本人通过对现有教育领域搜索引擎的技术分析,结合问卷抽样调查反馈,对用户 的需求进行鉴别、综合和建模,清除用户需求的模糊性、歧义性和不一致性,定义了 本系统的功能和性能需求,在对h a d o o p 平台的框架研究基础之上,提出了基于 h a d o o p 平台的m d v s p ( m u l t i - t i e rd i s t r i b u t e dv e r t i c a ls e a r c h i n gp l a t f o r m ) 模型,详细阐 述了m d v s p 系统在设计和实现过程中应用到的一些关键技术,并基于该模型实现了 m d v s p 原型。 本文的工作包括: ( 1 ) 提出了基于h a d o o p 平台的教育资源垂直搜索系统( m d v s p ) 模型。包括切合 本系统的分布式的集群整体框架和h d f s 存放结构。 ( 2 ) 阐述了m d v s p 中应用的关键技术,包括聚焦蜘蛛的原理和爬行算法。 ( 3 ) 设计了m a p r e d u c e 的逻辑结构和数据流。 ( 4 ) 设计和封装了r p c 远程调用协议。给出了设计思想和数据表示设计。 ( 5 ) 设计了m d v s p 的h a 。包括框架、原理和详细实现。 ( 6 ) 以j a v a 和p e r l 为工具实现了m d v s p 系统原型。 最后对全文的内容进行了总结,分析了系统现有的不足,并提出了进一步完善的 目标和基本方法。 1 4 本文的组织结构 本论文共分为七章,各章内容具体安排如下: 第一章绪论。主要论述课题的研究背景,垂直搜索引擎发展现状、存在的问题。 第二章h a d o o p 平台架构。介绍h a d o o p 的概念和h a d o o p 的优点,h a d o o p 平台架构。 第三章m d v s p 平台需求分析。给出m d v s p 平台的使用用户群,并基于抽样调查和 多年的教育经验,对用户的需求进行鉴别、清除用户需求的模糊性、歧义性和不一致 性,将原始问题的理解与软件开发经验结合,深入描述软件的功能和性能需求。 第四章基于h a d o o p 平台的m d v s p 模型。叙述基于h a d o o p 平台的教育资源垂直搜 索模型( m d v s p ) ,并阐述这种架构的优点,提出使用这种架构可以解决目前现有搜索 平台在教育领域搜索中存在的一些问题。对m d v s p 系统进行了逻辑结构设计和物理 结构设计。 第五章基于h a d o o p 平台的m d v s p 的关键技术。阐述基于h a d o o p 平台模型下构建 教育资源垂直搜索系统( m d v s p ) 中用到的关键技术。主要包括聚焦蜘蛛的爬行技术、 江苏大学工程硕士论文 基于h a d o o p 平台下m a p r e d u c e 的逻辑结构和数据流设计和系统采用的m d v s p r p c 远程调用的封装技术。 第六章m d v s p 平台的实现。以j a v a 和p e r l 为开发工具,通过h a d o o p 平台框架实 现基于上述架构模型的m d v s p 系统的各层设计,并列出相关功能的关键性j a v a 和 p e r l 代码。通过试验,并与有代表性的垂直搜索平台的搜索结果进行性能对比,分 析m d v s p 平台在教育资源领域的搜索效率和准确度都有所提高。 第七章总结与展望。对本文的工作进行总结,并从系统功能和理论研究两个 方面对以后的工作进行规划和展望。 4 江苏大学工程硕士论文 第二章h a d o o p 平台架构 2 1h a d o o p 的产生 自从g o o s e 工程师j e f f r e yd e a i l 提出m 印r e d u c e 编程思想,m a p r e d u c e 便在g o o g l e 的各种w e b 应用中释放着魔力。然而,也许出于技术保密的目的, g o o g l e 公司并没有透露其m a p r e d u c e 的实现细节。幸运的是,d o u gc u t t i n g 开 发h a d o o p 作为m a p r e d u c e 晦刊开源实现,让m a p r e d u c e 这么平易近人地走到了我 们面前。2 0 0 6 年1 月,d o u gc u t t i n g 因其在开源项目n u t c h 和l u c e n e 的卓 越表现受邀加入y a h o o 公司,专职在h a d o o p 项目上进行开发。现在,d o u gc u t t i n g 已经加盟c l o u d e r a ( 一家从事h a d o o p 产品商业化及技术支持的公司) 。作为 g o o g l em a p r e d u c e 技术的开源实现,h a d o o p 理所当然地借鉴了g o o g l e 的g o o g l e f i l es y s t e m 文件系统、m a p r e d u c e 并行算法以及b i g t a b l e 。因此,h a d o o p 也 是一个能够分布式处理大规模海量数据的软件框架,这一点不足为奇。h a d o o p 假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现故障时 可以对失败的节点重新分布处理。h a d o o p 的高效性在m a p r e d u c e 的思想下, h a d o o p 是并行工作的,以加快任务处理速度。h a d o o p 的可扩展性一依赖于部署 n a d o o p 软件框架计算集群的规模,h a d o o p 的运算是可扩展的,具有处理p b 级数 据的能力。 2 2 基于n a d o o p 分布式架构的优势 没有不好的工具,只用不适用的工具。本系统采用h a d o o p 分布式架构的目的 有以下几个方面: 1 可扩展:不论是存储的可扩展还是计算的可扩展都是h a d o o p 的设计根 本。 2 经济:框架可以运行在任何普通的p c 上。 3 可靠:分布式文件系统的备份恢复机制以及m a p r e d u c e 的任务监控保证 了分布式处理的可靠性。 4 高效:分布式文件系统的高效数据交互实现以及m a p r e d u c e 结合 l o c a l o a t a 处理的模式,为高效处理海量的信息作了基础准备。 江苏大学工程硕士论文 2 3h a d o o p 组件 h a d o o p 是一个分布式计算基础架构这把”大伞”下的相关子项目的集合,其中 最出名的是m a p r e d u c e 及其分布式文件系统h d f s ,还有其他子项目提供配套服务 如下: 表2 1h a d o o p 组件 持久化数据结构。 a v r o :一种提供高效、跨语言r p c ( r e m o t ep r o c e d u r ec a l lp r o t o c 0 1 ) 的数据序 列系统,持久化数据存储。 m a p r e d u e e :分布式数据处理模式和执行环境,运行于大型商用机集群。 h d f s ( h a d o o p d i s t r i b u t e df i l es y s t e m ) 分布式文件系统,运行于大型商用机 集群。 p i g :一种数据流语言和运行环境,用以检索非常大的数据集。p i g 运行在 m a p r e d u c e 和h d f s 的集群上。 h b a s e :一个分布式的、列存储数据库。h b a s e 使用h d f s 作为底层存储, 同时支持m a p r e d u c e 的批量式计算和点查询( 随机读取) 。 z o o k e e p e r :一个分布式的、高可用性的协调服务。z o o k e e p e r 提供分布式锁 之类的基本服务用于构建分布式应用。 h i v e :分布式数据仓库。h i v e 管理h d f s 中存储的数据,并提供基于s q l 的查询语言( 由运行时引擎翻译成m a p r e d u c e 作业) 用以查询数据。 c h u k w a :分布式数据收集和分析系统。c h u k w a 7 - 9 】运行h d f s 中存储数据的 收集器,它使用m a p r e d u c e 来生成报告。 2 4 本章小结 本章重点介绍 h a d o o p 技术背景和基于h d f s 分布式架构的优点,也指出了目 6 江苏大学工程硕士论文 前h a d o o p 版本的h d f s 在功能上和性能上的一些不足之处,如名称节点的单点故障 隐患。尽管h d f s 目前仍然不尽完善,但是这些缺陷和不足之处不会影响到具体项 目的成功实施。为了更好的应用h a d o o p 平台框架,对m d v s p 系统中设计到的组件 进行剖析。 7 江苏大学工程硕士论文 第三章m d v s p 平台需求分析 当我要查找”高三物理试卷模拟考试”,为什么百度,谷歌都出现了培训中心 的广告? 想要查找”小学三年级上学期课件”,搜索结果出现了大量的招生广 告越来越多的教育工作者、学生发现百度和谷歌搜索平台,不容易使用了, 想要获得自己想要的信息,需要大量的时间来筛选。今日,中国科学院研究生院 管理学院副院长吕本富博士对此现象也给出了这样的结论:”从信息的匹配度上 看,两家搜索引擎都不能满足用户完全需要”。 造成这种现象的原因是什么呢? 用一句话概括就是“网民多样化,需求多样 江苏大学工程硕士论文 图3 1m d v s p 搜索平台使用对象 3 2m d v s p 搜索资源类型需求 教育资源包括从事教育事业的人力资源、物力资源、和无形资源的总和。其 中直接支持教学活动的数字文档各种资源被称为教学资源,它包括 1 在教学过程中所使用和产生的教案、课堂用的幻灯片、课堂测试题、课 件、动画、图形图像、音、视频以及各类测试、考试题; 2 学生创作类资源和学习过程中产生的资源; 3 教育管理与教学评估类的数据资源; 4 教育科研过程所产生的资源; 5 其他特色资源; 图3 2 给出了m d v s p 搜索资源类型的图示,从图中我们可以看出,大部分的 资源是由区域或者学校统一组织形成日常的资源上传机制n3 1 。 9 江苏大学工程硕士论文 图3 2m d v s p 搜索资源类型 3 3m d v s p 搜索平台功能需求 本搜索引擎是通过聚焦蜘蛛自动获取相关的教育资源并建立索引,为用户提 供有效信息和相关服务的。起主要服务对象是被教育者和从事教育事业的工作 者。根据问卷调查和访谈记录,m d v s p 搜索引擎需要满足一下功能需求n4 1 : 1 需要实现面向教学主体的网页信息检索功能。 教学资源主题信息检索能保证返回信息的精确性,用户在检索信息的时 候就不必面对成千上万条记录而产生心理负担。 2 需要建立w e b 2 0 社区。 这能缓解教学资源不平等的现象。由于地域的差异,教学水平、师资等 都存在很大的差异,常常在教学过程中遇到问题,就迫切需要得到帮助 解决。建立了社区,为用户寻求帮助提供了很好的渠道,也满足教育工 作者之间的直接经验交流。 3 需要定制个性化的信息。 因为教学是有一定的时间周期的,所以常用教育资源垂直搜索引擎的用 户在一定的时间内需要得到稳定的信息。需要存储保留一些用户的关注 度等信息。 4 需要满足教学资源的视频搜索。 有很多教学资源是以视频、音频的方式存在的,如果公开课视频,优秀 教师示范课视频,还有很多的动画资源等。 l o 江苏大学工程硕士论文 5 需要能提供上传资源的功能。 m d v s p 获取资源的方式,一方面由聚焦蜘蛛爬行n 获得,一方面是由广大 的用户群体上传。用户上传的资源具有针对性,专业性强、易分类管理, 是提高m d v s p 搜索平台准确性的重要保证。 3 4 本章小结 本章节深入描述m d v s p 软件的功能和性能需求。本章节是m d v s p 系统平台 实现的基础。它以问卷调查和从事教育事业的经验积累出发点,分析了m d v s p 面向的用户群体,以及按照不同的群体有着不同的搜索兴趣点。最后归纳总 结了系统平台的功能需求。 江苏大学工程硕士论文 第四章基于h a d o o p 平台的m d v s p 模型 4 1 分布式文件系统h d f s 与m a p r e d u c e 技术 h a d o o p 文件系统( h d f s ) 是一个运行在普通的硬件上的分布式文件系统,h d f s 是高容错性的,可以部署在低成本的硬件之上,h d f s 大数据集的应用程序。图4 1 是h d f s 的体系结构。 图4 1h d f s 体系架构 由图4 1 可知,c l i e n t 可以对d a t a n o d e 进行读和写操作,同时在n a m e n o d e 上 对元数据进行操作。n a m e n o d e 上元数据控$ 1 d a t a n o d e 信息。 m a p r e d u c e 算法模型是g o o g l e 的一项重要技术,它是一种编程模式,用以进 行大数据量的计算。很多开发人员对并行计算比较陌生,再涉及到分布式处理就 更加棘手。m a p r e d u c e 算法模型就是一种简化并行计算的编程模型,它向上层用 户提供接口,屏蔽了并行计算特别是分布式处理的诸多细节问题,让那些没有多 少并行计算经验的开发人员也可以很方便的开发并行应用,避免了很多重复工 作。这也就是m a p r e d u c e 算法模型的价值所在,通过简化编程模型,降低了开 发并行应用的入门门槛,并且能大大减轻了程序员在开发大规模数据的应用时的 编程负担。 1 2 江苏大学工程硕士论文 4 1 1 分布式文件系统h d f s 4 1 1 1 名字节点与数据节点 h d f s 是一个主从结构的体系,一个h d f s 集群是由一个名字节点,它是一个 管理文件的命名空间和调节客户端访问文件的主服务器,当然还有的数据节点, 一个节点一个,它来管理存储。h d f s 暴露文件命名空间和允许用户数据存储成 文件。内部机制是将一个文件分割成一个或多个的块,这些块存储在一组数据 节点中。名字节点操作文件命名空间的文件或目录操作,如打开,关闭,重命名, 等等。它同时确定块与数据节点的映射。数据节点来负责来自文件系统客户的读 写请求。数据节点同时还要执行块的创建,删除,和来自名字节点的块复制指 示。名字节点和数据节点都是软件运行在普通的机器之上,机器典型的都是 li n u x ,h d f s 是用j a v a 来写的,任何支持j a v a 的机器都可以运行名字节点或数 据节点,利用j a v a 语言的超轻便型,很容易将h d f s 部署到大范围的机器上。典 型的部署时将有一个专门的机器来运行名字节点软件,机群中的其他机器运行一 个数据节点实例。体系结构排斥在一个机器上运行多个数据节点的实例,但是实 际的部署不会有这种情况。集群中只有一个名字节点极大地简单化了系统的体 系。名字节点是仲裁者和所有h d f s 的元数据的仓库。系统设计成用户的实际数 据不经过名字节点。系统设计成用户的实际数据不经过名字节点。数据节点是负 责存储。一般一台机器上面部属一个数据节点,有时也会把几个数据节点部属在 一台机器上,但这种情况不是很常见。这些机器一般都是普通的p c 机。p c 机上 一般是g u n l i n u x 操作系统,h d f s 是用j a v a 来写的,任何支持j a v a 的机器都 可以运行名字节点或数据节点,利用j a v a 语言的超轻便型,很容易将h d f s 部署 到大范围的机群上n p l 引。 4 1 1 2 数据复制 h d f s 被设计成在一个大集群中可以跨机器地可靠地存储海量的文件。它将每 个文件存储成b l o c k 序列,除了最后一个b l o c k ,所有的b l o c k 都是同样的大小。 文件的所有b l o c k 为了容错都会被复制。每个文件的b l o c k 大小和r e p l i c a t i o n 因 子都是可配置的。r e p l i c a t i o n 因子可以在文件创建的时候配置,以后也可以改 变。h d f s 中的文件是w r i t e - o n e ,并且严格要求在任何时候只有一个w r i t e r 。 n a m e n o d e 全权管理b l o c k 的复制,它周期性地从集群中的每个d a t a n o d e 接收心跳 江苏大学工程硕士论文 包和一个b l o c k r e p o r t 。心跳包的接收表示该d a t a n o d e 节点正常工作,而 b l o c k r e p o r t 包括了该d a t a n o d e 上所有的b l o c k 组成的列表。 1 、副本的存放 副本的存放是h d f s 可靠性和性能的关键。h d f s 采用一种称为r a c k - a w a r e 的策 略来改进数据的可靠性、有效性和网络带宽的利用。这个策略实现的短期目标是 验证在生产环境下的表现,观察它的行为,构建测试和研究的基础,以便实现更 先进的策略。庞大的h d f s 实例一般运行在多个机架的计算机形成的集群上,不同 机架间的两台机器的通讯需要通过交换机,显然通常情况下,同一个机架内的两 个节点间的带宽会比不同机架间的两台机器的带宽大。 通过一个称为r a c ka w a r e n e s s 的过程,n a m e n o d e 决定了每个d a t a n o d e 所属的 r a c ki d 。一个简单但没有优化的策略就是将副本存放在单独的机架上。这样可 以防止整个机架( 非副本存放) 失效的情况,并且允许读数据的时候可以从多个 机架读取。这个简单策略设置可以将副本分布在集群中,有利于组件失败情况下 的负载均衡。但是,这个简单策略加大了写的代价,因为一个写操作需要传输 b l o c k 至u 多个机架。 在大多数情况下,r e p l i c a t i o n 因子是3 ,h d f s 的存放策略是将一个副本存放 在本地机架上的节点,一个副本放在同一机架上的另一个节点,最后一个副本放 在不同机架上的一个节点。机架的错误远远比节点的错误少,这个策略不会影响 到数据的可靠性和有效性。三分之一的副本在一个节点上,三分之二在一个机架 上,其他保存在剩下的机架中,这一策略改进了写的性能。 2 、副本的选择 为了降低整体的带宽消耗和读延时,h d f s 会尽量让r e a d e r 读最近的副本。如 果在r e a d e r 的同一个机架上有一个副本,那么就读该副本。如果一个h d f s 集群跨 越多个数据中心,那么r e a d e r 也将首先尝试读本地数据中心的副本。 3 、s a f e m o d e n a m e n o d e 启动后会进入一个称为s a f e m o d e 的特殊状态,处在这个状态的 n a m e n o d e 是不会进行数据块的复制的。n a m e n o d e 从所有的d a t a n o d e 接收心跳包 和b l o c k r e p o r t 。b l o c k r e p o r t 包括了某个d a t a n o d e 所有的数据块列表。每个b l o c k 都有指定的最小数目的副本。当n a m e n o d e 检测确认某个d a t a n o d e 的数据块副本的 最小数目,那么该d a t a n o d e 就会被认为是安全的;如果一定百分比( 这个参数可 1 4 江苏大学工程硕士论文 配置) 的数据块检测确认是安全的,那么n a m e n o d e 将退出s a f e m o d e 状态,接下来 它会确定还有哪些数据块的副本没有达到指定数目,并将这些b l o c k 复制到其他 d a t a n o d e 。 4 1 1 3 数据组织 h d f s 支持海量文件处理。应用程序可以处理大数据集。这些程序一次写入数 据多次读取,因此需要一个比较好的流读取速度。h d f s 典型的块大小是6 4 m ,一 个h d f s 文件可以最多被切分成1 2 8 m b 个块,每一个块分布在不同的数据节点上。 客户端请求创建文件时,并不立即请求名字节点。h d f s 客户端在本地的文件 中缓存文件数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论