




已阅读5页,还剩80页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
_ u n i v e r s i t yo fs c i e n c ea n dt e c h n o l o g yo f c h i n a adis s er t a t i onf orma s t er sd e g r e e s e m a n t i ca s s o c i a t i o ns p a c ea n d dis t r ibu t e df iles t o r a g es y s t ems r e s e ar c h a u t h o r sn a m e : 1 s p e c l a 上1 t y : 一 5 u p e r v ls 0 r : n 1 p1 n 1s h e dt1 m e : q i n g x i nm e n g c o m p u t e ra p p li c a t i o n p r o f e ss o r e n h o n gc h e n a p r i1 ,2 0 11 一 中国科学技术大学学位论文原创性声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的 成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或 撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作 了明确的说明。 作者虢撞叁签字慨塑! ! :竺:! 彳 中国科学技术大学学位论文授权使用声明 作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学 拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构 送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入有 关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论 文。本人提交的电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 口丞开口保密( 年) 作者签名: 毛乏欠 导师签名: 签字日期:尘! ! :! i :竺刍 签字日期: 摘要 摘要 i n t e r n e t 上面的信息数量与日俱增,使得互联网的使用者已经很难以地址栏 输入地址或简单的导航网站等方式准确、有效地找到所需内容。搜索引擎的出现 给这个问题提供一个有效的解决方案。搜索引擎如今已然成了互联网使用者在网 上找到他们所需信息的最有效的查找方式。这就使得学者专家们对搜索引擎的研 究越加重视,近几年搜索引擎的各种相关技术都有了长足的进步,并且相继出现 了像b a i d u 、g o o g l e 、y a h o o 等这样优秀的搜索引擎。 与搜索引擎相关的技术方向有很多,它们当中底层的分布式文件存储系统是 相当重要的一个方向。因为上层的搜索引擎的基础就是底层的分布式文件存储系 统,底层文件系统带来的瓶颈,就成为了搜索引擎发展的制约因素之一。因此本 文一个研究内容就是对搜索引擎之中底层的分布式文件存储系统的分析和优化, 通过提高底层分布式文件存储系统的性能,防止整个搜索引擎系统瓶颈的出现。 由于最近搜索引擎领域之中的语义检索方向已成为一个热点,所以本文的第 二个研究内容就是搜索引擎之中的语义级别检索。语义级别的搜索引擎的检索结 果更准确全面,以它代替传统的文本匹配式检索是搜索引擎领域发展的必然趋 势。本文的主要工作如下: ( 1 ) 本文对搜索引擎相关的两个方向,包括:语义相似度计算及语义关联 空间以及应用到搜索引擎中的分布式文件存储系统等研究方向做了概括的介 绍。 ( 2 ) 介绍语义相似度计算的概念,以及它在新一代搜索引擎中的重要性, 进而提出语义关联空间概念,并讨论通过本体的方式实现语义关联空间,之后 介绍了w i k i p e d i a ,研究它的结构和数据的解析方法,利用w i k i p e d i a 结构和 数据信息来实现语义关联空间,并验证其有效性。 ( 3 ) 把h d f s 与m o o s e f s 进行了对比,说明了选择m o o s e f $ 的原因,指出了控 制分布式文件存储系统在每台c h u n k s e r v e r 机器上占用硬盘资源的最大限额的必 要性,并且带着这个目的对m o o s e f s 的结构和工作流程进行了探索,从而找到优 化点。之后对其代码进行了相应优化,开发自动化部署脚本,用于集群机器的部 署。最后我们对系统进行了性能测试,压力测试和优化实验测试。 关键词:搜索引擎语义关联空间m o o s e f s 分布式文件存储 一一一一一一 a b s t r a c t 一 a b s t r a c t t h ei n c r e a s i n gn u m b e ro fi n f o r m a t i o no nt h e i n t e r n e t ,m a k i n gt h e i n t e r n e tu s e r sa l r e a d yv e r yd if f i c u l tt oa d d r e s sb a ri n p u ta d d r e s so r s i m p l en a v i g a t i o nw e b s i t em e a n ss u c ha sa c c u r a t e ,e f f e c t i v e l yf i n dt h e n e c e s s a r yc o n t e n t s e a r c he n g i n ea p p e a r e dt ot h i sp r o b l e mp r o v i d e sa n e f f e c t i v es o l u t i o n s s e a r c he n g i n en o wh a sb e c o m ei n t e r n e tu s e r so n li n e i n f o r m a t i o nn e e d e dt of i n dt h e mt h em o s te f f e c t i v es e a r c hm o d e t h i s m a k e ss c h o l a re x p e r t st ot h es e a r c he n g i n e sr e s e a r c h i nr e c e n ty e a r s m o r es e r i o u s l y ,s e a r c he n g in ea ll s o r t so fr e l e v a n tt e c h n o l o g yh a sm a d e c o n s i d e r a b l ep r o g r e s s ,a n ds u c c e s s i v e l ya p p e a r e d1 i k eb a i d ua n d g o o g l 杏, y a h o os u c ht o ps e a r c he n g in e s w i t ht h es e a r c he n g i n er e l a t e dt e c h n i c a ld i r e c t i o no f t h e mh a v ea l o to f ,t h eb o t t o mo ft h ed i s t r i b u t e df i l e s t o r a g es y s t e mi sq u i t e i m p o r t a n ti no n ed i r e c t i o n b e c a u s et h eu p p e rs e a r c h e n g in eist h e f o u n d a t i o nr o c k b o t t o md i s t r i b u t e df il e s t o r a g es y s t e m s ,b o t t o mf i1 e s y s t e mb r i n g s b o t t l e n e c k ,b e c o m et h es e a r c h e n g i n ed e v e l o d m e n t r e s t r i c t i o nf a c t o r t h i sp a p e ri sar e s e a r c hc o n t e n t so fs e a r c he n g i n e i nt h eb o t t o mo ft h e d i s t r i b u t e df i l es t o r a g es y s t e m a n a l y s i sa n d o p t i m i z a t i o n ,t h r o u g hi m p r o v i n gt h eu n d e r l y i n gd i s t r i b u t e df i l es t o r a g e s y s t e mp e r f o r m a n c e ,p r e v e n tt h ew h o l es e a r c he n g i n es y s t e mb o t t l e n e c k s t oa p p e a r b e c a u s et h er e c e n ts e a r c h e n g i n ef i e l dt h es e m a n t i cr e t r i e v a lo f d i r e c t i o nh a sb e c o m eah o t ,s ot h i sp a p e rs e c o n dr e s e a r c hc o n t e n tist h e s e m a n t i cl e v e la m o n gs e a r c he n g i n er e t r i e v a l s e m a n t i cl e v e lo fs e a r c h e n g l n e s ,m o r ea c c u r a t ec o m p r e h e n s i v er e t r i e v a lr e s u l t si ni ti n s t e a do f t r a d i t i o n a lt e x tm a t c h i n gt y p er e t r i e v a li ss e a r c he n g i n et h ei n e v i t a b l e t r e n do ft h ef i e l d t h i sp a p e rm a i nj o bi s a sf o l l o w s : ( 1 ) t h ep a p e rs e a r c he n g i n er e l a t e di nb o t hd i r e c t i o n s ,i n c l u d i n g : s e m a n t i cs i m i l a r i t yc a l c u l a t i o na n ds e m a n t i c a s s o c i a t i o ns p a c ea n d i i i a b s t r a c t a p p li e dt ot h es e a r c he n g i n eo fd is t r i b u t e df il es t o r a g e s y s t e m sr e s e a r c h d i r e c t i o nw a sg e n e r a l i z e di n t r o d u c t i o n ( 2 ) i n t r o d u c e dt h ec o n c e p to fs e m a n t i cs i m i l a r i t yc a l c u l a t i o n ,a n d i ti nan e wg e n e r a t i o no fs e a r c he n g i n e s 。a n dp u t sf o r w a r dt h ei m p o r t a n c e o fs e m a n t i ca s s o c i a t i o ns p a c ec o n c e p t ,a n dd i s c u s st h ew a yb yo n t o l o g y a f t e ri m p l e m e n t i n gs e m a n t i ca s s o c i a t i o ns p a c e ,w i k i p e d i a ,i n t r o d u c e d t h es t r u c t u r ea n dd a t as t u d yi ta n a l y s i sm e t h o d ,u s ew i k i p e d i as t r u c t u r e a n dd a t ai n f o r m a t i o nt oi m p l e m e n t i n gs e m a n t i ca s s o c i a t i o ns p a c e ,a n d v e r jf je st h ee f f e c tiv e n e s s ( 3 ) h d f sc o m p a r e dw it hm o o s e f s ,e x p l a i n st h er e a s o nt h a tm o o s e f s c h o i c et oc o n t r o lt h ed i s t r i b u t e df il es t o r a g es y s t e mi nc h u n k s e r v e r m a c h i n e so ne v e r yp l a t f o r mo c c u p i e st h em a x i m u ma m o u n to f d i s kr e s o u r c e s , a n dt h en e c e s s i t yo fm o o s e f sw i t ht h i sp u r p o s et h es t r u c t u r ea n dt h e w o r k i n gp r o c e s se x p l o r e d ”,s oa st of i n do p t i m a lp o i n t f o ri t sc o d e a f t e rt h ec o r r e s p o n d i n go p t i m i z a t i o n ,d e v e l o pa u t o m a t i o ns c r i p t s ,u s e d t od e p l o yt h ed e p l o y m e n to fc l u s t e rm a c h i n e f i n a ll yw eo nt h es y s t e m p e r f o r m a n c et e s t ,t h ep r e s s u r et e s t i n ga n do p t i m i z i n ge x p e r i m e n tt e s t k e yw o r d s :s e a r c he n g i n e ,s e m a n t i c a s s o c i a t i o ns p a c e ,m o o s e f s , d i s t r i b u t e df i l es t o r a g e i v 目录 目录 第一章绪论1 1 1 研究背景与意义1 1 2 国内外研究现状2 l2 1 语义相似度计算及语义关联空间2 1 2 2 应用到搜索引擎中的分布式文件存储系统4 1 3 研究内容及文本组织结构8 第二章主流知识库和分布式文件系统9 2 1w o r d n e t 与w i k i p e d i a 9 2 2g f s 1 0 2 3h d f s 。1 4 2 4 小结1 5 第三章语义关联空间构建方法研究1 7 3 1 w i k i p e d i a 的结构数据解析1 7 3 2 利用w i k i p e d i a 建立语义关联空间2 3 3 2 1 基于内容的测量( t f i d f ) 2 3 3 2 2 基于外链接类别的测量2 4 3 2 3 基于距离的测量2 6 3 2 4 语义关联空间在系统中的应用2 7 3 3 实验2 8 3 4 小结3 0 第四章m o o s e f s 的系统结构分析3 l 4 1 开源软件m o o s e f s 3 2 4 1 1m o o s e f s 结构3 2 4 1 2m o o s e f s 读写流程3 3 4 2m o o s e f s 各模块功能简介j 3 5 4 2 1m o o s e f s 源码目录层次结构3 5 v 目录 4 2 2m o o s e f s 的源文件功能介绍3 5 4 2 3 各模块功能实现的探索3 8 4 3 小结4 4 第五章m o o s e f s 的优化与实验4 5 5 1 对m o o s e f s 的改进4 5 5 1 1 改进4 5 5 1 2m o o s e f s 部署脚本4 7 5 2 实验4 9 5 2 1m o o s e f s 性能测试4 9 5 2 2m o o s e f s 压力测试5 5 5 2 3 优化实验测试5 8 l 第一章绪论 1 1 研究背景与意义 第一章绪论 i n t e r n e t 上面的信息数量与日俱增,发展迅猛,连入i n t e r n e t 的实体服 务器数量和万维网里面的网页数目都在指数级地增长,而且这种增长的趋势越 来越明显。互联网相关的技术的快速发展和技术水平的不断提高,方便我们可 以取得大量的信息内容。例如,各个视频网站上百万部的视频和电影,卓越亚 马孙上面有百万本的图书,淘宝网上面有成千上万的各种商品,小说站点上提 供的各类题材超百万部的小说,这样数量繁多的信息内容即便是简单浏览一遍 也是没有办法完成的,人们在使用互联时想找到自己感兴趣的内容更是天方夜 谭。信息的爆炸使得信息的利用率反而降低,这种现象被称之为“信息过载”。 信息过载现象的出现,就使得互联网的使用者已经很难以地址栏输入地址或简 单的导航网站准确、有效地找到所需的内容信息。搜索引擎的出现很好的解决 了这一问题。搜索引擎如今已然成了互联网用户在网上找到他们想要的信息的 最有效的方式。所以,这就使得专家学者们对搜索引擎的研究越加重视,近几 年搜索引擎的各种相关技术都有了长足的进步,并且相继出现了像b a i d u 、 g o o g l e 、y a h o o 等这样优秀的搜索引擎。我们以电子商务网站作为例子,当用 户通过提示信息,在搜索框中键入自己想要查找的商品名称时,电子商务网站 的搜索引擎会根据用户提交的信息,返回给用户查询结果,这些结果是根据用 户提交的信息经过质量评估后才交给用户的,使用户方便找到并购买自己想买 的商品。试设想,如果用户在网上购物时,能过通过搜索引擎毫不费力地轻松 地查找到自己心仪的商品,并且搜索过程非常迅速和准确,那么这必然会提升 用户网上购物的乐趣,为用户节省下大量时间。如今互联网使用者不再是单纯 的被动页面观看者,他们已然已经成为获取信息过程的主动参与者。实际互联 网世界里,等待检索的信息可能会是千万级别的,甚至是过亿的。例如,阿里 巴巴,淘宝,卓越亚马孙,易趣等。那么对搜索引擎准确性、实时性方面的需 求就更明显了。正是因为互联网上面的信息内容正在爆炸般地增长,那么互联 网使用者依赖搜索引擎的程度也就越来越深,所以搜索引擎技术发展的机遇由 此到来,同时,这也使得前所未有的挑战降临到了搜索引擎领域。 与搜索引擎相关的技术有很多方面,它们当中底层的分布式文件存储系统 是相当重要的一个方向。现在,搜索引擎已经超过即时通信类应用成为了互联 第一章绪论 网用户使用互联网资源的排名第三的应用。搜索引擎虽然是i n t e r n e t 中提供的 应用服务的其中之一,不过这种服务与其余的i n t e r n e t 提供的应用服务不同之 处很多,它的任何一个用户的任何一次查询请求均需要大量的计算资源,其余 i n t e r n e t 应用服务不会如此。例如当使用者每次使用g o o g l e 查找所需信息时, 差不多i o o m b 左右的内容数据将被g o o g l e 读取,并且占有十亿左右的c p u 的计 算周期。等到高峰时,g o o g l e 差不错要在一秒钟内解决上千用户的查找要求, 恐怕只有全球最庞大的s u p e r 计算机才有能力提供如此巨大的计算资源。而 g o o g l e 购置许多的工作站及个人计算机,充分发挥集群技术,合并成了性能类 似超级计算机的请求处理集成系统。相对较低速的文件存储系统是整个集群的 瓶颈。这样底层文件系统带来的瓶颈,就成为了搜索引擎发展的制约因素之一。 文件存储系统是一台计算机硬盘数据的支配者,它的性能好坏对i o 性能影响 很大。应用程序若想获得较为理想的性能,就不能简单地依赖操作系统本身自 带文件系统的基本功能。分布式文件存储系统具备很高的吐吞量,较高的输入 输出带宽,随时随地扩展等特点,并且这个集群可以把若干节点机器中的磁盘 组合,形成一个全局文件系统,来负责存储操作,供给更大量的存储空间,还 能够随系统需求增长而扩展。 目前搜索引擎领域之中的语义检索方向已成为一个热点,所谓的语义检索, 关键技术就是在检索之前的语义相似性计算。这种技术在新一代搜索引擎技术 的发展中起到至关重要的作用,简单的举一个例子,当我们要在查找有关p u m a 方面的信息时,我们在搜索框中键入“p u m a ,那么传统搜索引擎将返回所有 与“p u m a 有关的信息内容,确切的说它返回的是所有文本里包含“p u m a ”的 页面链接,那么包含“p u m a ”的同义词“c o u g a r ”的页面没有被返回,这样问 题就来了,从语义角度来讲,“p u m a 和“c o u g a r ”虽然拼写不同,但是意义 相同,应该被检索到并返回给用户,这点上,语义级别的搜索引擎的检索结果 更准确全面,所以语义级别的检索将是未来搜索引擎技术发展的一个重要的、 必然的方向。 1 2 国内外研究现状 1 2 1语义相似度计算及语义关联空间 语义检索的准确率和效率是以对词语间语义关系的获取为基础的。本文所 提出的语义关联空间包含了词语之间的语义相似度信息,能够刻画词语间的语 义关系以及语义距离,因此如何准确、有效地计算语义相似度是重要的内容。 一 第一章绪论 目前,语义相似度计算方法大致可以分为五种方法,分别是基于语义词典、 基于本体和基于统计以及通过获取文本语义信息并以此进行语义相似分析的两 种方法。w o r d n e t 1 是人工构建的语义词典,包含了词语之间的语义关系。这 些词典根据词条的语义将其分组,所有语义相同的词条组成一个同义词集合。 此外,这些词典为每个同义词集合提供了简短,概要的定义,并且记录同义词 集合之间的语义关系。基于本体的方法与基于语义词典的方法类似,通过本体 的定义与层次关系来计算语义相似度。隐形语义分析( l s a ) 2 则是基于统计的 方法。该技术绕开了对自然语言的理解,通过对大量样本的统计分析找出不同 词汇( 包括词组和短语) 之间的相似度。这样搜索结果就可以进一步地接近用户 真正想要查找的内容,同时也能保证搜索的效率。l s a 的核心思想是通过把高 维向量映射到低维隐形语义空间,然后表示出词与词、句与句以及文档与文档 之间的语义关系。基于语义角色标注的语义分析方法是将词语在句子中的语义 角色作为其语义信息,并根据场景以及角色的联系计算词语之间的语义相似度。 h a c i o g l u 3 实用依存句法分析结果进行浅层语义分析,取得了可以与基于短语 结构句法分析相似的效果。b r a d h a n 等在 4 中总结了目前的基本特征,包括 谓词、路径、短语类型、位置、语态、核心词、动词子类框架等。这些特征, 都从不同的侧面反映了待标注单元的语义角色信息,c h e n 等在 5 中使用决策 树算法进行浅层语义分析的实验。但是决策树学习方法对于处理高维问题效果 并不理想。而近年出现的随机森林算法是对决策树算法的一种改进,在 6 中 n i e l s e n 等人将其应用于浅层语义分析任务取得了较好的效果。最大熵模型就 是一种用来直接计算条件概率的方法。基于模板的语义分析方法通过信息抽取 规则分析句子中短语之间的语义关系,利用这些关系也能有效地计算语义相似 度。早期的方法 7 3 主要通过单槽抽取规则分析语义信息,这些方法简单易用, 但是却只适用于规则文本中,随着w e b 的发展,以及不规则文档数目的增多, z h a n g 等在 8 中逐步利用多槽规则分析文本的语义信息,这些规则能够抽取所 有拥有给定语义关系的词语对。显然,如果预先制定同义、反义等词义关系, 并学习出对应的信息抽取规则,便能有效地获取词语之间的予以相似度。 然而上述方法也都存在着一些明显的不足,如:基于知识库的方法需要人 工去建立知识库,而基于统计的方法由于其完全绕开了对自然语言的理解,仅 仅依赖统计手段所得到的结果很难反映出对象间真正的语义关系。利用基于语 义角色标注的语义分析方法能够有效的分析出词语的语义角色,但是如果利用 这些角色信息计算它们之间的语义相似度则是有待解决的问题。如何有效地学 习出高质量的多槽信息抽取规则也是有待完善的问题。 下文中将介绍如何利用一种w i k i p e d i a 知识库来构建本体,消除w o r d n e t 第一章绪论 等知识库的弊端,并利用本体来进行语义相似性计算。 1 2 2 应用到搜索引擎中的分布式文件存储系统 互联网自诞生以来,就没有停止过其飞速发展的脚步。如今,它已成为一 个信息的海洋。如何在海量信息中快速有效地找到所需要的信息,就成了一个 很关键的问题。为了解决这个问题,搜索引擎就随之诞生。在当前所有的互联 网应用中,信息搜索是仅次于网络音乐和网络新闻的第三大应用,而这些搜索 绝大多数是通过搜索引擎实现 9 的。根据c n n i c 的最新调查报告显示 1 0 , 2 0 0 9 年,搜索引擎的使用率为7 3 3 ,较2 0 0 8 年增加了5 3 个百分点,超过了 即时通信成为网民使用互联网的第三大应用。目前搜索引擎用户规模达到2 8 亿人,年增长率为3 8 6 。 2 0 0 8 年2 0 0 9 年年变化 网民规模网民规模增长量 使用率使用率增长率 ( 万人)( 万人)( 万人) 搜索引擎 6 8 o 2 0 , 3 0 0 7 3 3 2 8 , 1 3 47 , 8 3 4 3 8 6 图1 1 搜索引擎应用发展趋势 搜索引擎作为网络服务的一种,却与大多网络服务有很大不同,很少有网 络服务针对用户的每次请求需要占用像搜索引擎那样多的计算资源。以g o o g l e 为例,一般而言,用户的每次查询,g o o g l e 需要读取数以百兆的数据且要占用 数以十亿的c p u 计算周期。高峰时g o o g l e 可能要面对每秒数千次的用户查询请 求,如此大的计算资源要求世界上最强大的超级计算机才能胜任。然而g o o g l e 利用集群技术,把大量工作站、p c 机连接起来,组成了可媲美很多超级计算机 的集群系统 1 1 。 虽然,集群系统许多技术的发展已经比较成熟,但是在系统的i o 技术方 面一直没有得到很好的解决,其相对低速的文件系统成为了系统的瓶颈。由于 底层的集群系统是上层搜索引擎的基础,也就可以说给底层i o 带来瓶颈的文 件系统成了制约搜索引擎技术进一步发展的重要因素。 对于集群来说,可以利用多磁盘的并行来满足容量和i o 性能的需求。文 件系统作为计算机磁盘数据的管理者,对于系统输入输出能力有重要的影响。 如果单纯依赖操作系统提供的文件系统基本功能,应用程序就无法利用集群获 得理想的性能。对于那些运行在集群上,i o 密集型的应用程序,i o 成为整 | 第一章绪论 个系统的瓶颈。因此,集群采用分布式文件系统来解决这个问题,分布式文件 系统具有高吞吐量,高1 1 0 带宽,可扩展的特点,它可以将多个结点土的磁 盘组织成为全局的存储系统,提供更大的存储容量和聚集的i o 带宽,并可 以随系统规模扩大而扩展 1 2 。 分布式文件系统的设计基于客户机服务器模式。一个典型的网络可能包括 多个供多用户访问的服务器。另外,对等特性允许一些系统扮演客户机和服务 器的双重角色。例如,用户可以“发表 一个允许其他客户机访问的目录,一 旦被访问,这个目录对客户机来说就象使用本地驱动器一样。 传统的分布式文件系统比如n f s 中,所有数据和元数据存放在一起,通过 单一的存储服务器提供。这种模式一般称之为带内模式。随着客户端数目的增 加,服务器就成了整个系统的瓶颈。因为系统所有的数据传输和元数据处理都 要通过服务器,不仅单个服务器的处理能力有限,存储能力受到磁盘容量的限 制,吞吐能力也受到磁盘i o 和网络i o 的限制。在当今对数据吞吐量要求 越来越大的互联网应用中,传统的分布式文件系统已经很难满足应用的需要。 于是,一种新的分布式文件系统的结构出现了,那就是利用存储区域网络 ( s a n 1 3 ) 技术,将应用服务器直接和存储设备相连接,大大提高数据的传输能 力,减少数据传输的延时。在这样的结构里,所有的应用服务器都可以直接访 问存储在s a n 中的数据,而只有关于文件信息的元数据才经过元数据服务器处 理提供,减少了数据传输的中间环节,提高了传输效率,减轻了元数据服务器 的负载。每个元数据服务器可以向更多的应用服务器提供文件系统元数据服务。 这种模式一般称之为带外模式。最近的s t o r a g e t a n k 1 4 、c x f s 1 5 、l u s t r e 1 6 等都采用这样的结构,因此它们可以取得更好的性能和扩展性。区分带内模式 和带外模式的主要依据是,关于文件系统元数据操作的控制信息是否和文件数 据一起都通过服务器转发传送。前者需要服务器转发,后者是直接访问了 文件系统最初是用来管理本地磁盘,提供用户访问接口。某些数据的集合 叫做一个“文件( f i l e ) ,并赋予每一个文件一定的属性以标识该数据集合 的某些属性。文件按照树结构层次进行管理和检索。最初的文件系统只能管理 本地磁盘空间。 随着计算机应用范围的扩展,通过文件访问接口在不同主机之间共享文件 的需求日益增强。在二十世纪7 0 年代就出现了最初的分布式文件系统的尝试。 到了二十世纪八十年代中期,网络文件系统 1 7 ( n f s - n e t w o r kf i l es y s t e m ) 的出现使得分布式文件系统逐渐发展并应用到各个领域。从早期的n f s 到 s t o r a g e t a n k ,分布式文件系统在体系结构、系统规模、性能、可扩展性、可用 性等方面经历了较大的变化。 第一章绪论 第一代分布式文件系统( 1 9 8 0 年代) : 早期的分布式文件系统一般以提供标准接口的远程文件访问为目的,更多 地关注访问的性能和数据的可靠性,以n f s 和a f s 1 8 ( a n d r e wf il es y s t e m ) 最具代表性,它们对以后的文件系统设计也具有十分重要的影响。 n f s 从1 9 8 5 年出现至今,已经经历了四个版本的更新,被移植到了几乎 所有主流的操作系统,成为分布式文件系统事实上的标准。n f s 利用u n i x 系 统中的虚拟文件系统机制,将客户机对文件系统的请求,通过规范的文件访问 协议和远程过程调用,转发到服务器端进行处理。服务器端在v f s 之上,通过 本地文件系统完成文件的处理,实现了全局的分布式文件系统。s u n 公司公开 了n f s 的实施规范,互联网工程任务组 1 9 ( t h e i n t e r n e te n g i n e e r i n gt a s k f o r c e ,i e t f ) 将其列为征求意见稿( r f c ,r e q u e s tf o rc o m m e n t s ) ,这很大程度 上促使n f s 的很多设计实现方法成为标准,也促进了n f s 的流行 第二代分布式文件系统( 1 9 9 0 - - - 1 9 9 5 ) : 上个世纪的九十年代,磁盘技术得到了很快的发展,单位b i t 的成本下降 的速度非常快。而且随着微软公司的视窗操作系统的推出,极大的推动了微处 理器和桌面电脑的发展。在九十年代中,互联网的出现和爆发式的增长,使得 在网络中传输的数据,特别是多媒体数据变的流行起来。大规模的数据处理数 据挖掘就需要有多容量高速度的分布式存储环境,就是在这中背景下,第二代 分布式文件系统应运而生。其中代表文件系统有s l i c ef i l es y s t e m 2 0 ,它 提出了一个u 代理的中间转发器,从而可以支持多个存储服务器来提高系统的 容量和性能。 第三代分布式文件系统( 1 9 9 5 2 0 0 0 ) : 磁盘的单位存储依旧在不断下降,互联网技术也得到了飞速的发展,在互 联网上的信息呈现出爆炸性的增长,互联网上的很多应用都需要对海量的数据 进行处理,这时出现了许多优秀的分布式文件系统包括g l o b a lf i l e s y s t e m 2 1 ,g e n e r a lp a r a l e l f i l es y s t e m 等。 g p f s 2 2 是i b m 公司推出的并行分布式集群文件系统,从1 9 9 5 年投入商 用至今已经有1 0 多年的历史。g p f s 是一个共享磁盘的文件系统,集群内的所 有节点可以并行地访问所有共享磁盘,并通过分布式的令牌管理机制和条带化 技术来管理和优化节点的访问。g p f s 允许客户共享文件,而这些文件可能分布 在不同节点的不同硬盘上;它提供了许多标准的u n i x 文件系统接口,允许应 用不需修改或者重新编辑就可以在其上运行。g p f s 也支持u n i x 文件系统的 工具,即:用户可以像使用普通文件系统一样使用基于g p f s 的文件系统,唯 一不同的在于管理g p f s 文件系统的命令。g p f s 提供的文件系统操作服务可 6 第一章绪论 以支持并行应用和串行应用,它允许任何节点( 这些节点属于同一个节点组) 上的并行应用同时访问同一个文件或者不同的文件。g p f s 的应用范围非常广 泛,从多节点文件共享服务到大型的高性能计算集群。g p f s 也应用在众多的企 业应用里面,比如h a c m p 、o r a c l er a c 、s a p 。 第四代分布式文件系统( 2 0 0 0 至今) : 随着人们对体系结构的认识不断深入,以及在网格计算方面的研究推动了 对分布式文件系统结构的发展,这时的分布式文件系统提出了更高的需求包括 大容量,高性能,搞可靠性以及可扩展性等诸方面。 下面简单介绍当今比较主流的三个分布式文件存储系统: l u s t r e 文件系统: l u s t r e 2 3 是一个可扩展高性能集群文件系统,它起源于卡内基梅隆大学, 由c l u s t e rf i l es y s t e m 公司、惠普、s e a g a t e 、各l i n u x 公司及美国国家核 安全管理委员会( n n s a ) 的高级模拟和计算路径转发程序办公室花费三年时间进 行设计。运行于大型l i n u x 集群系统上的l u s t r e 文件系统的初期版本在美国 能源部( d o e ) 旗下四个实验室中进行配置。 l u s t r e 为集群系统提供了高i 0 吞吐量和数据共享的环境,同时还支持 数据存储物理位置的透明性,单点失效保护以及集群重新配置或者服务器及网 络重启的快速恢复机制。消除了在性能、可扩展性以及可用性等方面的瓶颈。 l u s t r e 支持许多不用的网络包括t c p i p ,m y r i n e t 2 4 ,i n f i n i b a n d 2 5 等。 目前,世界顶级的3 0 个超级计算机中的1 5 台就使用的l u s t r e 文件系 统,其中包括b l u eg e n e 等。l u s t r e 可以支持上万个客户端,p b 级的容量以 及i o o g b s 的传输速度。 g o o g l e 文件系统: g o o g l ef i l es y s t e m ( g f s ) 2 6 是g o o g l e 开发的,专用于满足g o o g l e 迅 速增长的数据存储和处理要求的并行文件系统。g f s 与过去的分布文件系统拥 有许多相同的目标,例如性能,可伸缩性,可靠性以及可用性。然而,它的设 计还受到g o o g l e 的应用负载和技术环境的影响,和早期文件系统的假设都有 明显的不同。g f s 的设计基于以下的假设: 1 系统组件的失效是常见的现象 2 系统所存放的文件非常大 3 对文件的修改主要是文件尾的追加数据操作 4 文件系统a p i 应与g o o g l e 的引用程序紧密结合 h a d o o pd is t r ib u t e df il es y s t e m 2 7 : h d f s 是一个高度容错性 2 8 的系统,适合部署在廉价的机器上。h d f s 能 第一章绪论 提供高吞吐量的数据访问,非常适合大规模数据集上的应用。h d f s 放宽了一部 分可移植操作系统接口协议( p o s i x ) 约束,来实现流式读取文件系统数据的目 的。h d f s 在最开始是作为a p a c h en u t c h 搜索引擎项目的基础架构而开发的。 1 3 研究内容及文本组织结构 第一章主要介绍了跟搜索引擎相关的研究背景、研究意义以及本文所要讨 论的搜索引擎相关的两个方向( 语义关联空间和分布式文件存储系统在搜索引 擎中的应用) 的背景意义及简要介绍,并说明了接下来本文的主要内容。 第二章对用于语义相似度计算及构建语义关联空间的主流知识库w o r d n e t 和w i k i p e d i a 做了比较,说明了本文利用w i k i p e d i a 构建本体的原因。对应用 于搜索引擎的分布式文件存储系统g f s 和h d f s 做了的介绍。 第三章提出语义关联空间概念,详细介绍w i k i p e d i a ,并说明如何从 w i k i p e d i a 网站数据包中解析数据,以获得我们需要的资源。然后介绍如何利 用所的信息进行计算,展开讨论算法结构,计算语义相似度,形成基于本体的 语义关联空间,并对其进行测试实验,检测其可用性。 第四章首先对h d f s 与m o o s e f s 进行了对比,说明了选择m o o s e f s 的原因, 并对m o o s e f s 的结构和工作流程进行了简要介绍。之后,简要介绍了m o o s e f s 各模块功能,不仅给出了m o o s e f s 源码目录层次结构,而且对m o o s e f s 的源文 件功能进行了介绍,并针对优化目的,对相关的各模块功能实现给出了详细的 分析,找到优化点。、 第五章我们进一步指出了控制分布式文件存储系统在每台c h u n k s e r v e r 机 器上占用硬盘资源的最大限额的必要性,并对其代码进行了相应修改优化。然 后开发出适合远程部署机器到集群系统的自动化脚本。最后我们对系统进行了 性能测试,压力测试和优化实验测试。 第六章对硕士研究生期间的工作进行总结,列出了本文在语义关联空间及应 用到搜索引擎中的分布式文件存储系统方面的主要工作,同时对这方面的研究进 行总结和提出有待改进之处。 8 第二章主流知识库和分布式文件系统 第二章主流知识库和分布式文件系统 2 1w o r d n e t 与wikip e dia 在进行语义相似性和相关性度量方面,基于结构化语义知识库w o r d n e t 的度 量一直在这一领域
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 某童装品牌战略咨询计划书
- 地理(山东青岛卷)(A4考试版)
- 大班音乐歌唱春天幼儿读物幼儿教育教育专区
- 上海虹口区2024-2025学年下学期七年级期末考试英语试题(含答案无听力原文及音频)
- 试剂分析性能评估模板资料讲解
- 自动控制系统设计曲面印刷机
- 2025年辽宁省中考英语模拟试题(二)
- 【高中语文】《登岳阳楼》课件+统编版高一语文必修下册
- 建筑施工特种作业-桥(门)式起重机司机真题库-4
- 山东美术英文题目及答案
- 信息隐藏与数字水印课件(全)全书教学教程完整版电子教案最全幻灯片
- 304不锈钢管材质证明书
- 预拌混凝土及原材料检测理论考试题库(含答案)
- 公开招聘社区居委专职工作人员考试笔试、面试题集及相关知识(11套试题含答案)
- 《植物生理学》课件第三章+植物的光合作用
- 游泳馆网架翻新施工组织方案设计
- 有机化学所有的命名--超全.
- 引水罐的设计计算
- 三年级译林版英语下学期按要求写句子专项强化练习题
- 电缆接线工艺设计规范流程
- 中医经络减肥课件
评论
0/150
提交评论