硕士论文-P2P环境下基于Ontology的搜索引擎.pdf

上传人：努*** IP属地：江西上传时间：2020-01-12 格式：PDF 页数：65 大小：1.78MB 积分：0 举报 版权申诉

已阅读5页，还剩60页未读，继续免费阅读

硕士论文-P2P环境下基于Ontology的搜索引擎.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

Y9 8 9 2 0 0 分类号密级研究生学位论文 P 2 P 环境下基于O n t o Io g y 的搜索引擎研究生姓名鳇晶指导教师姓名篮建良熬撞申请学位级别亟专业名称让簋扭应用撞苤论文答辩日期至Q Q 垒5 月2 1 邑学位授予日期2 Q Q 查生鱼目中国海洋大学 P 2 P 环境下基于O n t o l o g y 的搜索引擎摘要搜索引擎是I n t e r n e t 迅猛发展的产物它的出现使信息检索变得非常方便但是随着I n t e r n e t 以及随后出现的W W W 技术的不断发展导致网络所蕴涵的信息量急剧地膨胀面对当前如此庞大的信息数据目前普遍采用的是基于中一L N 务器的传统搜索引擎所以在实际应用过程中很难准确有效快速地查找用户所需的信息因此搜索引擎技术急需进一步的发展和完善来适应新形势的变化本文主要探讨了采用新的信息检索模型一P 2 P 分布式检索模型来增加搜索引擎系统的规模并改善了它的性能论文首先分析了传统的搜索引擎的关键技术发展趋势和面I 临的挑战由此引出将先进的P 2 P 理念与传统的搜索引擎技术相结合的新方法顺应了搜索引擎技术趋向分布式本地化方向发展的趋势采用这种新的基于P 2 P 分布式的搜索模型构建的搜索引擎系统与现有的基于网络蜘蛛的搜索引擎相比较在搜索到的信息的即时性搜索到的内容的深度搜索到的内容的范围广度以及搜索到的结果的精度和效率方面都有较大的改善空间在提高查询准确率方面利用目前发展较快的O n t o l o g y 技术来改善在传统的搜索引擎设计思想下吸收两者的优点为提高搜索引擎的性能提出了一个可行的方案在本论文的设计中针对当前的各个P 2 P 系统的不能相互兼容的问题采用S u n 公司的新一代通用P 2 P 开发平台J X T A 并在此基础上构建了基本的P 2 P 搜索网络定义了位于搜索网络之上的基于J x T A 的搜索引擎系统所需要的服务规范以及实现构建了一种具有高度扩展性的本地化搜索引擎系统模型同时也为有效的提高搜索引擎系统的规模和性能探讨了一条可行之道 P 2 P 搜索引擎的研究在国内外尚处在理论探讨阶段目前并没有较为成熟的商业应用而O n t o l o g y 技术也是下一代互联网一语义W e b 的主要技术也正处于探索阶段本文提出的基于J X T A 的P 2 P 分布式搜索模型借助O n t o l o g y 的语义表达优势构建搜索引擎系统的方法为今后设计和开发具有较高实用价值的搜索引擎系统进行了实际意义一h 的探讨关键词对等网络本体搜索引擎 J X T A O e n a O n t oIo g y b a s e dS e a r c hE n gin eu n d e rP 2 PE n vir o n m e n t A b s t r a c t T h en e t w o r ke p o c hi sc o m i n gw i t ht h er a p i dd e v e l o p m e n to fI n t e r n e t t h r o u g h o u tt h ew o r l d a n dw i t ht h eh i g h s p e e de v o l u t i o no ft h eI n t e r n e ta n d t h eW o r l dW i l dW e b W W W t e c h n o l o g y i n f o r m a t i o nd w e l l i n gi nt h eW e be x p l o d e s d r a m a t i c a l l y T h i sm a k e si td i f f i c u l tf o rt r a d i t i o n a ls e a r c he n g i n e s w h i c h c o m m o n l yr u no nc e n t r a ls e r v e r s t os e a r c hd e s i r e di n f o r m a t i o ne f f i c i e n t l y a c c u r a t e l y a n dc o m p r e h e n s i v e l y T h e r e f o r e t h es e a r c he n g i n et e c h n o l o g y n e e d sf u r t h e ri n v e s t i g a t i o nt om e e tt h ec h a n g eo ft h en e ws i t u a t i o n I nt h i st h e s i s w ei n t r o d u c eap e e r t o p e e r P 2 P d i s t r i b u t e ds e a r c h i n g m o d e lt oe x t e n dt h es c a l eo fs e a r c h i n ge n g i n ea n dt oi m p r o v ei t sp e r f o r m a n c e a sw e l l F i r s t l y w ei n v e s t i g a t et h ek e yt e c h n o l o g i e s d e v e l o p i n gt r e n da n d c h a l l e n g e so ft h et r a d i t i o n a ls e a r c he n g i n et e c h n o l o g y S e c e n d l y an e w m e t h o do fc o m b i n i n gt h ea d v a n c e dP 2 Pm e t h o d o l o g ya n dt h et r a d i t i o n a ls e a r c h e n g i n et e c h n o l o g yi sp r e s e n t e d w h i c hf u l f i l l st h en e e d so fd i s t r i b u t e da n d l o c a l i z e ds e a r c he n g i n e s T h ea d v a n t a g e so fP 2 Pd i s t r i b u t e ds e a r c h i n gm o d e l s u c ha sh i g hp e r f o r m a n c e d e e pa n dw i d es c o p ei nc o n t e n t h i g hp r e c i s i o ni n s e a r c h i n gr e s u l t a r ea n a l y z e d I no r d e rt or e s o l v et h ec o m p a t i b i l i t yp r o b l e me x i s t i n gi nt h e P 2 Ps y s t e m s J X T Ai sa d o p t e da sag e n e r a lP 2 Pd e v e l o p m e n tp l a t f o r mi nt h i st h e s i s B a s e d o nJ X T A ab a s i cP 2 Pn e t w o r ki sc o n s t r u c t e d as p e c i f i c a t i o no fP 2 Ps e a r c h e n g i n ei sd e f i n e da n di m p l e m e n t e d a n dal o c a l i z e ds e a r c he n g i n em o d e lw i t h h i g hs c a l a b i l i t yi sp r e s e n t e d T h i so f f e r saf e a s i b l es o l u t i o nt oi m p r o v e t h es c a l ea n dc a p a b i l i t yo fs e a r c he n g i n es y s t e m T h es t u d yo fP 2 Ps e a r c he n g i n ei ss t i l li nt h et h e o r e t i c a lp h a s e T h i s t h e s i sg i v e sam e t h o d o l o g yt oc o n s t r u c tt h es e a r c he n g i n es y s t e mb a s e do n P 2 Pd i s t r i b u t e d s e a r c h i n gm o d e l w h i c h d e d i c a t e st ot h e d e s i g n a n d d e v e l o p m e n to fav a l u a b l es e a r c he n g i n es y s t e mi nt h ef u t u r e K e y w o r d s P 2 P O n t o I o g y S e a r c hE n g in e J X T A J e n a 独创声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果据我所知除了文中特别加以标注和致谢的地方外论文中不包含其他人已经发表或撰写过的研究成果也不包含未获得注垫遗直基地煎蔓犍别直明的奎拦丑窒2 或其他教育机构的学位或证书使用过的材料与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意学位论文作者签名够扇签字目期沙舟f 月莎日学位论文版权使用授权书本学位论文作者完全了解学校有关保留使用学位论文的规定有权保留并向国家有关部门或机构送交论文的复印件和磁盘允许论文被查阅和借阅本人授权学校可以将学位论文的全部或部分内容编入有关数据库进行检索可以采用影印缩印或扫描等复制手段保存汇编学位论文保密的学位论文在解密后适用本授权书学位论文作者签名缈晶导师签字 f 鲁建莨签字日期妒年局影日签字日期 7 l 年月日学位论文作者毕业后去向工作单位通讯地址电话邮编 P 2 P 环境下基于O n t o l o g y 的搜索引擎 1 绪论 1 1 P 2 P 环境下基于o n t o lo g y 的搜索引擎选题及研究意义随着I n t e r n e t 的迅猛发展我们已经迈进了网络时代 I n t e r n e t 已经深刻地影响了人们传统的日常的工作生活交流的方式它己经成为人们日常生活中不可缺少的一部分 I n t e r n e t 的发展使得人们获取信息的方式到了前所未有的方便特别是I n t e r n e t 与超媒体技术结合所形成的世界范围的W o r l dW i d eW e b 简称洲的飞速发展使得网络上的各种信息资源越来越丰富起来也逐渐出现知识爆炸等字眼截至2 0 0 4 年1 2 月2 3 日 G o o g l e 检索的页面数已经达到了8 0 5 8 0 4 4 6 5 1 但是网络在方便的同时也逐渐显示出弊端人们利用网络的目的主要是获取信息如何在较短时间里较高效率地从浩如烟海的海量信息库中获取自己想要的信息变得越来越困难因此搜索引擎应运而生搜索引擎的出现将人们从繁琐低效的人工检索工作中摆脱出来很快就深受人们的欢迎并获得飞速发展现在已经有了很多优秀的搜索引擎但是都存在种种问题 1 完全依赖服务器的性能一旦出现故障其后果不堪设想等等 2 如果服务器信息更新周期长将有大量过时的信息产生 3 如果服务器不加鉴别只是一味的搜集信息将带来许多无价值的垃圾信息 4 服务器收集的信息有限只能搜索到现有网页数量的2 0 左右 5 在语义检索方面功能十分有限如基于关键字的搜索引擎会将完整的语义信息分割开来造成更泛滥的结果集同时 P 2 P 网络技术和O n t o l o g y 技术也获得了长足的发展两者在信息检索方面都有着自身的有点比如前者可以进行分布式检索获取更广阔的信息后果在语义处理方面有着无可比拟的优势两者如果能很好地结合在一起正好可以符合信息检索的查全率和查准率两大指标而且弥补了现有搜索引擎的不足因此这个课题对改善搜索引擎的性能有着重大的研究意义 1 2 选题背景在进行本论文的研究之前我一直对W e b 技术的应用研究与开发工作很感兴趣 P 2 P 环境下基于O n t o l o g y 的搜索引擎研究的领域涉及数据库与W e b 的连接 W e b 应用开发等多方面在此基础上我又深入的研究了T C P H T T P 等相关的网络传输协议通过长时间的应用研究工作对 W e b 的应用发展以及网站内部搜索引擎的工作机制等方面都有了比较深刻的了解当P 2 P 网络技术兴起的时候它在信息检索方面的优势吸引我对其进行了大量研究并通过深入研究了S U N 公司的新一代P 2 P 通用平台J X T A 的相关协议在基于J X T A 平台的P 2 P 应用系统构建上做了大量实践探讨工作为了在语义信息处理方面找到好的解决途径我又研究了大量的有关O n t o l o g y 的理论最终选择 P 2 P 环境下基于O n t o l o g y 的搜索引擎这个课题作为毕业论文希望将两者的优势引入传统的搜索引擎技术中去为有效的提高搜索引擎系统的规模与性能探讨出可行之道 1 3 研究的主要内容论文的主要目的在于构建P 2 P 环境下基于O n t o l o g y 的搜索引擎系统模型论文将分别就以下内容展开阐述 i 搜索引擎技术 2 P 2 P 技术 3 O n Z o l o g y 技术 4 J X T A 技术 5 利用J X T A 平台构建P 2 P 环境下基于O n t o l o g y 的搜索引擎 6 总结及展望 1 4 论文的研究结论及应用前景本论文研究了P 2 P 环境下基于O n t o l o g y 的搜索引擎模型将先进的P 2 P 理念与传统的搜索技术相结合为面f 临迅猛发展I n t e r n e t 而已经显得力不从心的传统搜索引擎技术的进一步发展提供一种新的思路和解决之道在现有的P 2 P 系统不能够互相通信的情况下论文采用S u n 公司的通用P 2 P 编程平台J X T A 构建搜索网络构建了一个具有高度扩展性的搜索网络分布式的体系结构更有利于深度和广度搜索设计中的P 2 P 搜索引擎系统的搜索机制的实现是建立在J X T A 体系中的内容管理服务基础上的实现了对元数据的搜索如果将更多功能更加全面的搜索效率更高的实现本地搜索的软件包引入之后就可以得到一 P 2 P 环境下基于O n t o l o g y 的搜索引擎个功能丰富全面高度个性化本地化的搜索引擎系统原型本论文的研究方向是下一代搜索引擎系统未来发展的个重要方向 P 2 P 环境下基于O n t o l o g y 的搜索引擎 2 搜索引擎技术 2 1 搜索引擎发展历史在互联网发展初期网站相对较少信息查找比较容易然而伴随互联网爆炸性的发展普通网络用户想找到所需的资料简直如同大海捞针这时为满足大众信息检索需求的专业搜索网站便应运而生了现代意义上的搜索引擎的祖先是1 9 9 0 年由蒙特利尔大学学生A l a nE m t a g e 发明的A r c h i e 虽然当时W o r l dW i d eW e b 还未出现但网络中文件传输还是相当频繁的而且由于大量的文件散布在各个分散的F T P 主机中查询起来非常不便因此A l a nA r c h i e 工作原理与现在的搜索引擎已经很接近它依靠脚本程序自动搜索网上的文件然后对有关信息进行索引供使用者以一定的表达式查询由于A r c h i e 深受用户欢迎受其启发美国内华达S y s t e mC o m p u t i n gS e r v i c e s 大学于1 9 9 3 年开发了另一个与之非常相似的搜索工具不过此时的搜索工具除了索引文件外已能检索网页0 1 当时机器人一词在编程者中十分流行电脑机器人 C o m p u t e rR o b o t 是指某个能以人类无法达到的速度不问断地执行某项任务的软件程序由于专门用于检索信息的机器人程序像蜘蛛一样在网络间爬来爬去因此搜索引擎的机器人程序就被称为蜘蛛程序世界上第一个用于监测互联网发展规模的机器人程序是M a t t h e wG r a y 开发的W o r l dw i d eW e bW a n d e r e r 刚开始它只用来统计互联网上的服务器数量后来则发展为能够检索网站域名与W a n d e r e r 相对应 M a r t i nK o s t e r 于1 9 9 3 年1 0 月创建了A L I W E B 它是A r c h i e 的H T T P 版本 A L I W E B 不使用机器人程序而是靠网站主动提交信息来建立自己的链接索引类似于现在我们熟知的Y a h o o 1 随着互联网的迅速发展使得检索所有新出现的网页变得越来越困难因此在M a t t h e wG r a y 的W a n d e r e r 基础上一些编程者将传统的蜘蛛程序工作原理作了些改进其设想是既然所有网页都可能有连向其他网站的链接那么从跟踪一个网站的链接开始就有可能检索整个互联网到1 9 9 3 年底一些基于此原理的搜索引擎开始纷纷涌现其中以J u m p S t a t i o n T h eW o r l dW i d eW e bW o r m C o t o 的前身也就是今天O v e r t u r e 和R e p o s i t o r y B a s e dS o f t w a r eE n g i n e e r i n g R B S E 4 P 2 P 环境下基于O n t o l o g y 的搜索引擎 s p i d e r 最负盛名然而J u m p S t a t i o n 和w w wW o r m 只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果因此毫无信息关联度可言而R B S E 是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎最早现代意义上的搜索引擎出现于1 9 9 4 年7 月当时M i c h a e lM a u l d i n 将 J o h nL e a v i t t 的蜘蛛程序接入到其索引程序中创建了大家现在熟知的L y c o s 同年4 月斯坦福 S t a n f o r d 大学的两名博士生 D a v i dF i l o 和美籍华人杨致远 G e r r yY a n g 共同创办了超级目录索引Y a h o o 并成功地使搜索引擎的概念深入人心从此搜索引擎进入了高速发展时期目前互联网上有名有姓的搜索引擎已达数百家其检索的信息量也与从前不可同日而语比如G o o g l e 其数据库中存放的网页己达3 0 亿之巨而B a i d u 也已经成为最大的中文搜索引擎随着互联网规模的急剧膨胀一家搜索引擎光靠自己单打独斗已无法适应目前的市场状况因此现在搜索引擎之间开始出现了分工协作并有了专业的搜索引擎技术和搜索数据库服务提供商像国外的I n k t o m i 它本身并不是直接面向用户的搜索引擎但向包括O v e r t u r e 原G o T o L o o k S m a r t M S N H o t B o t 等在内的其他搜索引擎提供全文网页搜索服务国内的百度也属于这一类注搜狐和新浪用的就是它的技术因此从这个意义上说它们是搜索引擎的搜索引擎 1 2 2 搜索引擎的分类搜索引擎按其工作方式主要可分为三种 3 分别是全文搜索引擎 F u l lT e x tS e a r c hE n g i n e 目录索引类搜索引擎 S e a r c hI n d e x D i r e c t o r y 和元搜索引擎 M e t aS e a r c hE n g i n e 2 2 1 全文搜索引擎全文搜索引擎是名副其实的搜索引擎国外极具代表性的有G o o g l e F a s t A l l T h e W e b A 1 t a V is t a I n k t o m i T e o m a W i s e N u t 等国内著名的有百度 B a i d u 中搜等它们都是通过从互联网上提取的各个网站的信息以网页文字为主而建立的数据库中检索与用户查询条件匹配的相关记录然后按一定的排列顺序将结果返回给用户因此他们是真正的搜索引擎从搜索结果来源的角度全文搜索引擎又可细分为两种一种是拥有自己的检 P 2 P 环境下基于O n t o l o g y 的搜索引擎索程序 I n d e x e r 俗称蜘蛛 S p i d e r 程序或机器人 R o b o t 程序并自建网页数据库搜索结果直接从自身的数据库中调用如上面提到的几家引擎另一种则是租用其他引擎的数据库并按自定的格式排列搜索结果如L y c o s 引擎 2 2 2 目录索弓目录索引虽然有搜索功能但在严格意义上算不上是真正的搜索引擎仅仅是按目录分类的网站链接列表而己用户完全可以不用进行关键词 K e y w o r d s 查询仅靠分类目录也可找到需要的信息目录索引中最具代表性的莫过于大名鼎鼎的 Y a h o o 雅虎其他著名的还有O p e nD i r e c t o r yP r o j e c t D M O Z L o o k S m a r t A b o u t 等国内的搜狐新浪网易搜索也都属于这一类 2 2 3 元搜索引擎 M E T AS e a r c hE n g in e 元搜索引擎在接受用户查询请求时同时在其他多个引擎上进行搜索并将结果返回给用户著名的元搜索引擎有I n f o S p a c e D o g p i l e V i v i s i m o 等元搜索引擎列表中文元搜索引擎中具代表性的有搜星搜索引擎在搜索结果排列方面有的直接按来源引擎排列搜索结果如D o g p i l e 有的则按自定的规则将结果重新排列组合如V i v i s i m o 2 2 4 其他除上述三大类引擎外还有以下几种非主流形式 3 1 集合式搜索引擎如H o t B o t 在2 0 0 2 年底推出的引擎该引擎类似M E T A 搜索引擎但区别在于不是同时调用多个引擎进行搜索而是由用户从提供的4 个引擎当中选择因此叫它集合式搜索引擎更确切些 2 门户搜索引擎如A O LS e a r c h M S NS e a r c h 等虽然提供搜索服务但自身即没有分类目录也没有网页数据库其搜索结果完全来自其他引擎 3 免费链接列表 F r e eF o r A l lL i n k s 简称F F A 这类网站一般只简单地滚动排列链接条目少部分有简单的分类目录不过规模比起Y a h o o 等目录索引来要小得多由于上述网站都为用户提供搜索查询服务通常将其统称为搜索引擎 6 P 2 P 环境下基于O n t o l o g y 的搜索引擎 2 3 搜索引擎工作原理 2 3 1 全文搜索引擎在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念搜索引擎的自动信息搜集功能分两种 1 一种是定期搜索即每隔一段时间比如G o o g l e 一般是2 8 天搜索引擎主动派出蜘蛛程序对一定I P 地址范围内的互联网站进行检索一旦发现新的网站它会自动提取网站的信息和网址加入自己的数据库另一种是提交网站搜索即网站拥有者主动向搜索引擎提交网址它在一定时间内 2 天到数月不等定期向你的网站派出蜘蛛程序扫描你的网站并将有关信息存入数据库以备用户查询由于近年来搜索引擎索引规则发生了很大变化主动提交网址并不保证你的网站能进入搜索引擎数据库因此目前最好的办法是多获得一些外部链接让搜索引擎有更多机会找到你并自动将你的网站收录当用户以关键词查找信息时搜索引擎会在数据库中进行搜寻如果找到与用户要求内容相符的网站便采用特殊的算法通常根据网页中关键词的匹配程度出现的位置频次链接质量等计算出各网页的相关度及排名等级然后根据关联度高低按顺序将这些网页链接返回给用户 2 3 2 目录索弓与全文搜索引擎相比目录索引有许多不同之处首先搜索引擎属于自动网站检索而目录索引则完全依赖手工操作用户提交网站后目录编辑人员会亲自浏览你的网站然后根据一套自定的评判标准甚至编辑人员的主观印象决定是否接纳你的网站其次搜索引擎收录网站时只要网站本身没有违反有关的规则一般都能登录成功而目录索引对网站的要求则高得多有时即使登录多次也不一定成功尤其像Y a h o o 这样的超级索引登录更是困难此外在登录搜索引擎时我们一般不用考虑网站的分类问题而登录目录索引时则必须将网站放在一个最合适的目录 D i r e c t o r y 最后搜索引擎中各网站的有关信息都是从用户网页中自动提取的所以用户 1 P 2 P 环境下基于O n t o l o g y 的搜索引擎的角度看我们拥有更多的自主权而目录索引则要求必须手工另外填写网站信息而且还有各种各样的限制更有甚者如果工作人员认为你提交网站的泪录网站信息不合适他可以随时对其进行调整当然事先是不会和你商量的目录索引顾名思义就是将网站分门别类地存放在相应的目录中因此用户在查询信息时可选择关键词搜索也可按分类目录逐层查找如以关键词搜索返回的结果跟搜索引擎一样也是根据信息关联程度排列网站只不过其中人为因素要多一些如果按分层目录查找某一目录中网站的排名则是由标题字母的先后顺序决定也有例外目前搜索引擎与目录索引有相互融合渗透的趋势原来一些纯粹的全文搜索引擎现在也提供目录搜索如G o o g l e 就借用O p e nD i r e c t o r y 目录提供分类查询而像Y a h o o 这些老牌目录索引则通过与G o o g l e 等搜索引擎合作扩大搜索范围在默认搜索模式下一些目录类搜索引擎首先返回的是自己目录中匹配的网站如国内搜狐新浪网易等而另外一些则默认的是网页搜索如Y a h o o 2 4 现有搜索引擎的缺陷 1 搜索的结果太广泛在互联网上寻找信息就如同大海捞针搜索引擎没有帮你找到大海中的那根针而是给了你整个大海要解决这种问题通常要尝试多种关键词的组合输入耗费时间较多 2 搜索的网页无法显示搜索到的网站已转移但是新的链接地址未知比如网站已经关闭原有网页从免费社区搬到有独立域名的大网站了人们改变I S P 了等等 3 有价值的网页无法再次获取当你上次搜到了很有价值的内容想再次浏览时却发现无法再找到了利用同样的搜索方法进行搜索都只是返回一堆无用的结果真正要找的网页已经不见了因为搜索引擎会永不停息的从它们的索引库中抛弃已索引的网页有时是成千上万的网页这些被遗弃的网页有的会重新出现在更新的索引库中有的则不会 4 搜索引擎对常见词的搜索存在缺陷因为常见词曝光率太高以至于重复出现在成百万网页中使得它们事实上不能被用来帮你找到什么有用的内容比如搜索电话有无数网站提供跟电 8 P 2 P 环境下基于O n t o l o g y 的搜索引擎话相关的信息从网上黄页到电话零售商到个人电话号码都有搜索的结果只能使用户产生眼花缭乱的感觉以致于放弃搜索 5 不能理解和辨别多义词比如让搜索引擎搜索 J a v a 但是你要找的信息究竟是太平洋上的个岛一种著名的咖啡还是一种计算机语言对搜索引擎而言是无法判断的搜索引擎不是全能的导游而是非常机械的当你用关键词搜索的时候它只会把含有这个关键词的网页找出来根本不管网页上的内容是什么因此你只能针对不同的需要去设计较好的关键字进行搜索 6 搜索引擎的滞后性搜索引擎从抓取网页解析索引到提供搜索是有一个周期的各搜索引擎的信息滞后周期为一周到一月不等用搜索引擎是找不到最新内容只能找到一个星期或一个月以前的内容另外搜索引擎对动态内容如论坛数据库内容以及带f r a m e 结构的网页搜索能力较弱所以这类信息也不适合用搜索引擎搜索而是应该去相关的网站寻找 7 掌握正确的搜索技术有较高的要求利用搜索引擎时要想得到较好的结果需要用户掌握一些基本技巧比如设计多种关键字进行组合搜索关键字的输入要避免错别字当出现链接失效时能正确地解决问题等这样就会对用户有所限制 P 2 P 环境下基于O n t o l o g y 的搜索引擎 3 对等网络技术 3 1 对等网络简介对等网络 P 2 P p e e r t o p e e r 的简写是目前流行的网络新技术发展迅猛甚至被认为是无线宽带互联网的未来技术0 3 P 2 P 技术不仅为个人用户提供了前所未有的自由和便利同时也试图有效地整合互联网的潜在资源将基于网页的互联网转变成动态存取自由交互的海量信息网络 P 2 P 技术的发展以及P 2 P 与网格技术的结合将影响整个计算机网络的概念和人们的信息获取模式真正实现网络就是计算机计算机就是网络的梦想 P 2 P 网络是一种具有较高扩展性的分布式系统结构其对等概念是指网络中的物理节点在逻辑上具有相同的地位而并非处理能力的对等以N a p s t e r 软件为代表的P 2 P 技术其实质在于将互联网的集中管理模式引向分散管理模式将内容从中央单一节点引向网络的边缘从而充分利用互联网中众多终端节点所蕴涵的处理能力和潜在资源相对于传统的集中式客户 N 务器 C S 模型 P 2 P 弱化了服务器的概念系统中的各个节点不再区分服务器和客户端的角色关系每个节点既可请求服务也可提供服务节点之间可以直接交换资源和服务而不必通过服务器 P 2 P 系统最大的特点就是用户之间直接共享资源其核心技术就是分布式对像的定位机制这也是提高网络可扩展性解决网络带宽被吞噬的关键所在 P 2 P 技术让用户可以直接连接到其他用户的计算机进行文件共享与交换另外P 2 P 在深度搜索分布计算协同工作等方面也大有用途 3 2P 2 P 网络模型迄今为止 P 2 P 网络已经历了三代不同网络模型各种模型各有优缺点有的还存在着本身难以克服的缺陷因此在目前P 2 P 技术还远未成熟的阶段各种网络结构依然能够共存甚至呈现相互借鉴的形式目前认为P 2 P 网络有4 种典型结构现分别进行简要阐述如下 1 P 2 P 环境下基于O n t o l o g y 的搜索引擎 3 2 1 集中目录式结构集中目录式P Z P 结构是最早出现的P 2 P 应用模式因为仍然具有中心化的特点也被称为非纯粹的P 2 P 结构用于共享M P 3 音乐文件的N a p s t e r 是其中最典型的代表见图1 口 M 其用户注册与文件检索过程类似于传统的c s 模式区别在于所有资料并非存储在服务器上而是存贮在各个节点中查询节点根据网络流量和延迟等信息选择合适的节点建立直接连接而不必经过中央服务器进行这种网络结构非常简单但是它显示了P 2 P 系统信息量巨大的优势和吸引力同时也揭示了P 2 P 系统本质上所不可避免的两个问题法律版权和资源浪费的问题 3 2 2 纯P 2 P 网络模型纯P 2 P 模式也被称作广播式的P 2 P 模型它取消了集中的中央服务器每个用户随机接入网络并与自己相邻的一组邻居节点通过端到端连接构成一个逻辑覆盖的网络对等节点之间的内容查询和内容共享都是直接通过相邻节点广播接力传递同时每个节点还会记录搜索轨迹以防止搜索环路的产生 G n u t e l l a 6 模型是现在应用最广泛的纯P 2 P 非结构化拓扑结构见图2 P e e r P 2 P 环境下基于O n t o l o g y 的搜索引擎拳争阉2 纯P 2 P 酬络模型它解决了网络结构中心化的问题扩展性和容错性较好但是G n u t e l l a 网络中的搜索算法以泛洪的方式进行控制信息的泛滥消耗了大量带宽并很快造成网络拥塞甚至网络的不稳定同时局部性能较差的节点可能会导致G n u t e l l 弓网络被分片从而导致整个网络的可用性较差另外这类系统更容易受到垃圾信息甚至是病毒的恶意攻击 3 2 3 混合式网络模型 K a z a a 1 模型是P 2 P 混合模型的典型代表见图3 它在纯P 2 P 分布式模型基础 P 2 P 环境下基于O n t o l o g y 的搜索引擎撂Pcer 4 攀一摹圈3 混合网络模型 c c r 上引入了超级节点 S u p e rP e e r 的概念综合了集中式P 2 P 快速查找和纯P 2 P 去中心化的优势 K a z a a 模型将节点按能力不同计算能力内存大小连接带宽网络滞留时间等区分为普通节点和搜索节点两类也有的进一步分为三类节点其思想本质相同其中搜索节点与其临近的若干普通节点之间构成一个自治的簇簇内采用基于集中目录式的P 2 P 模式而整个P 2 P 网络中各个不同的簇之间再通过纯P 2 P 的模式将搜索节点相连起来甚至也可以在各个搜索节点之间再次选取性能最优的节点或者另外引入一个新的性能最优的节点作为索引节点来保存整个网络中可以利用的搜索节点信息并且负责维护整个网络的结构由于普通节点的文件搜索先在本地所属的簇内进行只有查询结果不充分的时候再通过搜索节点之间进行有限的洪泛这样就极为有效地消除纯P 2 P 结构中使用洪泛算法带来的网络拥塞搜索迟缓等不利影响同时由于每个簇中的搜索节点都监控着所有普通节点的行为这也能确保一些恶意的攻击行为能在网络局部得到控制并且超级节点的存在也能在一定程度上提高整个网络的负载平衡总的来说基于超级节点的混合式P 2 P 网络结构比以往有较大程度的改进然而由于超级节点本身的脆弱性也可能导致其簇内的结点处于孤立状态因此这种局部索引的方法仍然存在一定的局限性这导致了结构化的P 2 P 网络模型的出现 P 2 P 环境下基于O n t o l o g y 的搜索引擎 3 2 4 结构化网络模型所谓结构化与非结构化模型的根本区别在于每个节点所维护的邻居是否能够按照某种全局方式组织起来以利于快速查找结构化P 2 P 模式是一种采用纯分布式的消息传递机制和根据关键字进行查找的定位服务目前的主流方法是采用分布式哈希表 D H T 技术这也是目前扩展性最好的P 2 P 路由方式之一由于D H T 各节点并不需要维护整个网络的信息只在节点中存储其临近的后继节点信息因此较少的路由信息就可以有效地实现到达目标节点同时又取消了洪泛算法该模型有效地减少了节点信息的发送数量从而增强了 P 2 P 网络的扩展性同时出于冗余度以及延时的考虑大部分D H T 总是在节点的虚拟标识与关键字最接近的节点上复制备份冗余信息这样也避免了单一节点失效的问题目前基于D H T 的代表性的研究项目主要包括加州大学伯克利分校的C A N 项目和 T a p e s t r y 项目麻省理工学院的C h o r d 项目 I R I S 项目以及微软研究院的P a s t r y 项目等这些系统一般都假定节点具有相同的能力这对于规模较小的系统较为有效但这种假设并不适合大规模的I n t e r n e t 部署同时基于D H T 的拓扑维护和修复斗算法也比G n u t e l l a 模型和K a z a a 模型等无结构的系统要复杂得多甚至在C h o r d 项目中产生了绕路的问题事实上目前大量实际应用还大都是基于无结构的拓扑和洪泛广播机制现在大多采用D H T 方式的P 2 P 系统缺乏在I n t e r n e t 中大规模部署的实例成功应用还比较少见 3 3P 2 P 网络应用模式 I n t e r n e t 最初产生和发展的一个主动力就是资源共享也正是文件交换的需求直接导致了P 2 P 技术的兴起这是P 2 P 最初也是最成功的应用之一也正是针对这类应用的N a p s t e r 使得人们在客户 N 务器模式下开始重新认识P 2 P 思想对人们使用网络习惯的影响随着人们对P 2 P 思想的理解和技术的发展作为一种软件架构 P 2 P 还可以被开发出种类繁多的应用模式除了最初的文件交换之外还出现了一些分布式存储深度搜索分布式计算个人即时通信和协同工作等新颖应用其中最著名的例子是基于分布式计算的搜索外星文明S E T I h o m e 1 科学实验每个志愿参加者只需下载并运行类似屏幕保护的方式就可以贡献自己闲置的计算能力参与分析A r e c i b o 射电望远镜的无线电磁波数据并回送计算数据截至2 0 0 4 年1 2 月已有5 2 8 万志 1 4 P 2 P 环境下基于O n t o l o g y 的搜索引擎愿者参加进来获得了相当于2 1 6 万年的C P U 时间仅一天的综合计算就相当于 6 7 4 6 T f l o p s 运算另外随着S u n 公司将其J X T A 协议扩展到诸如个人数字助理 P D A 和移动电话等手持终端上并允许人们屏蔽具体的物理平台进行资料共享和文件交换等 P 2 P 技术在移动通信和智能网领域也开始呈现出较大应用前景 3 4P 2 P 网络面临的问题 P 2 P 最大的优点在于能够提供可靠的信息查询但从社会和法律意义来说绝大多数的P 2 P 服务都将不可避免地遇到知识产权冲突也可能成为一些非法内容传播的平台同时由于缺乏中心监管以及自由平等的动态特性自组织的P 2 P 网络在技术层面也有许多难以解决的问题从某种意义上来说 P 2 P 网络和人际网络具有一定的相似性一般来说每个 P 2 P 网络都是众多参与者按照共同兴趣组建起来的一个虚拟组织节点之间存在着一种假定的相互信任关系但随着P 2 P 网络规模的扩大这些P 2 P 节点本质所特有的平等自由的动态特性往往与网络服务所需要的信任协作模型之间产生矛盾激励作用的缺失使节点问更多表现出贪婪抱怨和欺诈的自私行为因此 P 2 P 中预先假设的信任机制实际上非常脆弱同时这种信任也难以在节点之间进行推理导致了全局性信任的缺乏这直接影响了整个网络的稳定性与可用性此外相对于传统客户 I f 务器模式的服务器可以做主动和被动的防御由于P 2 P 节点安全防护手段的匮乏以及P 2 P 协议缺乏必要的认证机制和计算机操作系统的安全漏洞安全问题在P 2 P 网络中更为严重这将直接影响P 2 P 的大规模商用另外 P 2 P 网络中的节点本身往往是计算能力相差较大的异构节点每一个节点都被赋予了一相同的职责而没有考虑其计算能力和网络带宽局部性能较差的点将会导致整体网络性能的恶化在这种异构节点的环境中难以实现优化的资源管理和负载平衡同时由于用户加入离开P 2 P 网络的随意性使得用户获得目标文件具有不确定性导致许多并非必要的文件下载而造成大量带宽资源的滥用特别是大多数P 2 P 用户更喜欢传送音频视频这些较大的媒体文件这将使得带宽浪费问题更为突出尤其在国内大量的用户还是拨号用户较窄的带宽也成为P 2 P 应用难以逾越的障碍未来的网络将呈现大规模分布式全球性计算和全球性存储的特征从长远的趋势来看对于访问和传输服务的需求必将远远大于对于计算功能的需要尽管P 2 P 技术现在还不成熟但是迄今为止至少在理论上P 2 P 仍是最有吸引力的个人通信 I P 2 P 环境下基于O n t o l o g y 的搜索引擎技术尤其是P 2 P 与网格技术的结合将是分布式计算技术最有吸引力的发展趋势虽然现在还没有成熟的方案但随着分布式系统经典问题的解决以及优化的资源动态分配和资源恢复技术的成熟 P 2 P 与网格技术必将结合起来以影响整个计算机网络的概念和人们的信息获取模式 P 2 P 环境下基于O n t o l o g y 的搜索引擎 4 O n t o I o g y 技术 4 1 本体 O n t o I o g y 简介 O n t o l o g y 的概念最初起源于哲学领域 3 可以追溯到公元前古希腊哲学家亚里士多德它在哲学中的定义为对世界上客观存在物的系统地描述即存在论是客观存在的一个系统的解释或说明关心的是客观现实的抽象本质在人工智能界最早给出O n t o l o g y 定义的是N e c h e s 等人他们将O n t o l o g y 定义为给出构成相关领域词汇的基本术语和关系以及利用这些术语和关系构成的规定这些词汇外延的规则的定义 N e c h e s 认为本体定义了组成主题领域的词汇表的基本术语及其关系以及结合这些术语和关系来定义词汇表外延的规则后来在信息系统知识系统等领域越来越多的人研究O n t o l o g y 并给出了许多不同的定义其中最著名并被引用得最为广泛的定义是由G r u b e r 提出的

人人文库> 全部分类> 应用文书 > 项目管理

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

硕士论文-P2P环境下基于Ontology的搜索引擎.pdf

文档简介

温馨提示

最新文档

评论

硕士论文-P2P环境下基于Ontology的搜索引擎.pdf

文档简介

温馨提示

最新文档

评论

相关文档