硕士论文-P2P环境下基于Ontology的搜索引擎.pdf_第1页
硕士论文-P2P环境下基于Ontology的搜索引擎.pdf_第2页
硕士论文-P2P环境下基于Ontology的搜索引擎.pdf_第3页
硕士论文-P2P环境下基于Ontology的搜索引擎.pdf_第4页
硕士论文-P2P环境下基于Ontology的搜索引擎.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

硕士论文-P2P环境下基于Ontology的搜索引擎.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Y9 8 9 2 0 0 分类号 密级 研究生学位论文 P 2 P 环境下基于O n t o Io g y 的 搜索引擎 研究生姓名鳇晶 指导教师姓名篮建良熬撞 申请学位级别亟 专业名称让簋扭应用撞苤 论文答辩日期至Q Q 垒5 月2 1 邑学位授予日期2 Q Q 查生鱼目 中国海洋大学 P 2 P 环境下基于O n t o l o g y 的搜索引擎 摘要 搜索引擎是I n t e r n e t 迅猛发展的产物 它的出现使信息检索变得非常方 便 但是 随着I n t e r n e t 以及随后出现的W W W 技术的不断发展 导致网络所 蕴涵的信息量急剧地膨胀 面对当前如此庞大的信息数据 目前普遍采用的是 基于中一L N 务器的传统搜索引擎 所以在实际应用过程中很难准确 有效 快 速地查找用户所需的信息 因此 搜索引擎技术急需进一步的发展和完善来适 应新形势的变化 本文主要探讨了采用新的信息检索模型一P 2 P 分布式检索模型 来增加搜 索引擎系统的规模并改善了它的性能 论文首先分析了传统的搜索引擎的关键 技术 发展趋势和面I 临的挑战 由此引出将先进的P 2 P 理念与传统的搜索引擎 技术相结合的新方法 顺应了搜索引擎技术趋向分布式 本地化方向发展的趋 势 采用这种新的基于P 2 P 分布式的搜索模型构建的搜索引擎系统 与现有的 基于 网络蜘蛛 的搜索引擎相比较 在搜索到的信息的即时性 搜索到的内 容的深度 搜索到的内容的范围广度以及搜索到的结果的精度和效率方面都有 较大的改善空间 在提高查询准确率方面 利用目前发展较快的O n t o l o g y 技 术来改善 在传统的搜索引擎设计思想下吸收两者的优点 为提高搜索引擎的 性能提出了一个可行的方案 在本论文的设计中 针对当前的各个P 2 P 系统的不能相互兼容的问题 采 用S u n 公司的新一代通用P 2 P 开发平台J X T A 并在此基础上构建了基本的P 2 P 搜索网络 定义了位于搜索网络之上的基于J x T A 的搜索引擎系统所需要的服 务规范以及实现 构建了一种具有高度扩展性的本地化搜索引擎系统模型 同 时也为有效的提高搜索引擎系统的规模和性能探讨了一条可行之道 P 2 P 搜索引擎的研究在国内外尚处在理论探讨阶段 目前并没有较为成熟 的商业应用 而O n t o l o g y 技术也是下一代互联网一语义W e b 的主要技术 也 正处于探索阶段 本文提出的基于J X T A 的P 2 P 分布式搜索模型 借助O n t o l o g y 的语义表达优势构建搜索引擎系统的方法 为今后设计和开发具有较高实用价 值的搜索引擎系统进行了实际意义一h 的探讨 关键词 对等网络 本体 搜索引擎 J X T A O e n a O n t oIo g y b a s e dS e a r c hE n gin eu n d e rP 2 PE n vir o n m e n t A b s t r a c t T h en e t w o r ke p o c hi sc o m i n gw i t ht h er a p i dd e v e l o p m e n to fI n t e r n e t t h r o u g h o u tt h ew o r l d a n dw i t ht h eh i g h s p e e de v o l u t i o no ft h eI n t e r n e ta n d t h eW o r l dW i l dW e b W W W t e c h n o l o g y i n f o r m a t i o nd w e l l i n gi nt h eW e be x p l o d e s d r a m a t i c a l l y T h i sm a k e si td i f f i c u l tf o rt r a d i t i o n a ls e a r c he n g i n e s w h i c h c o m m o n l yr u no nc e n t r a ls e r v e r s t os e a r c hd e s i r e di n f o r m a t i o ne f f i c i e n t l y a c c u r a t e l y a n dc o m p r e h e n s i v e l y T h e r e f o r e t h es e a r c he n g i n et e c h n o l o g y n e e d sf u r t h e ri n v e s t i g a t i o nt om e e tt h ec h a n g eo ft h en e ws i t u a t i o n I nt h i st h e s i s w ei n t r o d u c eap e e r t o p e e r P 2 P d i s t r i b u t e ds e a r c h i n g m o d e lt oe x t e n dt h es c a l eo fs e a r c h i n ge n g i n ea n dt oi m p r o v ei t sp e r f o r m a n c e a sw e l l F i r s t l y w ei n v e s t i g a t et h ek e yt e c h n o l o g i e s d e v e l o p i n gt r e n da n d c h a l l e n g e so ft h et r a d i t i o n a ls e a r c he n g i n et e c h n o l o g y S e c e n d l y an e w m e t h o do fc o m b i n i n gt h ea d v a n c e dP 2 Pm e t h o d o l o g ya n dt h et r a d i t i o n a ls e a r c h e n g i n et e c h n o l o g yi sp r e s e n t e d w h i c hf u l f i l l st h en e e d so fd i s t r i b u t e da n d l o c a l i z e ds e a r c he n g i n e s T h ea d v a n t a g e so fP 2 Pd i s t r i b u t e ds e a r c h i n gm o d e l s u c ha sh i g hp e r f o r m a n c e d e e pa n dw i d es c o p ei nc o n t e n t h i g hp r e c i s i o ni n s e a r c h i n gr e s u l t a r ea n a l y z e d I no r d e rt or e s o l v et h ec o m p a t i b i l i t yp r o b l e me x i s t i n gi nt h e P 2 Ps y s t e m s J X T Ai sa d o p t e da sag e n e r a lP 2 Pd e v e l o p m e n tp l a t f o r mi nt h i st h e s i s B a s e d o nJ X T A ab a s i cP 2 Pn e t w o r ki sc o n s t r u c t e d as p e c i f i c a t i o no fP 2 Ps e a r c h e n g i n ei sd e f i n e da n di m p l e m e n t e d a n dal o c a l i z e ds e a r c he n g i n em o d e lw i t h h i g hs c a l a b i l i t yi sp r e s e n t e d T h i so f f e r saf e a s i b l es o l u t i o nt oi m p r o v e t h es c a l ea n dc a p a b i l i t yo fs e a r c he n g i n es y s t e m T h es t u d yo fP 2 Ps e a r c he n g i n ei ss t i l li nt h et h e o r e t i c a lp h a s e T h i s t h e s i sg i v e sam e t h o d o l o g yt oc o n s t r u c tt h es e a r c he n g i n es y s t e mb a s e do n P 2 Pd i s t r i b u t e d s e a r c h i n gm o d e l w h i c h d e d i c a t e st ot h e d e s i g n a n d d e v e l o p m e n to fav a l u a b l es e a r c he n g i n es y s t e mi nt h ef u t u r e K e y w o r d s P 2 P O n t o I o g y S e a r c hE n g in e J X T A J e n a 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果 据我所知 除了文中特别加以标注和致谢的地方外 论文中不包含其他人已经发表或撰写 过的研究成果 也不包含未获得 注 垫遗直基地煎蔓犍别直明 的 奎拦丑窒2 或其他教育机构的学位或证书使用过的材料 与我一同工作的同志对本研 究所做的任何贡献均已在论文中作了明确的说明并表示谢意 学位论文作者签名 够扇 签字目期 沙 舟f 月莎日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留 使用学位论文的规定 有权保留并向国家有 关部门或机构送交论文的复印件和磁盘 允许论文被查阅和借阅 本人授权学校可以将学 位论文的全部或部分内容编入有关数据库进行检索 可以采用影印 缩印或扫描等复制手 段保存 汇编学位论文 保密的学位论文在解密后适用本授权书 学位论文作者签名 缈晶 导师签字 f 鲁建莨 签字日期 妒 年局影 日签字日期 7 l 年 月 日 学位论文作者毕业后去向 工作单位 通讯地址 电话 邮编 P 2 P 环境下基于O n t o l o g y 的搜索引擎 1 绪论 1 1 P 2 P 环境下基于o n t o lo g y 的搜索引擎选题及研究意义 随着I n t e r n e t 的迅猛发展 我们已经迈进了网络时代 I n t e r n e t 已经深刻地 影响了人们传统的日常的工作 生活 交流的方式 它己经成为人们日常生活中不 可缺少的一部分 I n t e r n e t 的发展 使得人们获取信息的方式到了前所未有的方便 特别是I n t e r n e t 与超媒体技术结合所形成的世界范围的W o r l dW i d eW e b 简称洲 的飞速发展 使得网络上的各种信息资源越来越丰富起来 也逐渐出现 知识爆炸 等字眼 截至2 0 0 4 年1 2 月2 3 日 G o o g l e 检索的页面数已经达到了8 0 5 8 0 4 4 6 5 1 但是网络在方便的同时也逐渐显示出弊端 人们利用网络的目的主要是获取 信息 如何在较短时间里较高效率地从浩如烟海的海量信息库中获取自己想要的信 息 变得越来越困难 因此搜索引擎应运而生 搜索引擎的出现将人们从繁琐低效 的人工检索工作中摆脱出来 很快就深受人们的欢迎并获得飞速发展 现在已经有 了很多优秀的搜索引擎 但是都存在种种问题 1 完全依赖服务器的性能 一旦出现故障 其后果不堪设想等等 2 如果服务器信息更新周期长 将有大量过时的信息产生 3 如果服务器不加鉴别 只是一味的搜集信息 将带来许多无价值的垃圾信息 4 服务器收集的信息有限 只能搜索到现有网页数量的2 0 左右 5 在语义检索方面功能十分有限 如基于关键字的搜索引擎 会将完整的语义信 息分割开来 造成更泛滥的结果集 同时 P 2 P 网络技术和O n t o l o g y 技术也获得了长足的发展 两者在信息检索方 面都有着自身的有点 比如前者可以进行分布式检索 获取更广阔的信息 后果在 语义处理方面有着无可比拟的优势 两者如果能很好地结合在一起 正好可以符合 信息检索的查全率和查准率两大指标 而且弥补了现有搜索引擎的不足 因此这个 课题对改善搜索引擎的性能有着重大的研究意义 1 2 选题背景 在进行本论文的研究之前 我一直对W e b 技术的应用研究与开发工作很感兴趣 P 2 P 环境下基于O n t o l o g y 的搜索引擎 研究的领域涉及数据库与W e b 的连接 W e b 应用开发等多方面 在此基础上 我又 深入的研究了T C P H T T P 等相关的网络传输协议 通过长时间的应用研究工作 对 W e b 的应用发展 以及网站内部搜索引擎的工作机制等方面都有了比较深刻的了解 当P 2 P 网络技术兴起的时候 它在信息检索方面的优势吸引我对其进行了大量研究 并通过深入研究了S U N 公司的新一代P 2 P 通用平台J X T A 的相关协议 在基于J X T A 平台的P 2 P 应用系统构建上做了大量实践探讨工作 为了在语义信息处理方面找到 好的解决途径 我又研究了大量的有关O n t o l o g y 的理论 最终选择 P 2 P 环境下基 于O n t o l o g y 的搜索引擎 这个课题作为毕业论文 希望将两者的优势引入传统的搜 索引擎技术中去 为有效的提高搜索引擎系统的规模与性能探讨出可行之道 1 3 研究的主要内容 论文的主要目的在于构建P 2 P 环境下基于O n t o l o g y 的搜索引擎系统模型 论文 将分别就以下内容展开阐述 i 搜索引擎技术 2 P 2 P 技术 3 O n Z o l o g y 技术 4 J X T A 技术 5 利用J X T A 平台构建P 2 P 环境下基于O n t o l o g y 的搜索引擎 6 总结及展望 1 4 论文的研究结论及应用前景 本论文研究了P 2 P 环境下基于O n t o l o g y 的搜索引擎模型 将先进的P 2 P 理念与 传统的搜索技术相结合 为面f 临迅猛发展I n t e r n e t 而已经显得力不从心的传统搜索 引擎技术的进一步发展提供一种新的思路和解决之道 在现有的P 2 P 系统不能够互相通信的情况下 论文采用S u n 公司的通用P 2 P 编 程平台J X T A 构建搜索网络 构建了一个具有高度扩展性的搜索网络 分布式的体系 结构 更有利于深度和广度搜索 设计中的P 2 P 搜索引擎系统的搜索机制的实现是 建立在J X T A 体系中的内容管理服务基础上的 实现了对元数据的搜索 如果将更多 功能更加全面的 搜索效率更高的实现本地搜索的软件包引入之后 就可以得到一 P 2 P 环境下基于O n t o l o g y 的搜索引擎 个功能丰富全面 高度个性化 本地化的搜索引擎系统原型 本论文的研究方向 是下一代搜索引擎系统未来发展的 个重要方向 P 2 P 环境下基于O n t o l o g y 的搜索引擎 2 搜索引擎技术 2 1 搜索引擎发展历史 在互联网发展初期 网站相对较少 信息查找比较容易 然而伴随互联网爆炸 性的发展 普通网络用户想找到所需的资料简直如同大海捞针 这时为满足大众信 息检索需求的专业搜索网站便应运而生了 现代意义上的搜索引擎的祖先 是1 9 9 0 年由蒙特利尔大学学生A l a nE m t a g e 发 明的A r c h i e 虽然当时W o r l dW i d eW e b 还未出现 但网络中文件传输还是相当频 繁的 而且由于大量的文件散布在各个分散的F T P 主机中 查询起来非常不便 因 此A l a nA r c h i e 工作原理与现在的搜索引擎已经很接近 它依靠脚本程序自动搜索 网上的文件 然后对有关信息进行索引 供使用者以一定的表达式查询 由于A r c h i e 深受用户欢迎 受其启发 美国内华达S y s t e mC o m p u t i n gS e r v i c e s 大学于1 9 9 3 年 开发了另一个与之非常相似的搜索工具 不过此时的搜索工具除了索引文件外 已 能检索网页0 1 当时 机器人 一词在编程者中十分流行 电脑 机器人 C o m p u t e rR o b o t 是指某个能以人类无法达到的速度不问断地执行某项任务的软件程序 由于专门用 于检索信息的 机器人 程序像蜘蛛一样在网络间爬来爬去 因此 搜索引擎的 机 器人 程序就被称为 蜘蛛 程序 世界上第一个用于监测互联网发展规模的 机 器人 程序是M a t t h e wG r a y 开发的W o r l dw i d eW e bW a n d e r e r 刚开始它只用来统 计互联网上的服务器数量 后来则发展为能够检索网站域名 与W a n d e r e r 相对应 M a r t i nK o s t e r 于1 9 9 3 年1 0 月创建了A L I W E B 它是A r c h i e 的H T T P 版本 A L I W E B 不使用 机器人 程序 而是靠网站主动提交信息来建立自己的链接索引 类似于 现在我们熟知的Y a h o o 1 随着互联网的迅速发展 使得检索所有新出现的网页变得越来越困难 因此 在M a t t h e wG r a y 的W a n d e r e r 基础上 一些编程者将传统的 蜘蛛 程序工作原理 作了些改进 其设想是 既然所有网页都可能有连向其他网站的链接 那么从跟踪 一个网站的链接开始 就有可能检索整个互联网 到1 9 9 3 年底 一些基于此原理的 搜索引擎开始纷纷涌现 其中以J u m p S t a t i o n T h eW o r l dW i d eW e bW o r m C o t o 的 前身 也就是今天O v e r t u r e 和R e p o s i t o r y B a s e dS o f t w a r eE n g i n e e r i n g R B S E 4 P 2 P 环境下基于O n t o l o g y 的搜索引擎 s p i d e r 最负盛名 然而J u m p S t a t i o n 和w w wW o r m 只是以搜索工具在数据库中找到 匹配信息的先后次序排列搜索结果 因此毫无信息关联度可言 而R B S E 是第一个在 搜索结果排列中引入关键字串匹配程度概念的引擎 最早现代意义上的搜索引擎出现于1 9 9 4 年7 月 当时M i c h a e lM a u l d i n 将 J o h nL e a v i t t 的蜘蛛程序接入到其索引程序中 创建了大家现在熟知的L y c o s 同 年4 月 斯坦福 S t a n f o r d 大学的两名博士生 D a v i dF i l o 和美籍华人杨致远 G e r r yY a n g 共同创办了超级目录索引Y a h o o 并成功地使搜索引擎的概念深入 人心 从此搜索引擎进入了高速发展时期 目前 互联网上有名有姓的搜索引擎已 达数百家 其检索的信息量也与从前不可同日而语 比如G o o g l e 其数据库中存放 的网页己达3 0 亿之巨 而B a i d u 也已经成为最大的中文搜索引擎 随着互联网规模的急剧膨胀 一家搜索引擎光靠自己单打独斗已无法适应目前 的市场状况 因此现在搜索引擎之间开始出现了分工协作 并有了专业的搜索引擎 技术和搜索数据库服务提供商 像国外的I n k t o m i 它本身并不是直接面向用户的 搜索引擎 但向包括O v e r t u r e 原G o T o L o o k S m a r t M S N H o t B o t 等在内的其他 搜索引擎提供全文网页搜索服务 国内的百度也属于这一类 注 搜狐和新浪用的 就是它的技术 因此从这个意义上说 它们是搜索引擎的搜索引擎 1 2 2 搜索引擎的分类 搜索引擎按其工作方式主要可分为三种 3 分别是全文搜索引擎 F u l lT e x tS e a r c hE n g i n e 目录索引类搜索引擎 S e a r c hI n d e x D i r e c t o r y 和元搜索引擎 M e t aS e a r c hE n g i n e 2 2 1 全文搜索引擎 全文搜索引擎是名副其实的搜索引擎 国外极具代表性的有G o o g l e F a s t A l l T h e W e b A 1 t a V is t a I n k t o m i T e o m a W i s e N u t 等 国内著名的有百度 B a i d u 中搜等 它们都是通过从互联网上提取的各个网站的信息 以网页文字 为主 而建立的数据库中 检索与用户查询条件匹配的相关记录 然后按一定的排 列顺序将结果返回给用户 因此他们是真正的搜索引擎 从搜索结果来源的角度 全文搜索引擎又可细分为两种 一种是拥有自己的检 P 2 P 环境下基于O n t o l o g y 的搜索引擎 索程序 I n d e x e r 俗称 蜘蛛 S p i d e r 程序或 机器人 R o b o t 程序 并 自建网页数据库 搜索结果直接从自身的数据库中调用 如上面提到的几家引擎 另一种则是租用其他引擎的数据库 并按自定的格式排列搜索结果 如L y c o s 引擎 2 2 2 目录索弓 目录索引虽然有搜索功能 但在严格意义上算不上是真正的搜索引擎 仅仅是 按目录分类的网站链接列表而己 用户完全可以不用进行关键词 K e y w o r d s 查询 仅靠分类目录也可找到需要的信息 目录索引中最具代表性的莫过于大名鼎鼎的 Y a h o o 雅虎 其他著名的还有O p e nD i r e c t o r yP r o j e c t D M O Z L o o k S m a r t A b o u t 等 国内的搜狐 新浪 网易搜索也都属于这一类 2 2 3 元搜索引擎 M E T AS e a r c hE n g in e 元搜索引擎在接受用户查询请求时 同时在其他多个引擎上进行搜索 并将结 果返回给用户 著名的元搜索引擎有I n f o S p a c e D o g p i l e V i v i s i m o 等 元搜索引 擎列表 中文元搜索引擎中具代表性的有搜星搜索引擎 在搜索结果排列方面 有 的直接按来源引擎排列搜索结果 如D o g p i l e 有的则按自定的规则将结果重新排 列组合 如V i v i s i m o 2 2 4 其他 除上述三大类引擎外 还有以下几种非主流形式 3 1 集合式搜索引擎 如H o t B o t 在2 0 0 2 年底推出的引擎 该引擎类似M E T A 搜 索引擎 但区别在于不是同时调用多个引擎进行搜索 而是由用户从提供的4 个引 擎当中选择 因此叫它 集合式 搜索引擎更确切些 2 门户搜索引擎 如A O LS e a r c h M S NS e a r c h 等虽然提供搜索服务 但自身 即没有分类目录也没有网页数据库 其搜索结果完全来自其他引擎 3 免费链接列表 F r e eF o r A l lL i n k s 简称F F A 这类网站一般只简单地滚 动排列链接条目 少部分有简单的分类目录 不过规模比起Y a h o o 等目录索引来要 小得多 由于上述网站都为用户提供搜索查询服务 通常将其统称为搜索引擎 6 P 2 P 环境下基于O n t o l o g y 的搜索引擎 2 3 搜索引擎工作原理 2 3 1 全文搜索引擎 在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库 的概念 搜索引擎的自动信息搜集功能分两种 1 一种是定期搜索 即每隔一段时 间 比如G o o g l e 一般是2 8 天 搜索引擎主动派出 蜘蛛 程序 对一定I P 地址 范围内的互联网站进行检索 一旦发现新的网站 它会自动提取网站的信息和网址 加入自己的数据库 另一种是提交网站搜索 即网站拥有者主动向搜索引擎提交网址 它在一定时 间内 2 天到数月不等 定期向你的网站派出 蜘蛛 程序 扫描你的网站并将有 关信息存入数据库 以备用户查询 由于近年来搜索引擎索引规则发生了很大变化 主动提交网址并不保证你的网站能进入搜索引擎数据库 因此目前最好的办法是多 获得一些外部链接 让搜索引擎有更多机会找到你并自动将你的网站收录 当用户以关键词查找信息时 搜索引擎会在数据库中进行搜寻 如果找到与用 户要求内容相符的网站 便采用特殊的算法 通常根据网页中关键词的匹配程度 出现的位置 频次 链接质量等 计算出各网页的相关度及排名等级 然后根据关 联度高低 按顺序将这些网页链接返回给用户 2 3 2 目录索弓 与全文搜索引擎相比 目录索引 有许多不同之处 首先 搜索引擎属于自动网站检索 而目录索引则完全依赖手工操作 用户提 交网站后 目录编辑人员会亲自浏览你的网站 然后根据一套自定的评判标准甚至 编辑人员的主观印象 决定是否接纳你的网站 其次 搜索引擎收录网站时 只要网站本身没有违反有关的规则 一般都能登 录成功 而目录索引对网站的要求则高得多 有时即使登录多次也不一定成功 尤 其像Y a h o o 这样的超级索引 登录更是困难 此外 在登录搜索引擎时 我们一般 不用考虑网站的分类问题 而登录目录索引时则必须将网站放在一个最合适的目录 D i r e c t o r y 最后 搜索引擎中各网站的有关信息都是从用户网页中自动提取的 所以用户 1 P 2 P 环境下基于O n t o l o g y 的搜索引擎 的角度看 我们拥有更多的自主权 而目录索引则要求必须手工另外填写网站信息 而且还有各种各样的限制 更有甚者 如果工作人员认为你提交网站的泪录 网站 信息不合适 他可以随时对其进行调整 当然事先是不会和你商量的 目录索引 顾名思义就是将网站分门别类地存放在相应的目录中 因此用户在 查询信息时 可选择关键词搜索 也可按分类目录逐层查找 如以关键词搜索 返 回的结果跟搜索引擎一样 也是根据信息关联程度排列网站 只不过其中人为因素 要多一些 如果按分层目录查找 某一目录中网站的排名则是由标题字母的先后顺 序决定 也有例外 目前 搜索引擎与目录索引有相互融合渗透的趋势 原来一些纯粹的全文搜索 引擎现在也提供目录搜索 如G o o g l e 就借用O p e nD i r e c t o r y 目录提供分类查询 而像Y a h o o 这些老牌目录索引则通过与G o o g l e 等搜索引擎合作扩大搜索范围 在 默认搜索模式下 一些目录类搜索引擎首先返回的是自己目录中匹配的网站 如国 内搜狐 新浪 网易等 而另外一些则默认的是网页搜索 如Y a h o o 2 4 现有搜索引擎的缺陷 1 搜索的结果太广泛 在互联网上寻找信息就如同大海捞针 搜索引擎没有帮你找到大海中的那根针 而是给了你整个大海 要解决这种问题 通常要尝试多种关键词的组合输入 耗费 时间较多 2 搜索的网页无法显示 搜索到的网站已转移 但是新的链接地址未知 比如网站已经关闭 原有网页 从免费社区搬到有独立域名的大网站了 人们改变I S P 了等等 3 有价值的网页无法再次获取 当你上次搜到了很有价值的内容 想再次浏览时 却发现无法再找到了 利用 同样的搜索方法进行搜索都只是返回一堆无用的结果 真正要找的网页已经不见了 因为搜索引擎会永不停息的从它们的索引库中抛弃已索引的网页 有时是成千上万 的网页 这些被遗弃的网页有的会重新出现在更新的索引库中 有的则不会 4 搜索引擎对常见词的搜索存在缺陷 因为常见词曝光率太高 以至于重复出现在成百万网页中 使得它们事实上不 能被用来帮你找到什么有用的内容 比如 搜索 电话 有无数网站提供跟 电 8 P 2 P 环境下基于O n t o l o g y 的搜索引擎 话 相关的信息 从网上黄页到电话零售商到个人电话号码都有 搜索的结果只能 使用户产生眼花缭乱的感觉 以致于放弃搜索 5 不能理解和辨别多义词 比如让搜索引擎搜索 J a v a 但是你要找的信息究竟是太平洋上的 个岛 一种著名的咖啡 还是一种计算机语言 对搜索引擎而言是无法判断的 搜索引擎 不是全能的 导游 而是非常机械的 当你用关键词搜索的时候 它只会把含有这 个关键词的网页找出来 根本不管网页上的内容是什么 因此 你只能针对不同的 需要去设计较好的关键字进行搜索 6 搜索引擎的滞后性 搜索引擎从抓取网页 解析 索引到提供搜索是有一个周期的 各搜索引擎的 信息滞后周期为一周到一月不等 用搜索引擎是找不到最新内容 只能找到一个星 期或一个月以前的内容 另外 搜索引擎对动态内容 如 论坛 数据库内容 以 及带f r a m e 结构的网页搜索能力较弱 所以这类信息也不适合用搜索引擎搜索 而 是应该去相关的网站寻找 7 掌握正确的搜索技术有较高的要求 利用搜索引擎时 要想得到较好的结果 需要用户掌握一些基本技巧 比如设 计多种关键字进行组合搜索 关键字的输入要避免错别字 当出现链接失效时能正 确地解决问题等 这样就会对用户有所限制 P 2 P 环境下基于O n t o l o g y 的搜索引擎 3 对等网络技术 3 1 对等网络简介 对等网络 P 2 P p e e r t o p e e r 的简写 是目前流行的网络新技术 发展迅猛 甚至被认为是无线宽带互联网的未来技术0 3 P 2 P 技术不仅为个人用户提供了前所未有的自由和便利 同时也试图有效地整合 互联网的潜在资源 将基于网页的互联网转变成动态存取 自由交互的海量信息网 络 P 2 P 技术的发展以及P 2 P 与网格技术的结合 将影响整个计算机网络的概念和人 们的信息获取模式 真正实现 网络就是计算机 计算机就是网络 的梦想 P 2 P 网络是一种具有较高扩展性的分布式系统结构 其对等概念是指网络中的 物理节点在逻辑上具有相同的地位 而并非处理能力的对等 以N a p s t e r 软件为代 表的P 2 P 技术其实质在于将互联网的集中管理模式引向分散管理模式 将内容从中 央单一节点引向网络的边缘 从而充分利用互联网中众多终端节点所蕴涵的处理能 力和潜在资源 相对于传统的集中式客户 N 务器 C S 模型 P 2 P 弱化了服务器的 概念 系统中的各个节点不再区分服务器和客户端的角色关系 每个节点既可请求 服务 也可提供服务 节点之间可以直接交换资源和服务而不必通过服务器 P 2 P 系统最大的特点就是用户之间直接共享资源 其核心技术就是分布式对像的 定位机制 这也是提高网络可扩展性 解决网络带宽被吞噬的关键所在 P 2 P 技术 让用户可以直接连接到其他用户的计算机 进行文件共享与交换 另 外P 2 P 在深度搜索 分布计算 协同工作等方面也大有用途 3 2P 2 P 网络模型 迄今为止 P 2 P 网络已经历了三代不同网络模型 各种模型各有优缺点 有的还 存在着本身难以克服的缺陷 因此在目前P 2 P 技术还远未成熟的阶段 各种网络结 构依然能够共存 甚至呈现相互借鉴的形式 目前认为P 2 P 网络有4 种典型结构 现分别进行简要阐述如下 1 P 2 P 环境下基于O n t o l o g y 的搜索引擎 3 2 1 集中目录式结构 集中目录式P Z P 结构是最早出现的P 2 P 应用模式 因为仍然具有中心化的特点 也被称为非纯粹的P 2 P 结构 用于共享M P 3 音乐文件的N a p s t e r 是其中最典型的 代表 见图1 口 M 其用户注册与文件检索过程类似于传统的c s 模式 区别在于所有资料并非存储在 服务器上 而是存贮在各个节点中 查询节点根据网络流量和延迟等信息选择合适 的节点建立直接连接 而不必经过中央服务器进行 这种网络结构非常简单 但是 它显示了P 2 P 系统信息量巨大的优势和吸引力 同时也揭示了P 2 P 系统本质上所不 可避免的两个问题 法律版权和资源浪费的问题 3 2 2 纯P 2 P 网络模型 纯P 2 P 模式也被称作广播式的P 2 P 模型 它取消了集中的中央服务器 每个用 户随机接入网络 并与自己相邻的一组邻居节点通过端到端连接构成一个逻辑覆盖 的网络 对等节点之间的内容查询和内容共享都是直接通过相邻节点广播接力传递 同时每个节点还会记录搜索轨迹 以防止搜索环路的产生 G n u t e l l a 6 模型是现在应用最广泛的纯P 2 P 非结构化拓扑结构 见图2 P e e r P 2 P 环境下基于O n t o l o g y 的搜索引擎 拳 争 阉2 纯P 2 P 酬络模型 它解决了网络结构中心化的问题 扩展性和容错性较好 但是G n u t e l l a 网络中 的搜索算法以泛洪的方式进行 控制信息的泛滥消耗了大量带宽并很快造成网络拥 塞甚至网络的不稳定 同时 局部性能较差的节点可能会导致G n u t e l l 弓网络被分片 从而导致整个网络的可用性较差 另外这类系统更容易受到垃圾信息 甚至是病毒 的恶意攻击 3 2 3 混合式网络模型 K a z a a 1 模型是P 2 P 混合模型的典型代表 见图3 它在纯P 2 P 分布式模型基础 P 2 P 环境下基于O n t o l o g y 的搜索引擎 撂Pcer 4 攀 一 摹 圈3 混合网络模型 c c r 上引入了超级节点 S u p e rP e e r 的概念 综合了集中式P 2 P 快速查找和纯P 2 P 去 中心化的优势 K a z a a 模型将节点按能力不同 计算能力 内存大小 连接带宽 网 络滞留时间等 区分为普通节点和搜索节点两类 也有的进一步分为三类节点 其思 想本质相同 其中搜索节点与其临近的若干普通节点之间构成一个自治的簇 簇内 采用基于集中目录式的P 2 P 模式 而整个P 2 P 网络中各个不同的簇之间再通过纯P 2 P 的模式将搜索节点相连起来 甚至也可以在各个搜索节点之间再次选取性能最优的 节点 或者另外引入一个新的性能最优的节点作为索引节点来保存整个网络中可以 利用的搜索节点信息 并且负责维护整个网络的结构 由于普通节点的文件搜索先在本地所属的簇内进行 只有查询结果不充分的时 候 再通过搜索节点之间进行有限的洪泛 这样就极为有效地消除纯P 2 P 结构中使 用洪泛算法带来的网络拥塞 搜索迟缓等不利影响 同时 由于每个簇中的搜索节 点都监控着所有普通节点的行为 这也能确保一些恶意的攻击行为能在网络局部得 到控制 并且超级节点的存在也能在一定程度上提高整个网络的负载平衡 总的来说 基于超级节点的混合式P 2 P 网络结构比以往有较大程度的改进 然 而 由于超级节点本身的脆弱性也可能导致其簇内的结点处于孤立状态 因此这种 局部索引的方法仍然存在一定的局限性 这导致了结构化的P 2 P 网络模型的出现 P 2 P 环境下基于O n t o l o g y 的搜索引擎 3 2 4 结构化网络模型 所谓结构化与非结构化模型的根本区别在于每个节点所维护的邻居是否能够按 照某种全局方式组织起来以利于快速查找 结构化P 2 P 模式是一种采用纯分布式的 消息传递机制和根据关键字进行查找的定位服务 目前的主流方法是采用分布式哈 希表 D H T 技术 这也是目前扩展性最好的P 2 P 路由方式之一 由于D H T 各节点并不 需要维护整个网络的信息 只在节点中存储其临近的后继节点信息 因此较少的路 由信息就可以有效地实现到达目标节点 同时又取消了洪泛算法 该模型有效地减 少了节点信息的发送数量 从而增强了 P 2 P 网络的扩展性 同时 出于冗余度以及 延时的考虑 大部分D H T 总是在节点的虚拟标识与关键字最接近的节点上复制备份 冗余信息 这样也避免了单一节点失效的问题 目前基于D H T 的代表性的研究项目主要包括加州大学伯克利分校的C A N 项目和 T a p e s t r y 项目 麻省理工学院的C h o r d 项目 I R I S 项目 以及微软研究院的P a s t r y 项目等 这些系统一般都假定节点具有相同的能力 这对于规模较小的系统较为有 效 但这种假设并不适合大规模的I n t e r n e t 部署 同时基于D H T 的拓扑维护和修复 斗 算法也比G n u t e l l a 模型和K a z a a 模型等无结构的系统要复杂得多 甚至在C h o r d 项 目中产生了 绕路 的问题 事实上 目前大量实际应用还大都是基于无结构的拓 扑和洪泛广播机制 现在大多采用D H T 方式的P 2 P 系统缺乏在I n t e r n e t 中大规模部 署的实例 成功应用还比较少见 3 3P 2 P 网络应用模式 I n t e r n e t 最初产生和发展的一个主动力就是资源共享 也正是文件交换的需求 直接导致了P 2 P 技术的兴起 这是P 2 P 最初也是最成功的应用之一 也正是针对这 类应用的N a p s t e r 使得人们在客户 N 务器模式下开始重新认识P 2 P 思想对人们使用 网络习惯的影响 随着人们对P 2 P 思想的理解和技术的发展 作为一种软件架构 P 2 P 还可以被 开发出种类繁多的应用模式 除了最初的文件交换之外 还出现了一些分布式存储 深度搜索 分布式计算 个人即时通信和协同工作等新颖应用 其中最著名的例子 是基于分布式计算的搜索外星文明S E T I h o m e 1 科学实验 每个志愿参加者只需下载 并运行类似屏幕保护的方式 就可以贡献自己闲置的计算能力 参与分析A r e c i b o 射电望远镜的无线电磁波数据并回送计算数据 截至2 0 0 4 年1 2 月 已有5 2 8 万志 1 4 P 2 P 环境下基于O n t o l o g y 的搜索引擎 愿者参加进来 获得了相当于2 1 6 万年的C P U 时间 仅一天的综合计算就相当于 6 7 4 6 T f l o p s 运算 另外 随着S u n 公司将其J X T A 协议扩展到诸如个人数字助理 P D A 和移动电话等手持终端上 并允许人们屏蔽具体的物理平台进行资料共享和文件交 换等 P 2 P 技术在移动通信和智能网领域也开始呈现出较大应用前景 3 4P 2 P 网络面临的问题 P 2 P 最大的优点在于能够提供可靠的信息查询 但从社会和法律意义来说 绝 大多数的P 2 P 服务都将不可避免地遇到知识产权冲突 也可能成为一些非法内容传 播的平台 同时由于缺乏中心监管以及自由平等的动态特性 自组织的P 2 P 网络在 技术层面也有许多难以解决的问题 从某种意义上来说 P 2 P 网络和人际网络具有一定的相似性 一般来说 每个 P 2 P 网络都是众多参与者按照共同兴趣组建起来的一个虚拟组织 节点之间存在着 一种假定的相互信任关系 但随着P 2 P 网络规模的扩大 这些P 2 P 节点本质所特有 的平等自由的动态特性往往与网络服务所需要的信任协作模型之间产生矛盾 激励 作用的缺失使节点问更多表现出 贪婪 抱怨 和 欺诈 的自私行为 因此 P 2 P 中预先假设的信任机制实际上非常脆弱 同时这种信任也难以在节点之间进行 推理 导致了全局性信任的缺乏 这直接影响了整个网络的稳定性与可用性 此外 相对于传统客户 I f 务器模式的服务器可以做主动和被动的防御 由于P 2 P 节点安全 防护手段的匮乏以及P 2 P 协议缺乏必要的认证机制和计算机操作系统的安全漏洞 安全问题在P 2 P 网络中更为严重 这将直接影响P 2 P 的大规模商用 另外 P 2 P 网 络中的节点本身往往是计算能力相差较大的异构节点 每一个节点都被赋予了一相同 的职责而没有考虑其计算能力和网络带宽 局部性能较差的点将会导致整体网络性 能的恶化 在这种异构节点的环境中难以实现优化的资源管理和负载平衡 同时 由于用户加入离开P 2 P 网络的随意性使得用户获得目标文件具有不确定性 导致许 多并非必要的文件下载 而造成大量带宽资源的滥用 特别是大多数P 2 P 用户更喜 欢传送音频 视频这些较大的媒体文件 这将使得带宽浪费问题更为突出 尤其在 国内大量的用户还是拨号用户 较窄的带宽也成为P 2 P 应用难以逾越的障碍 未来的网络将呈现大规模分布式 全球性计算和全球性存储的特征 从长远的 趋势来看 对于访问和传输服务的需求必将远远大于对于计算功能的需要 尽管P 2 P 技术现在还不成熟 但是迄今为止 至少在理论上P 2 P 仍是最有吸引力的个人通信 I P 2 P 环境下基于O n t o l o g y 的搜索引擎 技术 尤其是P 2 P 与网格技术的结合将是分布式计算技术最有吸引力的发展趋势 虽然现在还没有成熟的方案 但随着分布式系统经典问题的解决以及优化的资源动 态分配和资源恢复技术的成熟 P 2 P 与网格技术必将结合起来以影响整个计算机网 络的概念和人们的信息获取模式 P 2 P 环境下基于O n t o l o g y 的搜索引擎 4 O n t o I o g y 技术 4 1 本体 O n t o I o g y 简介 O n t o l o g y 的概念最初起源于哲学领域 3 可以追溯到公元前古希腊哲学家亚 里士多德 它在哲学中的定义为 对世界上客观存在物的系统地描述 即存在论 是客观存在的一个系统的解释或说明 关心的是客观现实的抽象本质 在人工智能界 最早给出O n t o l o g y 定义的是N e c h e s 等人 他们将O n t o l o g y 定 义为 给出构成相关领域词汇的基本术语和关系 以及利用这些术语和关系构成的 规定这些词汇外延的规则的定义 N e c h e s 认为 本体定义了组成主题领域的词汇 表的基本术语及其关系 以及结合这些术语和关系来定义词汇表外延的规则 后来 在信息系统 知识系统等领域 越来越多的人研究O n t o l o g y 并给出了许多不同的 定义 其中最著名并被引用得最为广泛的定义是由G r u b e r 提出的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论