




已阅读5页,还剩144页未读, 继续免费阅读
(计算机应用技术专业论文)p2p网络基于异构本体的语义检索机制的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 中文摘要 当前基于p 2 p 网络的研发主要集中于文件共享的应用,但是现有p 2 p 系统 特别是结构化p 2 p 系统大都仅支持粗粒度( 文件水平) 的共享,检索机制只支持 基于关键词的字面信息的精确匹配,使得检索方法只支持弱语义,甚至缺乏语 义;并且由于缺少对信息内容的一致的语义描述,检索过程难以找到与需求内 容相关的信息,难以实现相关信息的语义融合。 本体是语义网技术的核心,其目标是提供对领域知识的共同理解,确定领 域内共同认可的词汇( 表示概念) ,并从不同层次形式化地给出这些词汇语义以 及词汇之间的关系。 本文研究内容主要聚焦于p 2 p 网络的语义检索机制。将语义网技术,特别 是本体与结构化p 2 p 网络相集成,在充分利用结构化p 2 p 网络的可扩展性,负 载均衡等优点的基础上,通过本体对领域知识的描述来增强对信息内容的描述 能力,着重解决p 2 p 网络仅支持弱语义,甚至缺乏语义的问题。并深入研究其 中关键技术所面临的挑战,取得了以下成果: 1 提出了基于本体的文档描述模型 结合语义标注技术及文档的元数据描述形式,提出了p 2 p 网络中基于本体的 一致的文档描述模型。文档描述模型采用两层体系结构,融合本体概念、本体 关系以及文档关键词,从语义、语法两个方面对文档进行描述。通过定义一致 的文档描述模型,解决了p 2 p 网络检索中的数据建模问题。 2 提出了基于描述逻辑推理的本体映射方法一,m a t c h p 2 p 网络节点自治性和对等性要求节点独立的构建和维护本地本体,造成节 点本体之间存在异构性。本文提出了基于描述逻辑的本体映射方法 一,m a t c h ,解决了p 2 p 网络节点本体异构问题。l m a t c h 方法充分考虑了 概念在本体中的语义环境,利用描述逻辑表示了概念在本体中的语义,通过对 概念的逻辑描述形式之间逻辑关系的推理,发现不同本体中概念之间的语义关 系,进而实现异构本体映射。l m a t c h 方法产生的本体映射结果是概念之间更 加直观和明确的语义关系,而不是不包含任何语义信息的相似度数值。 中文摘要 3 提出了结构化p 2 p 网络基于异构本体的语义检索方法 在结构化p 2 p 网络中引入基于概念的两级分布式索引机制:本体概念分布式 索引和文档描述符分布式倒排索引。在基于本体的文档描述模型和l m a t c h 本 体映射方法的基础上,实现了p 2 p 网络的语义检索。语义检索的过程可以描述 为:根据本体概念分布式索引对检索请求进行转发,并在转发路径中的节点上 查询文档描述符倒排索引,通过l a m t c h 本体映射方法实现检索请求和文档 之间基于语义的匹配。 4 在专家的帮助下构建了经济学领域本体q o m o l o g y ,并以e o n t o l o g y 作 为基础本体开发了p 2 p 网络语义检索原型系统一p s s e o n t o l o g y 以本体的方法和技术对经济学领域内容进行了组织和形式化表 示,将经济学领域划分成知识( k n o w l e d g e ) 、理论( t h e o r y ) 和方法( m e t h o d ) 三个 主要范畴,从三个面对领域内容进行了描述。e p s s 系统以e o n t o l o g y 作为构建 节点本体的基础本体,在系统中实现了基于本体的文档描述模型、异构本体映 射的l m a t c h 方法以及在二者基础上的p 2 p 网络语义检索方法。同时,e p s s 系统还支持基于关键词的全文检索,作为基于本体的语义检索的补充。 p 2 p 网络语义检索的研究不仅具有重要的理论价值,而且还具有广阔的应用 前景,本文针对其中的一些问题展开了研究和讨论,所做的工作仍有待不断的 完善和进一步的发展。 关键词:p 2 p 本体本体映射语义检索 a b s t r a c t a b s t r a c t m f i l ef i l es h a r i n gh a sb e c o m et h em o s tp o p u l a rr e s e a r c ha n dd e v e l o p m e n tt o p i c i i lt h ep 2 pn e t w o r kf i e l d ,e x i s t i n gs y s t e m sc a nj u s ts u p p o as e m a n t i c s f r e es h a r i n go f l a r g eg r a n u l a r i t ya n di n e f f i c i e n t l yu t i l i z et h e i ro w nr e s o u r c e s l a c k i n gi na u n i f o r m s e m a n t i cd e s c r i p t i o nf o rs h a r i n gr e s o u r c e sr e s u l t st h a ti ti sh a r df o ru s e r st of i n d m o r er e l e v a n ti n f o r m a t i o nr e s o u r c ea n dr e a l i z et h ei n f o r m a t i o ns e m a n t i cf u s i o n t h eo n t o l o g yi st h ec o r eo fs e m a n t i cw e b i t sa i mi st op r o v i d ec o m m o n c o m p r e h e n s i o n ;d e t e r m i n et h ec o m m o nd o m a i nv o c a b u l a r y , a n dp r e s e n t c l e a r d e f i n i t i o n so ft h et e r m sa n dr e l a t i o n s h i p sb e t w e e nt e r m s t h i sd i s s e r t a t i o nf o c u s e so nt h es e a r c hm e c h a n i s mo v e rp 2 pn e t w o r k , a n d i n t r o d u c e st h es e m a n t i cw e b ,e s p e c i a l l yt h eo n t o l o g y , i n t ot h e p 2 pn e t w o r k c o m b i n i n gt h ea d v a n t a g e so fs c a l a b i l i t ya n dl o a d i n gb a l a n c eo fs t r u c t u r e p 2 p n e t w o r kw i t ht h ep o w e ro fs e m a n t i cd e s c r i p t i o no fi n f o r m a t i o n , t h i sd i s s e r t a t i o n s o l v e st h ep r o b l e m so fs e m a n t i c s f r e es e a r c ho v e rs t r u c t u r ep 2 pn e t w o r k , a n d f o l l o w i n gc o n t r i b u t i o n sa r ea c h i e v e d : 1 p r o p o s ead e c f i p t i o nm o d e lf o rd o c u m e n tb a s e do n t o l o g y c o m b i n i n gt h es e m a n t i ca n n o t a t i o na n dt h ef o r mo fm e t a d a t a , t h eu n i f o r m d e s c r i p t i o nm o d e lb a s e do nt h eo n t o l o g yi sd e f i n e df o rd o c u m e n t t h i sm o d e lh a s t w ol a y e r so fa r c h i t e c t u r ea n dd e s c r i b e st h ed o c u m e n tf r o mt w oa s p e c t so fs y n t a x a n ds e m a n t i cr e s p e c t i v e l yw i t hk e y w o r d sa n dc o n c e p t so fo n t o l o g y , a n di ts o l v e st h e p r o b l e mo f r e s o u r c em o d e li np 2 pn e t w o r k 2 p r o p o s ea na l g o r i t h mo fo n t o l o g ym a p p i n gb a s e do nd e s c r i p t o nl o g i c l m a t c h t h ef e a t u r e so fp e e ra n da u t o n o m yo fp 2 pn e t w o r kr e q u i r et h en o d et oc o n s t r u c t a n dm a i n t a i nl o c a lo n t o l o g yi n d e p e n d e n t l y b u td i f f e r e n tp e o p l eh a v ed i f f e r e n t k n o w l e d g ei nd e e p n e s sa n de x t e n t , s o t h el o c a lo n t o l o g i e sb e t w e e nn o d e sa r e h e t e r o g e n e o u s t h i sd i s s e r t a t i o np r o p o s e st h el m a t c h ,a na l g o r i t h mo fo n t o l o g y m a p p i n g l m a t c h u s e sd e s c r i p t i o nl o g i cf o r m u l at od e n o t et h ec o n c e p to fo n t o l o g y , i i i a b s t r a c t w h i c hc a i le x p l i c i t l yr e p r e s e n tt h es e m a n t i co fc o n c e p ti nt h eo n t o l o g y s o ,t h r o u g h l o g i ci n f e r e n c i n gb e t w e e nd e s c r i p t i o nl o g i cf o r m u l a so fc o n c e p t s ,t h eo n t o l o g y m a p p i n gc a l lb ei m p l e m e n t e d t h eo u t c o m e so fl m a t c h a r et h ee x p l i c i ts e m a n t i c r e l a t i o n s h i p sb e t w e e nc o n c e t s ,r a t h e rt h a nt h es i m i l a rv a l u ew h i c hi sg o tt h r o u g h c o m p u t i n ga n dd o e sn o ti n c l u d ea n ys e m a n t i ci n f o r m a t i o n 3 p r o p o s eam e t h o do fs e m a n t i cs e a r c hb a s e do nh e t e r o g e n e o u so n t o l o g i e so v e r s t r u c t u r ep 2 pn e t w o r k t w od i s t r i b u t e di n d i c e sb yc o n c e p t sa r ec o n s t r u c t e d :d i s t r i b u t e di n d e xf o r o n t o l o g yc o n c e p t sa n dd i s t r i b u t e di n v e r t e di n d e xf o rd o c u m e n td e s c r i p t o r s w i t ht h e d e c r i p t i o nm o d e lf o rd o c u m e n tb a s e do no n t o l o g ya n dl m a t c h ,t h es e m a n t i c s e a r c ho v e rs t r u c t u r ep 2 pn e t w o r ki si m p l e m e n t e d i t sp r o c e s si s :t h ed i s t r i b u t e d i n d e xf o ro n t o l o g yc o n c e p t sp r o v i d e sap a t hf o rf o r w a r d i n gs e a r c hr e q u e s t ,a n di n e a c hn o d eo nt h i sp a t ht h es e a r c hr e q u e s ts e a r c h st h ei n v e r t e di n d i c e sf o rd o c u m e n t d e s c r i p t o r s ,t h e nm a t c h st h ed o c u m e n t sb a s e do ns e m a n t i cu s i n gt h ea l g o r i t h mo f l 【a t c h 4 w i mm eh e l p o fe c o n o m i c e x p e l s , c o n s t r u c tt h e o n t o l o g y f o r e c o n o m i c s e o n t o l o g y , a n dw i t he o n t o l o g ya sa c o r eo n t o l o g yd e v e l o pe p s s , t h es y s t e mo fi n f o r m a t i o ns h a r i n ga n ds e m a n t i cs e a r c ho v e rp 2 pn e t w o r k e o n t o l o g yc l a s s i f i e sa n df o r m a l l yr e p r e s e n t e st h ee c o n o m i c sb yt h em e t h o do f o n t o l o g y , a n dd e s c r i b e st h ed o m a i nf r o mt h r e ea s p e c t so fk n o w l e d g e ,t h e o r ya n d m e t h o d t h ee p sss y s t e mm a k e sc o n s t r u c t i o no fl o c a lo n t o l o g yo fn o d e so r i g i n a t i n g f r o me o n t o l o g y , a n da l s oi m p l e m e n t st h es e m a n t i cd e s c r i p t i o nf o rd o c u m e n tb a s e d o no n t o l o g y , t h ea l g o r i t h mo fl m a t c h ,a n dt h es e m a n t i cs e a r c ho nt h eb a s i so f m e n t i o n e d a b o v et w o t h ee p s sa l s os u p p o r t st h ef u l lt e x ts e a r c h ,w h i c ha sa c o m p l e m e n t a r i t yf o rs e m a n t i cs e a r c hb a s e do no n t o l o g y t os u l l lu p ,r e s e a r c ho ns e m a n t i cs e a r c ho v e rp 2 pn e t w o r ki so fi m p o r t a n t t h e o r e t i c a lv a l u ea n dw i l lw i d e l yb eu s e di nd i v e r s ea r e a s t h i st h e s i sd o e ss o m e r e s e a r c ho nd a t am o d e l ,o n t o l o g ym a p p i n ga n ds e a r c hm e t h o d o u rw o r ks t i l lh a s s o m ep r o b l e m su n r e s o l v e da n dn e e d st ob ei m p r o v e ds t e pb ys t e p k e yw o r d s :p 2 po n t o l o g y o n t o l o g ym a p p i n g s e m a n t i cs e a r c h i v 南开大学学位论文版权使用授权书 本人完全了解南开大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供 本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有 关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前 提下,学校可以适当复制论文的部分或全部内容用于学术活动。 学位论文作者签名:弓更辉 动矿字年f 月f 日 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学位论文作者签名: 解密时间:年 月日 各密级的最长保密年限及书写格式规定如下: ”“。”。+ ,4 “”n ”“。“。1 “4 内部5 年( 最长5 年,可少于5 年) : | 秘密1 0 年( 最长1 0 年,可少于1 0 年) ; 机密- k 2 0 年( 最长2 0 年,可少于2 0 年) 。一 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行 研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文 的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集 体,均己在文中以明确方式标明。本学位论文原创性声明的法律责任 由本人承担。 学位论文作者签名:弓之薅 , 朋年p 月厂日 第一章绪论 第一章绪论 第一节p 2 p 网络概述 近年来,随着i n t e m e t 的飞速发展,网络带宽的不断增大,以及存储介质容 量的不断扩充,数据集容量呈爆炸式增长趋势,传统的采用c s 模式的网络己 经远远不能满足各类用户的需求。在这种情况下,p 2 p 网络日益凸现出其重要 性。 1 1 1p 2 p 网络的概念和特点 p 2 p 网络( p e e r - t o 。p e e rn e t w o r k ,也叫对等网络) 是上个世纪末出现的一种新 型网络技术,它的出现得到了业界的普遍关注瞻并且获得迅速的发展,目前 已成为计算机领域研究热点技术之一。各大公司也相继成立了p 2 p 工作组,众 多著名大学和研究机构都展开了大量的相关研究。p 2 p 网络已经在众多领域有 了广泛的研究和应用。 目前,研究人员对p 2 p 网络有多种定义。i n t e l 公司p 2 p 工作组将p 2 p 定义 为“通过在系统之间直接交换来共享计算机资源和服务的一种应用模式n 1 。 v e y t s e l 将p 2 p 定义为“以非客户的地位使用互联网周边设备川射。g r a h a m 通过 3 个关键条件对p 2 p 进行了定义嘲,指出必须具备以下三个条件:具有服务器的 能力;具有独立于d n s 的寻址系统;具有可变连接处理的能力。s h i r k y 将p 2 p 定义为“一种利用互联网边缘的各种可用资源( 如存储空间、计算能力、内容等) 的应用程序 口1 ,因为访问这些分散的资源意味着运行在不稳定连接和不可预 知i p 地址环境下,p 2 p 节点必须运行在d n s 系统外边,拥有独立于集中服务 器的大部分的或完全的自治性。 从上述定义可以看出,p 2 p 网络不同于以往的采用c s 模式的传统网络,它 的核心思想是:所有参与的节点都处于平等的地位,而没有客户端和服务器端 之分。p 2 p 网络中各个节点因为互为服务而共存,而不是依赖于特定的集中式 机制。而且,各个节点可以直接交互并可能随时离开网络。p 2 p 引导网络计算 模式从“中心走向“边缘,即网络应用的核心从中央服务器向网络边缘的终 第一章绪论 端设备扩散。 虽然目前对于p 2 p 的定义尚无统一的权威的说法,但从已有的研究和实践 中来看,p 2 p 具有以下特点: 节点对等 每个节点具有相同的地位,既是资源提供者又是资源消费者,同时扮演着 c s 模式中的服务器和客户端两个角色。还可以具有路由器和高速缓冲存储器 的功能,从而弱化了服务器的功能,甚至取消了服务器。由于每个节点都拥有 对等的功能与责任,节点间的交互可以是直接和平等的。 节点自治 节点自治反映在:节点可以独立自主地决定共享什么资源、允许谁共享以 及在什么条件下进行共享,节点可以随时自主地加入或退出网络。节点自治并 不排斥节点间的协作,相反,由于大规模应用的需求,往往需要通过节点间的 协作完成特定的任务1 。 网络动态 p 2 p 中节点自治导致了高度的动态特性。由于节点拥有相应资源的最高权 限,可以决定资源的替换或升级,因而资源状态,包括可用性与运行速度等动 态属性随时可能发生变化。此外,节点自身也可以随时加入或离开网络,因此 整个p 2 p 网络是动态的:实际观测数据显示每个节点的平均在线时间约为l 小 时叫。m a r k a t o s 发现每个用户每天加入和退出系统的平均次数为6 4 ,每天有超 过2 0 的用户加入或离开网络n 0 1 。 无集中控制和大规模分布 传统的分布式计算系统中一般存在集中式的控制,而在p 2 p 系统中,这样 的控制不存在。所以,节点间的合作必须通过协商解决n 。此外,缺乏集中控 制导致系统中的每个节点都无法获知整体信息,必须通过节点间局部信息的交 互进行决策,系统通常难以全局最优的策略完成特定任务。另一方面,p 2 p 系 统中参与的节点个数一般远远大于传统的分布式系统中的节点个数,在没有集 中控制的前提下协调大量节点是p 2 p 系统和传统分布式系统的主要区别之一。 系统自组织 f l a k e 在文献n 2 1 中,将自组织定义为系统组织的自发增加过程,即这种增加 不受环境或其它外部系统的控制。由于需要满足可扩展性、容错性、动态性以 及自治性等要求,p 2 p 系统具有自组织的特性。p 2 p 系统中节点的大规模分布 2 第一章绪论 以及节点的高度动态性要求系统具有自我维护和自我修复能力。同时由于全局 集中控制的缺失,兼顾节点间协作以及节点自治特性,p 2 p 系统的管理功能分 布在参与系统的各个节点上,容许节点根据自身性质决定邻居节点的连接。 1 1 2p 2 p 网络的应用 对等网络作为一种新兴的网络技术,被广泛应用于各个领域,主要包括文 件共享、协同工作、分布式计算以及实时通信。 文件共享 内容存储与交换是p 2 p 系统的主要应用领域,也是其应用最成功的领域之 一。内容共享主要是利用节点的存储资源及网络带宽。在内容共享系统里面, 共享内容被分散在整个p 2 p 系统节点上。文件共享应用的主要技术包括如下几 个方面:网络带宽消耗,安全性,检索能力。 n a p s t e r n 3 3 是第一个p 2 p 文件共享系统,主要目的是提供i n t e m e t 音乐文件共 享,使用中心式索引模型,其中心目录服务器保存所有共享文件列表,当用户 进入或离开n a p s t e r 系统时,都需要访问中心目录服务器更新文件索引列表。 f r e e n e t 43 是一个匿名存储系统,使用了文档路由方法。g n u t e l l a n 神是最早的非结 构化对等网络。 协同工作 p 2 p 网络可以让一个工作小组建立和管理同步及非同步的协同合作,并提高 他们的效率。利用p 2 p 网络技术,可以增进成员间的合作效率和促进生产力, 减少在多个项目间再评估和协调的时间,每个成员都可以访问最新的数据、充 分分享彼此的资源。 分布式计算 分布式计算研究的是如何充分利用网络中的计算单元来共同完成大规模的 计算任务。由于单一计算单元计算能力有限,因此采用并行技术、分布式技术 将多个计算单元联合起来共同完成大规模计算任务。同时,网络中的计算机的 使用效率极低,人们期望能够充分利用网络中的闲散计算能力来完成大规模的 计算任务。p 2 p 技术则为分布式计算技术的发展提供了新的机遇。基于p 2 p 技 术的分布式计算研究的典型代表有寻找外太空生命的s e t i h o m e n 引、研究 i n t e m e t 结构和拓扑的d i m e s 项目7 1 等。 3 第一章绪论 实时通信 实时通信技术是p 2 p 网络的重要应用之一。目前的实时通信软件,比如i c q 、 o c i q 、m s n 以及q q 等,虽仍然是集中式的服务架构,但都采用了p 2 p 技术 进行高效的音视频以及文件传输。用户数达到数千万的s k y p e n 町语音通信软件 采用的则是完全p 2 p 技术。 第二节p 2 p 网络的检索技术及不足 p 2 p 网络的研究方向主要包括体系结构、搜索机制、网络安全以及资源管理 等方面。基于分布式哈希表的结构化p 2 p 网络由于具有可扩展性以及良好的容 错性等特点,成为p 2 p 网络体系结构的发展方向。同任何大规模的分布式系统 一样,p 2 p 网络系统成功与否不仅仅在于其网络结构的合理和有效,在很大程 度上还要取决于其检索机制的灵活性和可扩展性。特别是在文件共享应用中, 有效的检索机制一直是p 2 p 网络最活跃的研究领域之一。 目前,针对不同的p 2 p 网络拓扑结构存在不同的检索机制。p 2 p 网络根据 其发展历程可以分为带有中心目录服务器的p 2 p 网络,非结构化p 2 p 网络和结 构化p 2 p 网络。由于采用了不同的拓扑结构,它们的检索机制具有不同的特点。 基于中心服务器的n a p s t e r 系统 p 2 p 系统的出现并引起人们的关注是从n a p s t e r 时代开始的。n a p s t e r 虽然不 是严格意义上的p 2 p 系统,但却是第一个通过i n t e m e t t 获得大规模应用并取得 巨大成功的p 2 p 系统。n a p s t e r 的成功得益于其采用了基于中央目录服务器的集 中式网络结构。在这种网络结构下,搜索机制的工作方式如图1 1 所示。图中 每个节点向中央目录服务器提交本地存储的文档目录,并由目录服务器编制文 档索引。节点向中央目录服务器发起检索请求,由目录服务器检索文档索引后 返回存储匹配文档的节点地址。文档的下载直接在搜索请求的发起节点和目标 文档存储节点之间进行,不再通过中央目录服务器。 4 第一章绪论 王 伟点 、丁 、叫节点) 图i 1 基于中心目录服务器的检索机制 非结构化的p 2 p 网络 非结构化的p 2 p 网络采用完全分布式的拓扑结构,网络中每个节点之间是 比较松散的关系,节点的加入和离开仅需遵循一些简单的规则。非结构化p 2 p 网络中每个节点各自保存共享的资源,由于不存在中央目录服务器,每个节点 对本地保存的资源进行索引,并转发或应答其他节点的检索请求。在非结构化 p 2 p 网络中,由于缺乏中央目录服务器且文档并不存储在特定的节点上,所以 资源查找最基本的方式是广播( f l o o d i n g ) 或类似广播的盲目搜索。图1 2 是基 于广播的检索机制的示例。图中每个节点都将接收到的检索请求转发给所有的 邻居节点,并由邻居节点进一步转发给更多的邻居节点,直至找到期望的文档 或者达到系统允许的最大搜索跳数后检索失败。如果成功找到所需的文档,那 么检索请求的发起节点直接与期望文档保存节点进行通信,并获取文档。非结 构化p 2 p 网络主要包括f r e e n e t 、g n u t e l l a 、k a z a a 引等。 斗资源搜索资源获取 图1 2 非结构化p 2 p 网络基于广播的检索机制 5 第一章绪论 结构化的p 2 p 网络 结构化p 2 p 网络是完全分布式的p 2 p 网络,通常采用的是分布式哈希表 ( d i s t i l b u t e dh a s ht a b l e ,d h t ) 结构。同非结构化p 2 p 网络相比,基于分布式哈 希表的结构化p 2 p 网络具有很好的可扩展性、负载均衡、以及容错性。并且其 最大优点在于:它可以在o ( 1 0 9 n ) ( 其中n 是系统中节点数目) 的跳数之内完成 文档的定位。和非结构化p 2 p 网络主要用于文件共享领域不同,结构化p 2 p 网 络的这些优良特性使得它可以应用在对可靠性和扩展性要求比较高的场合,可 以应用在更大规模的网络环境中。 在结构化p 2 p 网络中,每个文档都通过对其文档名或内容进行哈希变换得 到一个唯一的标识符,同时每个节点通过对地址进行相同的哈希变换得到在系 统中唯一标识符。文档标识符和节点标识符通常位于相同的值空间,通过将文 档标识符映射到与之最接近的节点标识符,可以将文档存储在特定节点中。节 点存储的文档并不一定是其发布在系统中或者感兴趣的文档。系统中所有节点 协作形成一个分布式的文档定位和路由机制。通过文档标识符和节点标识符的 对应关系,系统中节点可以有效的对针对某个文档标识符的检索请求进行路由。 一致性哈希变换( c o n s i s t e n th a s h i n g ) 呦1 是最常用的哈希方法。一致性哈希变换 的特性是可以将变换后得到的m 比特长的文档标识符均匀分布在一个值空间 中,不同文档产生相同哈希值的概率几乎为零。通过对节点的i p 地址进行相同 的哈希变换得到一个唯一的节点标识符,并将节点标识符也映射在同一个值空 间中,可以将文档存储在有着和文档标识符在数值上最接近的节点标识符的节 点那里。 结构化p 2 p 网络中主要提供两种操作:文档的插入和文档的查找。这两个 操作都是通过文档标识符进行的。系统中每个节点在其上的路由表中保存和其 相邻的节点的信息,并比较接收到的文档标识符和路由表中的节点标识符,通 过选择具有在数值上和文档标识符最接近的节点标识符的节点完成文档的路 由。结构化p 2 p 网络中基于文档标识符的路由方式如图1 3 所示。设图中标识 符( i d ) 空间的值域为1 0 0 。节点n o d e l 发出对i d ( 文档标识符) 为6 6 的文档的 检索请求,通过与它两个相邻节点n o d e 2 和n o d e 6 的节点i d ( 节点标识符) 的 比较,n o d e l 发现节点n o d e 6 的节点i d 和其所请求文档的i d 更接近,于是n o d e l 将检索请求转发给n o d e 6 。类似过程,n o d e 6 也与其邻居节点n o d e 5 和n o d e 4 的进行i d 比较,这个检索请求经过n o d e 4 ,最终到达节点n o d e 3 。n o d e 3 的i d 6 第一章绪论 最接近所请求的文档i d ,因此该文档保存在节点n o d e 3 上。当针对该文档的检 索请求到达n o d e 3 时,n o d e 3 向检索发起节点返回所请求的文档。 基于分布式哈希表的对等网络由于其自身具有很多良好的特性,成为目前 p 2 p 研究的热点之一,提出很多新的系统,例如c h o r d 2 、c a n 胁3 、p a s t r y 2 3 1 、 t a p e s t r y 口们等,这些系统采用不同的哈希路由策略,提高了节点路由效率。 王夕? :卜、一 、“7 铡。2 5n o d e 6 、询。节点i d 1吖o ”。 9 厢”9 r 、互7、上 节点2 唑久。二,乡节点i d 6 6 气工j7 、o d e 4 、 图1 - 3 结构化p 2 p 网络检索模型 目前,在基于d h t 的结构化对等网络中,为了支持多关键词检索,需要围 绕系统中所有文档的不同关键词构造倒排索引。倒排索引( i n v e a e di n d e x ) 是各 种搜索引擎常用的索引技术。通常,搜索引擎通过网络爬虫( c r a w l e r ) 等从 i n t e m e t 取回可以被检索的文档,对这些文档的全文或元数据建立倒排索引。倒 排索引对文档中的每一个词或者元数据中提供的关键词建立索引。每个词对应 一个文档列表,文档列表通常由所有包含该词的文档的唯一标识符组成。在p 2 p 网络中,逻辑上的全局倒排索引通过哈希机制被分割存放在若干节点上,形成 一个分布式的倒排索引。 从上述的介绍中可以看出,无论是具有中心服务器的n a p s t e r 系统、非结构 化的p 2 p 网络,还是结构化的p 2 p 网络,在检索方法上都存在着不足之处。 n a p s t e r 系统 n a p s t e r 可以提供快速准确的检索服务,检索的方式也可以很灵活,其灵活 程度和准确度取决于用户提供给目录服务器的文档信息的详细程度。然而,这 种结构最大的缺陷在于可扩展性不高,集中式的中央服务器容易成为系统的瓶 颈。 7 第一章绪论 非结构化的p 2 p 网络 由于采用完全分布式的网络拓扑结构,非结构化p 2 p 网络避免了n a p s t e r 系统中中央服务器带来的系统瓶颈问题。但由于非结构化p 2 p 网络中缺乏有效 的检索机制,只能采用广播或类似广播的盲目检索方式,导致在网络中产生过 大的流量,增加了网络负载,因此降低了系统可扩展性。为了限制广播对网路 带宽的过度消耗,通常通过限制广播查询的t t l 值来限制其在网络中转发的范 围,但这样带来了另外一个问题,检索过程对于网络中比较热门的资源反应快 速,而对于网络中冷门资源的检索成功率较低。 结构化p 2 p 网络 在基于分布式哈希表的结构化p 2 p 网络中,利用基于关键词划分的分布式 倒排索引可以实现多关键词检索,但是这种多关键词检索方式存在两点不足: 1 检索结果需要在不同节点之间移动,当文档规模增大或检索关键词增多时会 造成过大的网络流量。 多关键词检索是典型的集中式搜索引擎工作方式。用户通过搜索引擎客户 端输入一组描述检索内容的关键词。搜索引擎随后将用户输入的关键词分离, 并对每个关键词分别获得相应的文档列表,通过对这些文档列表进行“与”操 作,得到最终结果返回给用户。对于集中式的搜索引擎,这些操作都可以在本 地完成。而对于p 2 p 网络,由于采用了分布式倒排索引,每个关键词对应的文 档列表存储在不同节点上,因此需要将检索请求中单个关键词对应的文档列表 从一个节点传输到另一个节点上,以完成不同关键词对应的文档列表的“与 操作。当网络中文档数量和文档规模增大时,检索关键词对应的文档列表在不 同节点之间的移动势必会增大网络流量,进而降低了检索的可扩展性瞳5 1 。 2 检索只支持词汇之间的精确匹配,使得检索方法只支持弱语义,甚至缺乏语 义。 基于d h t 的结构化p 2 p 网络,由于检索过程采用了哈希变换,造成资源检 索只能通过关键词汇之间精确匹配实现,主要原因在于d h t 的工作方式。基于 d h t 的p 2 p 网络通过对关键词的哈希变换进行资源的存储或定位。哈希变换总 是试图保证生成的散列值均匀随机分布,结果两个内容相似但不完全相同的对 象被生成了完全不同的散列值,定位到了完全随机的两个结点上。由于自然语 言的丰富表达能力,表现形式相同而含义不同( 多义词) 以及含义相同而表现形 式不同( 同义词) 的词汇大量存在。哈希变换并没有考虑关键词的语义,以及关 8 第一章绪论 键词之间在语义关系,因而造成检索请求匹配的广度和精度,即检索的查全率 和查准率大大降低。因此说,目前,基于d h t 结构化p 2 p 网络检索方法只支 持关键词精确匹配,缺乏对基于语义的检索能力的支持。 第三节论文的主要研究工作及创新 本文主要研究了基于d h t 的结构化p 2 p 网络中,如何进行有效的基于语义 的检索机制。将语义网技术,特别是本体与p 2 p 系统相集成,即充分利用结构 化p 2 p 网络的可扩展性,负载均衡等优点,又通过本体对领域知识的描述来增 强对共享文档的语义描述能力,克服现有结构化p 2 p 系统支持弱语义( 甚至缺乏 语义) 的问题。同时,通过本体映射解决由于p 2 p 网络节点自治性和对等性造成 的节点本体之间的异构问题,以及由此引发的对文档语义描述的异构问题。在 实现文档基于本体的语义描述及节点本体映射方法的基础上,通过构建基于本 体概念的分布式索引实现p 2 p 网络的语义检索。本文的创新主要体现在以下几 个方面: ( 1 ) 结合文档语义标注技术和文档的元数据描述形式,提出了p 2 p 网络系统中 基于本体的一致的文档描述模型。文档描述模型采用两层体系结构,融合 本体的概念和文档关键词,从语义、语法两个方面对文档进行描述。通过 定义一致的文档描述模型,解决了p 2 p 网络检索中的数据建模问题。同时, 本文引入r d f 资源描述框架产生文档描述模型在具体文档上的数据表示一 一文档描述符,使得在结构化p 2 p 网络中,节点文档的共享通过哈希机制, 将文档描述符而不是文档本身存储到目标节点而实现的。 ( 2 ) 提出了基于描述逻辑推理的本体映射方法一i ,m a t c h 。l m a t c h 方法充 分考虑了概念在本体中的语义环境,并利用描述逻辑表示了概念在本体中 的语义,通过对概念的逻辑描述形式之间逻辑关系的推理,发现不同本体 中概念之间的语义关系,进而实现异构本体映射。l m a t c h 方法产生的本 体映射结果是概念之间更加直观和明确的语义关系,而不是不包含任何语 义信息的相似度数值。l m a t c h 方法解决了由于p 2 p 网络中节点的自治性 和对等性造成的节点本体之间的异构性问题,并为实现p 2 p 网络基于异构 本体的语义检索提供了概念匹配的方法基础。 ( 3 ) 提出了结构化p 2 p 网络基于异构本体的语义检索方法。针对目前结构化p 2 p 9 第一章绪论 网络使用的基于关键词的分布式倒排索引缺乏对语义支持的问题,提出了 基于概念的两级分布式索引机制:本体概念分布式索引和文档描述符分布 式倒排索引,并在此基础上实现语义检索。本体概念分布式索引屏蔽了不 同节点本体在结构上的差异,在p 2 p 网络建立了一个逻辑上的全局本体概 念分类体系,并在语义上为检索请求在不同节点之间的转发提供了路径。 文档描述符分布式倒排索引为检索请求的匹配提供了语义信息基础,并且 避免了检索中间结果在不同节点之间的移动而造成的网络开销,使得检索 请求在目标节点即可获得最终的匹配结果。因此,结构化p 2 p 网络基于异 构本体的语义检索过程为:根据本体概念分布式索引对检索请求进行转发, 并在转发路径中的节点上查询文档描述符倒排索引,通过l a m t c h 本体映 射方法实现检索请求和文档之间基于语义的匹配。 ( 4 ) 在专家的帮助下构建了经济学领域本体e o m o l o g ) r ,并以e o n t o l o g y 作 为基础本体开发了p 2 p 网络语义检索原型系统叫p s s 。e o n t o l o g y 以本 体的方法和技术对经济学领域知识进行了组织和形式化表示。e o n t o l o g y 本 体重用了j e l 目录分类词汇,同时引入新帕尔格雷大经济学大辞典对 j e l 的词汇做了补充,从知识( k n o w l e d g e ) 、理论( t h e o r y ) 和方法( m e t h o d ) - - 个主要范畴对经济学领域进行了描述。以e o n t o l o g y 作为构建节点本体的基 础本
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025北京中国音乐学院高层次人才引进2人考前自测高频考点模拟试题附答案详解
- 在线课程效果分析-洞察与解读
- 2025年甘肃省兰州大学哲学社会学院聘用制(B岗)人员招聘考前自测高频考点模拟试题及答案详解1套
- 2025江苏南通市崇川区卫生系统面向毕业生招聘备案制高层次卫生人才15人模拟试卷及答案详解(典优)
- 2025年上海市闵行区莘庄实验小学代课教师招聘模拟试卷附答案详解(完整版)
- 2025贵州修文县城镇公益性岗位招聘(4月)模拟试卷有答案详解
- 2025南平延平峡阳镇卫生院招聘驾驶员考前自测高频考点模拟试题带答案详解
- 2025年长春理工大学公开招聘博士人才(71人)模拟试卷及答案详解(考点梳理)
- 2025河北衡水市冀州区招聘第二批社区工作者模拟试卷及答案详解参考
- 2025贵州省卫生健康委员会“银龄计划”(引进退休高级医疗卫生人才)724人模拟试卷及答案详解(必刷)
- 思政家乡课件
- (2024版)小学道德与法治 一年级上册 教学设计
- 《质量管理理论方法与实践》课件-质量管理 ch5 质量功能展开
- 2025年职业培训学校建设项目可行性分析与初步设计方案报告
- 2025年软件架构师专业技术考核试题及答案解析
- 八上语文第9课《天上有颗南仁东星》课件
- 2024年BRCGS包装材料全球标准第7版全套管理手册及程序文件(可编辑)
- 公考公共基础知识培训课件
- 2025年人保非车险考试题及答案
- 铁路工程试验检测员培训考试题土工试题及答案
- 2025年上海银行笔试题库及答案
评论
0/150
提交评论