(通信与信息系统专业论文)一种基于语义的服务标识搜索引擎的设计与实现.pdf_第1页
(通信与信息系统专业论文)一种基于语义的服务标识搜索引擎的设计与实现.pdf_第2页
(通信与信息系统专业论文)一种基于语义的服务标识搜索引擎的设计与实现.pdf_第3页
(通信与信息系统专业论文)一种基于语义的服务标识搜索引擎的设计与实现.pdf_第4页
(通信与信息系统专业论文)一种基于语义的服务标识搜索引擎的设计与实现.pdf_第5页
已阅读5页,还剩71页未读 继续免费阅读

(通信与信息系统专业论文)一种基于语义的服务标识搜索引擎的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 中文摘要 本文的工作是国家“9 7 3 ”项目“一体化可信网络与普适服务体系基础研究 原型系统实现的一部分,主要研究应用于原型系统的服务标识搜索引擎。一体化 网络创建了服务标识机制与理论,对各种网络资源进行统一描述和标识,以实现 多种资源的统一处理。 本文设计实现了常规搜索引擎的基本模块、基于服务标识的检索机制和语义 推理机制。本文旨在设计一种服务标识搜索引擎,使其能够主动获取互联网资源 并为其分配服务标识、能为用户提供一种查找一体化网络资源的语义接口、能够 突出体现服务标识的“以数据为中心”的核心概念、能够给出一种语义推理的实 现案例。通过实现以上功能,本系统完成了一系列对现有一体化网络原型系统的 功能补充。 本文的主要内容包括: 1 对资源命名的研究现状、一体化网络以及搜索引擎的相关背景知识进行介 绍。同时指出了基于服务标识的检索机制的基本思想。 2 指出了现有一体化网络原型系统对搜索引擎的需求,详细介绍了基本搜索引 擎的系统结构、总体设计和模块划分,并按照自顶向下的方法详细讨论一些关键 模块的实现原则和实现方法。 3 介绍语义推理的基础理论和在本系统中演示案例的实现方案。 4 介绍整个服务标识搜索引擎的搭建环境与配置流程,对程序进行了实际的运 行测试,并对测试结果做了详细的分析,同时讨论了本系统的不足和改进的方向。 关键词:一体化网络;服务标识;搜索引擎;语义推理 分类号:t n 9 1 5 0 9 :t p 3 9 1 3 北京交通大学硕士学位论文 a b s t r a c t a b s t r a c t :t h ej o bi n t h i sp a p e ri sap a r to ft h ei m p l e m e n t a t i o no ft h ep r o t o t y t e s y s t e mo f t h ep r o j e c t n eb a s i ct h e o r yo ft h eu n i v e r s a lt r u s t w o r t h yn e t w o r k ”w h i c hi s ap a r to ft h en a t i o n a l 9 7 3 ”p r o j e c t t h ew o r km a i n l yf o c u s e so nt h ei m p l e m e n t a t i o no f s e a r c he n g i n ef o rs e r v i c ei d e n t i f i e r si nt h eu n i v e r s a ln e t w o r k s e r v i c ei d e n t i f i e ri s i n t r o d u c e di nt h eu n i v e r s a ln e t w o r k ,w h i c hi su s e da st h eu n i f yd e s c r i p t i o no fn e t w o r k r e s o u r c e s i nt h i sp a p e r , t h ed e s i g na n di m p l e m e n t a t i o no fac o n v e n t i o n a ls e a r c he n g i n ew i t hb a s i c m o d u l e s ,s e r v i c e i d e n t i f i e r - b a s e ds e a r c hm e c h a n i s ma n ds e m a n t i cr e a s o n i n g m e c h a n i s mh a v eb e e nc o m p l e t e d t h i sp a p e ra i m sa td e s i g n i n gas e r v i c ei d e n t i f i e r s e a r c he n g i n ef o rt h eu n i v e r s a ln e t w o r k ,w h i c hc a na c q u i r et h ei n t e r n e tr e s o u r c e sa n d a s s i g ns e r v i c ei d e n t i f i e r s ,w h i c hc a np r o v i d eau s e ri n t e r f a c et oq u e r yl e s o u r c e si nt h e u n i v e r s a ln e t w o r k , w h i c hc a nh i g h l i g h t e dt h es e r v i c ei d e n t i f i e r sc o r ec o n c e p to f ”d a t a - c e n t r i c ”,w h i c hc a np r o v i d eas i m p l ec a s eo fs e m a n t i c t h r o u g ht h er e a l i z a t i o no f t h ea b o v ef u n c t i o n s ,t h es y s t e mw i l lc o m p l e t eas e r i e so fa d d i t i o n a lf u n c t i o n sf o rt h e p r o t o t y p es y s t e mo ft h eu n i v e r s a ln e t w o r k t h ep a p e ri sr e c o g n i z e da sf o l l o w i n g s : 1 i n t r o d u c e st h er e s e a r c hs t a t u so ft h en a m i n gs y s t e mo fi n t e r n e tr e s o u r c e s ,t h eb a s i c m o d e l sa n dt h e o r i e so ft h eu n i v e r s a ln e t w o r k ,a sw e l la st h er e l e v a n tb a c k g r o u n d k n o w l e d g eo fs e a r c he n g i n e a tt h es a m et i m ep o i n t so u tt h eb a s i ci d e ao ft h e m e c h a n i s mo ft h es e a r c he n g i n ef o rs e r v i c ei d e n t i f i e r s 2 p o i n t so u tt h ep r o t o t y p es y s t e m sn e e do f as e a r c he n g i n e ,d i s c u s e st h es y s t e mm o d e l , g e n e r a ld e s i g n a n dm o d u l ep a r t i t i o n ,e s p e c i a l l yt h em a i nf u n c t i o n sa n ds p e c i f i c i m p l e m e n t so f e a c hm o d u l ea n d t h e i rs u b u n i t sw i t ht o p d o w na p p r o a c h 3 i n t r o d u c e sb a s i cs e m a n t i co n t o l o g yk n o w l e d g ew i t has e p a r a t ec h a p t e r , i nw h i c ha s e m a n t i cm o d e lo fr e a s o n i n gi ss h o w na n das i m p l er e a l i z a t i o np r o g r a mo fs e m a n t i c r e a s o n i n gi sg i v e n 4 d e s c r i b e st h ee n v i r o n m e n ta n dt h ec o n f i g u r a t i o np r o c e s st h a t t h i ss y s t e mn e e d s ,t h e a c t u a lp r o c e d u r e sf o rr u n n i n gt h i ss y s t e m ,t h et e s tr e s u l t sa n dd e t a i l e da n a l y s i s ,a tt h e s a m et i m ed i s c u s s e st h ei n a d e q u a c i e sa n dt h ed i r e c t i o no fi m p r o v e m e n to ft h i ss y s t e m k e y w o r d s :u n i v e r s a ln e t w o r k ;s e r v i c ei d e n t i f i e r ( s i d ) ;s e a r c he n g i n e ;s e m a n t i c c l a s s n o :t n 9 15 0 9 :t p 3 9 1 3 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国 家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名工博 签字日期湖c 7 年月f 1 日 导师签 签字日期: 砌? 年 l 二月,j 日 7 娓 北京交通大学硕士学位论文 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研 究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 学位论文作者签名: 签字同期: 年月 日 致谢 光阴似箭,两年的研究生生活即将结束。这两年中的学习与成长离不开众多 师长的悉心指导和朋友们的关怀帮助。在此,向他们表达最诚挚的敬意! 首先,我要向我的导师张宏科教授表达最诚挚的谢意! 两年来,张老师严谨 的治学态度、忘我的工作精神和勇往直前攀登科学高峰的意志始终感染和鞭策着 我,使我在探索科学知识的道路上不断努力前进。我的硕士论文也是张老师悉心 指导下完成的。 感谢罗洪斌副教授,罗老师为我的科研工作提出了许多宝贵意见,在论文写 作等诸多问题上为我指点迷津,在此表示衷心的感谢。 感谢秦雅娟副教授,秦老师悉心指导我们完成了实验室的科研工作,在学习 和生活上都给予了我莫大的关心和帮助,在此向秦雅娟教授表示衷心的谢意。 感谢吴恒奎、孙超、黄道超、周平等同学。在实验室工作及论文撰写期间, 他们对我论文的研究撰写工作给予了热情的帮助和支持,在此向他们表达我的感 激之情。 特别感谢关建峰博士在本论文书写过程中提出的宝贵建议、在本系统服务器 架设过程中给予的大力支持。 另外也感谢家人和朋友,是他们的支持和鼓舞始终给予我努力前进的无穷力 量和克服困难的决心与勇气。 最后谨向关心和帮助我的所有老师、同学、亲人及挚友致以崇高的敬意和最 衷心的感谢! 引言 1 引言 本文的主旨是建立一种搜索服务标识的搜索引擎。该搜索引擎首先具有了一 般搜索引擎的基本模块,能够通过关键字检索现有一体化网络原型系统中的注册 资源。同时该系统具有为资源分配标识的功能。系统的核心是提供了基于一体化 网络中“服务标识 概念的检索机制,体现了服务标识这种资源命名方式的“以 数据为中心”的概念。所以和本文密切相关的理论就有以下几个方面:搜索引擎; 资源命名方式;一体化网络及服务标识;服务标识搜索引擎。 1 1搜索引擎概述 1 1 1搜索引擎的发展 在互联网发展的最初阶段,网站的数量相对较少,信息查找比较容易,这时 的资源的检索方式基本依靠门户网站。随着互联网的迅猛发展,用户很难在海量 的网络数据中找到自己所需的资料,这时一些为满足大众信息检索需求的专业搜 索网站应运而生。 搜索引擎的演进,伴随着海量数据存储技术和大规模并行计算技术的发展, 已经成为人们检索资源的不可或缺的助手。资源搜索技术可以分为三代:( 1 ) 早 期的目录式搜索引擎,代表是y a h o o ,o p e nd i r e c t o r y ,搜狐分类目录;( 2 ) 流行 的机器搜索引擎,代表是a l t a v i s t a , e x c i t e ,i n f o s e e k ,i n k t o m i ,f a s t , l y c o s , a l l t h e w e b ,a s kj e e v e s ,g o o g l e ,百度,天网,o p e n f i n d ;( 3 ) 探索中的元搜索引擎, 代表是w e b c r a w l e r ,p a n d a n g o 。 1 1 2常规搜索引擎的不足 目录式搜索有需要人工介入、维护量大、信息量少、信息更新不及时等缺点; 机器搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是存在信息冗 余,返回的大量信息中可能存在很多无关信息,用户必须从结果中进行筛选,重 要的是检索结果是以u r l 为基本单位组织的。目前主流搜索技术已经从第一代转 向第二代,但是仍然没有摆脱“以主机为中心”定位资源、以u r l 对资源进行近 似命名的模式。 北京交通大学硕士学位论文 网络信息资源的爆炸性增长,也使网络上的资源的复制和引用数量大幅度增 加。而由于现有网络架构下资源的管理方式都是基于“以主机为中心 ( h o s t c e n t r i c l l l ) 的,使现有搜索引擎也是以通过关键字查找定位统一资源定位 符1 2 1 ( u n i f o r mr e s o u r c el o c a t o r , u r l ) 的方式定位资源的。“以主机为中心 的实现 方案是:每个主机对自己本地资源进行管理和发布,主机的查找则是通过域名解 析系统( d o m a i nn a m i n gs y s t e m ,d n s 3 】【4 】【5 】) 完成从域名到口地址的映射过程。 这种基于u r l 的常规搜索引擎有以下不足: 第一,u r l 只是以资源的地理位置来硬性的标识资源,u r l 对资源的描述力 不足,无法有效地反映当前资源的内容,因此用户只能首先通过u r l 来获得,之 后自行查看资源实体的真正内容。 第二,对于检索结果的组织是基于u r l 的,无法通过判断资源实体的信息, 对属于相同的资源实体的多个u r l 无法进行分组合并。 第三,同一个资源实体的移动或复制以后,搜索引擎检索到的结果是没有任 何关系的不同的u r l ,由于缺乏对资源本身的不变的标识,无法完成“以数据为 中心”( 即“面向数据 ,d a t a o r i e n t e d 6 】) 的检索方案。 第四,u r l 借助d n s 资源定位的粒度还不够,仅局限在主机这个层次上。没 有精确到资源本身这一级,资源实体本身没有参与到查找定位这个过程中。 第五,搜索引擎提供给用户的检索接口仍然局限于关键字的简单匹配( 完全 匹配,模糊匹配,a n d 逻辑,o r 逻辑等) ,没有从语义上对用户的需求进行进一 步的剖析和推理。 1 2网络资源命名的现状 1 2 1u r n ( u n i f o r mr e s o u r c en a m e s ) u r n t7 】【8 l ,统一资源名,是一种对网络资源进行统一命名的机制,这种命名是 从全局上进行的、与地理位置无关的,u r n 可以提供一种机制,用于查找和检索 定义特定命名空间的架构文件。与统一资源定位符( u r l ) 不同,每个资源都被 赋予统一的、不变的u r n ,它不会随着时间的推移或者位置的移动而发生变化。 尽管普通的u r l 可以标识资源,但是在这方面,u r n 更加强大并且更容易管理, 因为一个u r n 可以引用多个u r l 。u r n 的第一个公开发布的实现中,仍然采用 了d n s 的框架,因此仍然具有d n s 系统本身的某些局限性。 1 2 2h i p ( h o s t i d e n t i t yp r o t o c 0 1 ) 2 引言 h i p 9 】【1 0 1 】,主机标识协议,该协议用于解决互联网中移动性和安全性等问题。 现有互联网中,i p 地址既是通信主机的身份标识,也是通信主机的位置标识和到 本机路由的依据。h i p 的基本思想是在域名和口地址之间加入一层新的名字空间, 即主机标识( h o s ti d e n t i f i e r ) ,用于解除i p 地址的双重身份。但h i p 中主机标识层 的名字空间定义过于复杂,在实际使用中要维护很多对应关系,增大了管理开销和 出错的概率,而且这些名字空间都是无结构的,查找效率低下。除此之外,h i p 协 议中也没有提供一个从主机标识空间到i p 地址空间的全局解析机制,而且h i p 仍 然处在标识主机的层面上。 1 2 3i n s ( i n t e n t i o n a ln a m i n gs y s t e m ) i n s ( 1 2 】是一个解决移动环境中的资源发现和服务定位问题的命名系统,是对 d n s 的补充。i n s 的资源描述名是一个全局的、可变长的名字空间。为了具有较 强的表达能力,i n s 用基于属性和数值的组合方法对服务和设备进行命名。当网络 中的服务或者服务所在的设备发生移动或者服务的性能发生变化而导致最佳服务 所在的位置发生变化时,i n s 解析器应该立即做出反应。i n s 解析器不仅负责把资 源描述名字解析为资源所在的位置,而且还在解析器之间进行基于资源描述名字 的路由。同时,i n s 中的服务器节点对其提供的资源描述名还要进行动态的通告, 在名字解析器之间组成一个自组织的覆盖网络。 除了以上几种方案外,还有许多研究机构提出了多种方案。如h a n d l e s y s t e m ( 13 1 ,c o d o n s ( c o o p e r a t i v ed o m a i nn a m es y s t e m ) 14 1 ,i p n l ( f o r i pn e x t l a y e r ) 1 5 】等。这些方案都是针对“以主机为中心 命名及定位资源方式的不足提出 的,这些方案都给出了很好的思想,是本文“以数据为中心 的理论基础的重要 借鉴和对比对象。 1 3 一体化网络介绍 1 3 1一体化网络理论的产生背景 由于各种网络历史发展的原因,现有信息网络的原始模式基本上是多种网络 完成多种服务,一种网络支持一种主要服务,如电信网主要用于语音电话,现有 互联网主要用于数据通信,有线电视网主要用于提供视频服务【1 6 1 。这种模式严重 阻碍着信息网络技术的高速发展,网络的重复建设也是对资源的巨大浪费。要从 根本上解决当前信息网络存在的严重弊端,必须创建全新的网络体系结构。2 0 0 5 北京交通大学硕士学位论文 年,美国自然科学基金委员会( n s f ) 提出“全球网络研究环境”( g e n i ,g l o b a l e n v i r o n m e n tf o rn e t w o r k i n gi n v e s t i g a t i o n s ) 项引r 丌,该项目拟从根本上重新设计互 联网,以解决现有的各种问题,打造一个更适合未来计算机环境的下一代互联网。 该项目首次从基础理论上为下一代网络的发展提出了明确的建议和指导方向。 “一体化网络与普适服务体系 就是新网络体系结构的一个研究项目,其对 现有网络改进的重点在于支持多种服务,解决现有信息网络在服务扩展、安全性 和移动性等方面存在的问题。 1 3 2一体化网络的基本模型 新的“一体化网络与普适服务1 8 】体系提出了一个全新网络的两层体系结构 模型,包括服务层【1 9 】”和网通层【2 0 l 。在网通层引入接入标测2 1 】和路 由标识【2 l l 以及“接入标识解析映射【2 l 】”。在服务层”引入服务标识【2 2 l 和连 接标识【2 2 】,并引入“服务标识解析映射【2 2 】,。这个模型称为“一体化可信网络与 普适服务新型体系结构模型1 6 1 ,如图1 1 所示: 图1 1 一体化可信网络与普适服务新型体系结构模型 f i g 1 - 1a r c h i t e c t u r em o d e lo fu n i v e r s a ln e t w o r ka n dp e r v a s i v es e r v i c e s “网通层”包括两个虚拟模块:虚拟接入模块和虚拟骨干模块【2 1 l ;一次解析 映射:接入标识解析映射【2 。“网通层 的作用是为数据、语音等业务提供可信 的一体化通信平台。 虚拟接入模块采用接入标识( a c c e s si d e n t i f i e r , a i d ) 来唯一的标识一个接入 的网络设备或终端的身份,这个标识不会因设备或终端的移动而改变。虚拟骨干 模块采用交换路由标识( s w i t c hr o u t i n gi d e n t i f i e r , r i d ) 来数据包的转发路由。“网 通层 采用“间接通信”的方式,数据包在虚拟接入模块部分和虚拟骨干模块部 分采用不同的标识进行转发,具体过程如下: 源数据包在进入本端的接入广义交换路由器之前( 虚拟骨干模块的外部) ,目 的地址和源地址都采用接入标识,当数据包进入本端的广义交换路由器之后( 虚 4 引言 拟骨干模块内部) ,数据包的目的接入标识被映射为路由标识并进行转发路由,当 到达对端的接入交换路由器时,目的路由标识再被替换回接入标识,进入虚拟接 入模块。这个过程中,接入标识和交换路由标识是分离的,虚拟接入子层负责通 信终端的接入,虚拟骨干子层解决位置管理和交换路由理论。通过这种方式使得 用户的隐私性、网络的安全性、可控可管性和移动性在“网通层”得以很好的实现。 “服务层 的主要作用是取代传统网络o s i 七层结构和互联网四层结构的传 输层及其以上部分,为各种业务的统一接入通过接口,并且负责各种业务的会话、 控制和管理,这些业务包括由运营商或第三方增值服务商提供的各种网络业务, 主要是语音、数据、流媒体等,不同的业务用同一种标识一服务标识( s e r v i c e i d e n t i f i e r , s i d ) 来统一标识,并且由“服务层”来统一承载。服务标识广义的标识 网络资源,如一种抽象的服务( 如网络教学) ,一种具体的数据( 如网络上的一个 实体图片) ,一种特定的服务的身份标识( 如s i p 电话的对端身份号码) 等。服务 标识确定以后,服务表示解析映射系统负责完成从服务标识( s i d ) 到连接标识 ( c o n n e c ti d e n t i f i e r , c i d ) ,最终进入“网通层”完成数据包通信过程。 1 3 3“服务层”理论介绍 传统的国际o s i 七层网络模型和互联网四层模型中,没有统一的“服务层” 的概念,但实际上这些网络模型中的传输层及其以上各层都是要完成网络服务而 设计的,这两种网络模型在各种网络支持服务的发展过程中曾经发挥过重要的作 用,但也日益暴露出越来越多的缺陷和原始设计的不足,如存在兼容性差、可扩 展性差、难于控制管理等难题。因此,在一种网络体系架构上提供普适服务的构 思和设计迫切需要产生重大的创新。 为新网络体系- f g , j 建的服务层总体模型【2 2 1 ,新模型引入虚拟服务模块和虚拟 连接模块,以及服务标识解析映射和连接标识解析映射。如图1 2 所示: 5 北京交通火学硕士学位论文 服务层 虚拟服务模块( 服务标识) 服务标识 解析映射 虚拟连接模块( 连接标识) 连接标识 解析映射 , : 网通层 -r 7 】 卫压 、 图1 2 一体化网络“服务层”标识映射模型 f i g 1 - 2i d e n t i f i e rm a p p i n gm o d e lo ft h es e r v i c el a y e ro fu n i v e r s a ln e t w o r k 虚拟服务模块是实现普适服务的基础,用于解决统一的服务对象调度,提供 服务的可控可管,为支持多种服务提供可能,关键是引入“支持q o s 服务标识 的概念,服务标识的作用是对各种网络支持的服务进行统一的分类描述,在此基 础上设计服务统一处理机制( 包括服务注册、服务查询、服务建立等) 。服务标识( s i d 是由s h a l ( s e c u r eh a s ha l g o r i t h m ) 算法得到1 6 0 位哈希值,用于统一标识网络 上层提供的各种服务和实体数据。 虚拟连接模块引入连接标识,实现服务层对移动性和安全性的较好支持。同 时,虚拟连接模块将设计适合语音、视频等实时网络应用的传输协议。服务标识 解析映射和连接标识解析映射用于连接上述模块以及连通服务层与网通层,实现 服务的多连接建立和多路径传输。 1 4服务标识搜索引擎 1 4 1什么是服务标识搜索引擎 本文设计的服务标识搜索引擎有三层含义: 第一,它是一种搜索引擎,能够主动获取网络资源并进行解析、存储等操作。 它能够为资源分配服务标识,是服务标识的分配者。 第二,本搜索引擎是面向一体化网络原型系统的,是通过关键字查找服务标 识的一种语义接口。从这部分来说,就是将常规搜索引擎的实现应用于一体化网 络原型系统中,将服务标识作为了搜索对象。 6 引言 第三,本搜索引擎的检索方式上提供了基于服务标识的检索方案,即借助了 服务标识“面向数据 的核心思想,提供了一种“以数据为中心”的检索方案。 在这种检索方案中,检索的条目是将服务标识作为划分标准,将服务标识作为搜 索手段。 1 4 2服务标识知识扩展 一体化网络模型提出了以服务标识( s i d ) 定位资源的思想,这种思想的核心 是“以数据为中心 ,即对资源的标识方法应该基于资源本身,而不是资源所在的 地理位置或其它间接因素。服务标识( s i d ) 在解决数据的移动性和复制问题等方 面提出了很好的方案【2 3 1 。服务标识( s l d ) 是一个广义的概念,是一体化网络中资 源( 包括服务和数据) 的统一标识。服务标识不含语义信息,已完成资源与主机 的分离。 2 0 0 5 年官方公布的网页的数量为l1 5 亿【2 4 】,约为1 0 1 0 ,根据历年网页数量推 断,大概每3 0 个月,网页的数量翻番。一体化网络定义“服务标识”( s e r v i c e i d e n t i f i e r ,s i d ) 为1 6 0 位的h a s h 值,这个数量级足够覆盖当前及未来一段时间内 网络资源的总数。对于资源实体,s i d = s h a l ( e n t i t yc o n t e n t ) ,即对实体资源自 身的二进制码进行哈希,得到服务标识( s i d ) ;对于抽象服务或特定服务的身份 标识,s i d = s h a l ( s e r v i c e a t t r i b u t e ) ,即根据具体服务的固有属性进行哈希生成, 如s i p 电话号码,直接将号码进行哈希运算即可。将资源和服务统- n 平面的名 字空间上来,与传统的以主机为中心的定位服务和资源的模型相比,有以下优点: 1 、增强了网络名字的可扩展性和健壮性;2 、消除了由于域名的归属权问题产生 的纠纷;3 、增强了网络安全性,消除了地址篡改欺骗、d o s 攻击等问题。 1 4 3服务层原型系统的需求 服务标识映射系统在注册时,有两种基本途径:服务提供者将自己提供的数 据或者服务信息注册到映射服务器上;应用专门的搜索引擎主动发现网络资源, 并注册到映射服务器上。 用户查找s i d 时需要语义信息进行检索,通过关键字查找s i d 方案是多样的: 一种方案是在服务标识映射关系表中的保留的服务描述域( d e s c r i p t i o n 域) 添加描 述性文字进行查找。另一种方案是建立一个集中式的检索层,检索层通过维护“描 述信息一s i d ”的索引,供用户语义查找s i d ,得到s i d 以后到映射服务器应用查 找算法得到连接信息和其他附加信息。由于第一种方案要遍历各个映射服务器的 7 北京交通大学硕士学位论文 映射表,映射过程没有采用c h o r d 算法,效率低。本系统将采用第二种方案,应 用l u c e n e 建立s i d 的文字索引和各种查询接口。 本文设计的系统的目的就是为服务标识( s i d ) 提供一种服务标识解析映射服 务器上层的用户语义查询接口,使用户可以通过关键字查找到相应的s i d 。一个典 型的应用就是对于实体资源:通过本系统,用户由关键字检索得到一系列s i d ,当 用户选择到一个s i d 时,再通过下层的一次或多次映射获得同一个s i d 对应得多 个不同的连接标识( c i d ) 接入标识,也可以是u r l ( 作为与当前网络互通的平 滑过渡) ,这样用户检索到的结果是以“一个s i d ,多个链接 这种方式组织的, 是一种“以数据为中心”的组织方式。 1 4 4实现方案 目前主流搜索技术已经从第一代转向第二代,但是仍然没有摆脱以“主机为 中心 定位资源、以u r l 对资源进行近似命名的模式。 服务标识搜索引擎的检索首先进行的是关键字检索,在命中某一资源以后, 继续通过该资源的标识查找其他的链接地址( 接入标识加路径( a i d + 本地路径) 或者u r l ) ,即进行两次检索:第一次是关键字检索;第二次是服务标识检索。第 一次检索由搜索引擎来实现,第二次检索有两种实现方案:继续使用搜索引擎, 进入一体化网络“标识映射系统”进行映射,本系统中的链接信息是u r l ,所以 本系统采用了第一种方案作为过渡,即都是在搜索引擎中完成的两次检索。如图 1 3 所示: 图1 3 服务标识搜索引擎的实现方案 f i g 1 3s k e t c ho ft h er e a l i z a t i o no ft h ep r o g r a mo ft h es e r v i c ei d e n t i f i e r ss e a r c he n g i n e 本系统中将网络爬虫抓取得到的图片实体作为哈希运算的输入,生成s i d 。这 8 引言 样能够达到以下目的:s i d 生成简单容易,运算速度不是瓶颈;s i d 能够完全地唯 一地标识一个图片实体资源,使图片的不同副本拥有相同的服务标识,保证了图 片在移动和复制过程中拥有不变的标识( s i d ) ;对于没有描述信息的图片资源, 可以通过具有相同服务标识的具有关键字信息的图片副本得以发现。 本系统所实现的功能的一个重要方面就是突出“以数据为中心”的概念,并 提供给用户一种检索体验,本系统对搜索结果的组织形式将是以服务标识( s d ) 作为条目划分标准的,以此克服u r l 标识资源的不足。 当前一体化原型系统对服务标识( s i d ) 的解析过程是基于平面结构的方案实 现的,是由“标识映射服务器”完成的。“标识映射服务器 采用c h o r d 协议注册 及查询服务标识( s i d ) ,这种协议不同于d n s ( 域名解析系统) 的树状结构,服 务器之间是以环状结构组织的,为实现大量资源的注册和查询提供了可能( 由s i d 映射到下层标识) 。 1 5论文的主要工作及结构 1 5 1本文的主要工作 1 本文介绍了一体化网络对服务标识( s i d ) 的定义和应用,总结了现有网络 架构下搜索引擎的检索方案和基本思想。 2 设计出了一种拥有现有搜索引擎基本功能的、基于服务标识归类定位资源 的、具有语义推理模块的一种搜索引擎的模型。 3 实现了服务标识搜索引擎。 4 将系统进行实际的测试,对实验数据进行分析,得出此系统的优缺点。进 一步明确服务标识( s i d ) 关于“以数据为中心”的概念。 5 完成了系统配置运行的文档,为代码的开源做好了准备。 1 5 2论文的结构 第一章介绍了搜索引擎的发展,一体化网络的基本概念,以及服务标识搜索 引擎的需求和实现方案。 第二章详细阐述了搜索引擎的原型实现,包括整体的调度方案以及各个模块 的功能和实现细节。 第三章介绍了语义本体的基础知识,详细说明了本系统所实现的语义推理案 例的思路及各个实现模块的具体细节。 9 北京交通大学硕士学位论文 第四章详细说明了系统的配置过程,并且展示了系统运行的结果,验证系统 设计的各种功能的实现情况。分析系统存在的不足和修改优化的方向。 第五章对全文进行了总结。 1 0 搜索引擎的整体设计架构及具体实现方案 2 搜索引擎的整体设计架构及具体实现方案 本章将介绍搜索引擎对于一体化网络原型系统的必要性,搜索引擎设计的整 体架构以及各个模块的具体实现方案等方面。 2 1需求背景 本系统是对现有一体化原型系统的功能补充,现有原型系统已经实现的功能 有: ( 1 ) 一体化网络原型系统已经能够处理输入服务标识( s i d ) ,进一步映射为 连接标识( c i d ) 或接入标识( a i d ) ,或者过渡性的u r l 。 ( 2 ) 对于检索现有原型系统的已注册资源,有了一种通过遍历映射表描述域 进行简单匹配查询的实现,但这种方案效率低,而且丢失了服务解析映射系统平 面查找【2 3 s i d 并且映射为下层标识的优势。 ( 3 ) 有了一种简单的网页搜索引擎,能够主动获取现有网络的网页文件,并 且能够为网页分配服务标识和关键字。但是这种方案仅是对网页赋关键字,并没 有深入的解析网页内的信息,如文字链接、图片链接、网页主体信息等。特别是 没有处理网页附带的图片资源。 基于以上各点,现有原型系统特别需要这样几个功能模块:独立于服务标识 映射解析系统的语义检索功能模块( 通过关键字检索s i d ) ;对网页内部信息进行 深层次分析挖掘的模块,特别是对网页附带的图片实体资源的标识分配和索引层 建立;用户查询资源的接口,即搜索引擎的前台接口部分。而本系统的搜索引擎 部分就是为这个几个功能模块提供实现方案,使原型系统的可用性大大增加。 2 2整体结构模型 系统的整体结构如图2 1 所示: 北京交通大学硕士学位论文 图2 1 搜索引孥整体结构示意图 f i g 2 - 1s k e t c ho f a r c h i t e c t u r eo ft h es e a r c he n # n e 整个标识搜索引擎系统有五个主要功能模块:网络爬虫( h e r i t r i x ) ;任务监测 模块( d i r l i s t e n o r ) ;核心信息处理与整体调度模块( t a s k f a c t o r y ) ;索引工厂模块 ( i n d e x f a c t o r y ) ;后台检索接口模块( q u e r y i n t e r f a c e ) 。其他扩展功能的模块有: 一个负责对服务标识赋予语义描述的模块:e n t i t y s y n 模块。一个用于实现简单的 基于本体的语义推理案例的功能模块:语义推理模块。用户接口( u i ) 模块。 2 3各个功能模块的具体实现 2 3 1网络爬虫模块( h e r i t r i x ) h e r i t r i x 是由i a v a 开发的,开源的w e b 网络爬虫,这个网络爬虫只提供一个一 些i a r 包和配置文件,需要自己设置j d k 环境和调整配置文件( 详细配置过程请见 第五章) 。h e r i t r i x 对抓取到的网络资源结果的存储方式有很多选择,本系统用的存 储方式是镜像存储,所谓镜像存储是指将u r l 地址按照“ ( 斜杠) 进行切分,再 按切分出来的层次进行存储。比如说原网站的一个网页的u r l 是 h t t p :w w w a b c c o m d e h t m l ,那么在相应的镜像文件夹下会有文件夹w w w a b c t o m , 这个文件夹下面有子文件夹d ,d 下面有文件e h t m l ,而且e h t m l 就是原u r l 指向 1 2 搜索引擎的整体设计架构及具体实现方案 网页的副本。 2 3 2任务监测模块( d i r l i s t e n o r ) 这个模块的作用是在受到触发后,对m i r r o r 文件夹进行检测,查看镜像文件 夹下是否存在新的镜像网站,如果发现新的镜像网站就更新m i r r o r x m l 文件, m i r r o r x m l 文件内容是以x m l 形式组织的已处理过的网站和新网站的列表,以及他 们所在的m i r r o r 文件夹的根路径。这个模块主要的实现类是d i r l i s t e n o r 类, d i r l i s t e n o r 是一个“单件【2 5 1 类,即在同一个进程中只有一个该类的实例,这样 的目的是保证监测进程中实例的唯一性。实现方法是将d i r l i s t e n o r 类的构造函数 私有化( 并且这个方法是同步的,即由s y n c h r o n i z e d 关键字限定) ,给出一个公有 的g e t l n s t a n c e 0 获得实例方法,该方法实现流程图2 2 如下: 图2 2d i r l i s t e n o r 单件类构造方法流程 f i g 2 - 2p r o c e s so ft h ec o n s t r u c t i o nm e t h o do fs i n g l e t o n d i r l i s t e n o r 类内聚了s i t e x m l 类,s i t e x m l 用于更新m i r r o r x m l 文件的内容, 主要的方法有r e a d x m l ( t r e e s e t ,t r e e s e t ) 和w r i t e x m l ( s t r i n g , t r e e s e t ,t r e e s e t ) ,r e a d x m l 0 方法用于将当前的m i r r o r 文件夹中的 北京交通大学硕士学位论文 网站列表暂存入它的参数容器中,w r i t e x m l o 方法用于根据它的输入参数容器中的 内容生成新的x m l 文件。d i r l i s t e n o r 实例调用的主方法是r e f r e s h x m l 0 方法,该方 法检测m i r r o r 文件夹下当前的网站镜像文件央列表,同时通过内聚的s i t e x m l 的 r e a d x m l 0 方法读取当前x m l 文件的内容:o l d s i t e s 列表( 已处理过的网站列表) , n e w s i t e s 列表( 未处理的网站列表) ,形成新的o l d s i t e s 列表和n e w s i t e s 列表( 逻 辑过程见图2 3 ) ,并用w r i t e x m l 0 方法写入x m l 文件。 图2 3d i r l i s t e n o r 更新m i r r o r x m l 文件流程图 f i g 2 3p r o c e s so fd i r l i s t e n o ru p d a t e st h em i r r o r x m lf i l e s i t e x m l 内聚了一个d i r l o c k e r 类,在读写文件时对文件加锁,读写完毕解锁, 1 4 搜索引擎的整体设计架构及具体实现方案 该类用于保持读写同步。例如要对文件s a m p l e x m l 加锁,则首先判断在文件相同 目录下是否有s a m p l e x m l 1 0 c k 文件存在,存在( 表示文件已被其他进程加锁) 则 等待,2 秒钟后再试,如果s a m p l e x m l 1 0 c k 文件不存在,则在文件相同目录下建立 s a m p l e x m l 1 0 c k 文件。当对文件解锁时,只需删除l o c k 文件即可。 2 3 3信息处理与核心调度模块( t a s k f a c t o r y ) 这个模块的实现类是t a s k f a c t o r y 类,它是各个后台功能模块总体调度的核心, 同时它也内聚了网页信息提取和处理的核心功能。t a s k f a c t o r y 的调度机制在所有 模块介绍完毕之后进行,本小节将详细介绍t a s k f a c t o r y 内聚的p o o l m a n a g e r 类, 包括p o o l m a n a g e r 类的整体运行过程、p o o l m a n a g e r 类的内部属性、p o o l m a n a g e r 类的主要方法以及p o o l m a n a g e r 运行的几

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论