(计算机软件与理论专业论文)一个有统一界面的分布式检索系统.pdf_第1页
(计算机软件与理论专业论文)一个有统一界面的分布式检索系统.pdf_第2页
(计算机软件与理论专业论文)一个有统一界面的分布式检索系统.pdf_第3页
(计算机软件与理论专业论文)一个有统一界面的分布式检索系统.pdf_第4页
(计算机软件与理论专业论文)一个有统一界面的分布式检索系统.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(计算机软件与理论专业论文)一个有统一界面的分布式检索系统.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

复旦夫学硕土论文 摘要 y 1 6 7 。l7 在i n t e r n e t 上存在很多检索服务,如中国期刊网、e i 、s d o s 、i e l ( i e e e ) 、 w e b o f s c i e n c e f i s b 等。这些检索服务都包含丰富的信息,检索者为了获得需要 的资料,往往不得不一一访问这些服务,而每个服务在检索界面上和结果处理 上都是不同的,为了减少检索者熟悉这些界面的时间,为了让检索者尽伙地获 得资料,我们设计了本文的系统一一一个有统一界面的分铂式检索系统。本文采 用基于c o r 旦的c s 结构作为系统的框架,设计了c o r b a 需要的接口和方 法,接口设计的一个原则就是要实现系统的动态性,从而实现系统的扩展性。 在c o r b a 结构的基础上,对客户端和服务器管理的检索代理部分的关键技术 都进行了详细地讨论。客户端讨论了检索界面设计,并且设计了一个功能强大 适用的检索界面;客户端也讨论了结果组织设计的原理,结果组织能够帮助检 索者快速获得有用信息;这些设计都是从当今比较著名的检索服务总结而束的, 能够满足大多数检索服务的特性。关于服务器的检索代理端,本文详细讨论了 b o o l 检索条件的翻译和过滤的原理,翻译和过滤过程的设计从提高系统效率和 减少网络传输进行了考虑;为提高系统对检索服务变化的适用能力,本系统采 用了近似模式匹配技术,并且设计了一个自动发现模式的侦测器。 关键词:检索服务,统一界面 乙 检索代理,b o o l 语言,翻译,过滤 一 v k v - - 、i 复旦大学硕_ 上论文l a g e2o r 6 ) a b s t r a c t i nt h ei n t e m e tt h e r ea r eal o to fs e a r c hs e r v i c e s ,f o re x a m p l e ,t h ec h i n e s ei o u r n a l n e t 、e i 、s d o s 、i e l ( i e e e ) 、w e b o f s c i e n c e ( i s i ) a i l t h e s es e r v i c e sa r e f u l lo fr i c h i n f o r m a t i o n i no r d e rt og e tn e e d e di n f o r m a t i g n t h es e a r c h e rh a st ov i s i ta l lt h e s e s e r v i c e so n eb y eo n e b u tb e c a u s et h es e a r c hi n t e r f a c ea n dt h er e s u l t o r g a n i z i n g i n t e r f a c eo fa l lt h e s es e r v i c e sa r ed i f f e r e n t t h es e a r c h e rh a st ob ef a m i l i a rw i t ht h e m h e n c ei ti st o ot i m ec o n s u m i n g i no r d e rt os o l v et h ep r o b l e m w ed e s i g na s y s t e m - ad i s t r i b u t e d s e a r c hs y s t e mw i t hau n i v e r s a li n t e r f a c e t h es y s t e m s m a i n f r a m ei sc ss t r u c t u r eb a s e do nc o r b a w ed e s i g na l li n t e r f a c e sa n dt h e i r o p e r a t i o n sa c c o r d i n gt ot h ep r i n c i p l et h a t t h ed e s i g ns h o u l dr e a l i z et h ed y n a m i c c h a r a c t e ra n dt h ee x p a n s i b i l i t y o nt h eb a s i so fc o r b aw eg oi n t op a r t i c u l a r st h e k e yt e c h n o l o g yo f t h ec l i e n ta n dt h es e a r c hp r o x yl y i n gi ns e r v es i d e a b o u tc l i e n tw e e x p l a i nh o wt od e s i g nt h es e a r c hi n t e r f a c e ,a n dw ea l s od e s i g no n ew i t hp o w e r f u l f u n c t i o n ;w ee x p l a i nt h et e c h n o l o g ya b o u tr e s u l to r g a n i z i n g a l lt h e s ed e s i g na c c o r d w i t hm o s ts e a r c hs e r v i c e sb e c a u s et h e yc o m ef r o ma l lt h e s es e r v i c e s a b o u tt h e s e a r c hp r o x yw ee x p l a i nh o wt ot r a n s l a t eab o o ls e a r c he x p r e s s i o na n dc r e a t ea f i l t e re x p r e s s i o n d u r i n gt h ed e s i g np r o c e s sw et h i n ka b o u tb o t hi m p r o v i n gt h e s y s t e me f f i c i e n c ya n dd e c r e a s i n gt h en e t w o r kt r a n s p o r t i no r d e rt oi m p r o v et h e r e a c t i o na b i l i t yt ot h ec h a n g eo ft h es e a r c hs e r v i c e ,w eu s et h ea p p r o x i m a t ep a t t e r n m a t c ht e c h n o l o g yi ns y s t e ma n dd e s i g nad e t e c t o rt h a tc a na u t o m a t i c a l l yg c tt h e p a t t e r n k e y w o r d s :s e a r c hs e r v i c e ,u n i v e r s a li n t e r f a c e ,s e a r c hp r o x y , b o o ll a n g u a g e t r a n s l a t i o n ,f i l t e r i n g 复旦大学硕士论文p a g e5o l 6 0 第一章绪论 随着信息科技与通讯网络技术的进步,以及网际网络与全球信息网( w w w ) 的盛行,全球正掀起一股信息数字化j 之热潮。除了世界各国积极进行数字图 书馆( d i g i t a ll i b r a r y ,d l ) 的建置计划外,信息提供者( i n f o r m a t i o np m v i d e r ) y : 积极地改善信息提供的方式,由过去提供单机c dr o m 版的形式,演进至目前 网络w e b 版形式,并且尽可能提供线上全文的下载或申请服务,为各项数字图 书馆的建置,提供许多丰富的内容与服务。这其中比较著名的检索服务有中国期 刊网、e i 、s d o s ( s c i e n e e d i r e c to n s i t e ;原e l s e v i e re l e c t r o n i cs u b s c r i p t i o n s ( e e s ) 数据库) 、i e l ( i e e e ) 、w e bo fs c i e n c e ( i s i ) 等。这些检索服务都包含了丰富的信 息和数据,因此检索者为了获得由价值的信息,就不得不一个一个访问这些检索 服务,而且因为每个检索服务的检索界面和结果界面都是不同的,检索者就不得 不学习新的检索技巧,这不仅浪费了很多时间,也往往让检索者望而却步,而且 就算检索者一一访问了这些检索服务,并且获得了很多感兴趣的文档信息,但这 些信息的数量有时候实在太多,从这些信息中,检索者往往很难快速地找出最感 兴趣的东西。因此,如何整合目前各个检索服务的检索功能,提供一个统一且友 好的检索接口晃丽成为目前当务之急。 国际上很多机构都在对这方面进行了一些研究。台湾的u n i s e a r c h 系统“l l 功设 计了一个统一界面的检索系统,但是该检索界面比较简单,只能构造简单的b o o l 检索条件,它也有一个检索语言翻译系统,但是很简单,只实现了属性的翻译, 也没有过滤,更没有一个统一的结果处理界面,而是对对每一个选定的检索服务 的结果启动一个浏览器,这实际上还需要检索者一个一个去浏览。i n t e r a c t 搜索 服务a 1 1 i n o n es e a r c h o l ,它也实现了多个搜索引擎的统一,但是它根本没有实现 单个搜索服务的透明性,它只提供一个单独进入每个搜索服务的入口,因此不但 检索条件不统一,结果的显示也不统一。m e t a c r a w l e r l 4 x s ) 也实现了一个统一的检 索界面,可以选择很多的搜索服务,不过他和u n i s e a r c h 一样只能构造很简单的 b o o l 语言,它返回的结果太少,过滤掉了很多的结果纪录。s t a n f o r d 大学数字图书 馆项目组的r e t d e v i n gi n f o r m a t i o n 项目6 ) ,对分布式的搜索进行了较深的研究, 他们构造的s e n s e m a k e r 7 ) 系统有一个统一的界面,也能够构造复杂的查询语句, 并且有完善的翻译过滤系统,不过主要是针对搜索引擎服务的,而不是针对检索 服务的。 我们的目标是要设计一个针对各种检索服务的有统一接口界面的分布式检 索系统。检索服务和搜索引擎服务相比。就是前者有更丰富的检索条件构造界面, 并且可以支持检索的属性也很多,其实现了的功能也更丰富。因此,参照以上一 复旦人学硕士论文 些系统的优缺点,并结合检索服务的特点,我们设计了d 4 s 系统( d i s t r i b u t e d s e a r c hs y s t e m f o r s e a r c h s e r v i c e s ) ,其结构图如图1 1 。系统一共分为3 部分,最左 边的是检索界面,同时也是c o r b a 的客户端,采取c s 或b s 结构都可以:中问的 是c o r b a 服务器,同时也是配置中心:最右边的是检索代理,每个检索服务个 代理,代理可以和c o r b a 位于同一台机器或分开,但是其配置都在c o r b a 服务器 上进行。 它的一般工作流程开始于用户打开系统客户端的软件,显示如图2 2 的界面。 然后对图2 3 、2 4 的检索服务和检索表达式分别作了设置后,提交检索。检索条 件通过c o r b a 远程调用从客户端传送到服务器端,服务器再根据用户选择的检索 服务,将这些检索条件分别传给每一个检索服务的代理。检索代理会分析这个检 索条件,将它翻译成适合检索服务的语句和过滤语句,然后将翻译后的检索语句 送至检索服务的h t t p 服务器,h t t p 服务器将传回一些与结果相关的网页,检索代 理再分析这些网页,取得有用的结果,然后根据过滤语句进行过滤,过滤后送回 至客户端。 本系统有如下特点: 1 强大的检索条件构造界面。 本系统提供的检索条件构造界面可以构造满足大部分检索服务的b o o l 语言, 而且结构简单,逻辑清楚。 2 客户端配置简单。 客户端除了配置e o r b a 服务器的地址外,基本上不要作其它配置,检索属性 以及检索服务都是动态从c o r b a 服务器获得。 3 翻译和过滤功能。 检索代理的翻译器可以将检索者构造的b o o l 条件进行翻译,以便让它适合检 索服务,同时过滤器可以过滤掉不需要的纪录。 4 很好的扩展性。 本系统为提高扩展性,作了很多工作。整个系统采用基于c o r b a 的c s 结构, 就是因为c o r b a 有很好的扩展性。检索代理的侦测器可以自动发现网页的变 化,并自动找到匹配的模式。检索属性和检索服务都是动态决定,而不是固 定的。 5 并行检索。 检索者提交检索后,各个检索代理就独自并行地开始检索工作。例如,如果 检索者决定搜寻n 个检索服务,各数据库检索服务所需时间分别为m , i l l 2 ,m 3 ,m 。,那么所需时间就是m a x ( m l ,m 2 ,m 3 m 。) 。并且当一个检索 复旦大学硕士论文 服务因为某些原因不能返回时,系统不会无限期地等待。 6 集中管理,分布式检索。 管理工作主要都位于服务器端和检索代理端,我们把所有这些管理工作都放 在c o r b a 服务器上,这样的集中管理方式可以实现统一方便地管理。 本论文共5 章,第一章是绪论,介绍了研究背景及系统的结构合特点。第二 章主要介绍了检索界面,包括b o o l 语言的构造及结果组织策略等。第三章主要 介绍了系统的i d l 。第四章主要介绍检索代理的各个组成部分,包括翻译、过滤、 侦测等。第五章测试,对中国期刊网的检索代理实现进行了性能测试。 c o r b a 最 务 器 图1 1 图2 复旦大学硕士论文 第二章检索界面 现在i n t e r n e t 提供的检索服务很多,因此当我们检索资料的时候,经常要访 问很多检索服务,而这些检索服务的检索界面一般都是不同的,同时它们提供 的检索机制也是不同的,因此检索者不得不熟悉不同的检索服务的检索方法, 这既给检索者带来了不便,也浪费了很多的时间,同时要检索的结果也是杂乱 无章的,仅能给检索者提供很少的信息。因此,我们的系统就是要设计一个统 一的检索界面,然后提供一些方法让检索者去组织检索结果,通过组织的过程, 检索者能够快速地得到有价值的信息。 2 1 界面介绍 首先,我们做一个假设,假设一个检索者想查一些2 0 0 2 年出版的关于t c p 的阻塞( c o n g e s t i o n ) 方面的论文。他启动本系统程序,首先进入登录界面图2 1 , 输入用户和密码后进入主界面如图2 2 。然后点击工具栏按钮* ,就进入检索服务 界面如图2 3 ,这个界面将动态显示服务器所有能支持的检索服务,图中显示了4 个检索服务:中国期刊网、e l 、a c m 、s d o s ,这些检索服务只要服务器端配 置好了,客户端就可以看到,因此扩展性很好。检索服务下面是它的数据库集 合,如e i 就包含“e ic o m p e n d e x 1 9 9 9 ”等7 个数据库。这个界面可以上检索者 很方便地指定他感兴趣的检索服务和数据库。确定后就会调用3 2 节m e t a d a t a 接口的i n i t i a l 方法,开始4 1 节的初始化。 检索服务配置好后,就点击工具栏按钮b o o l ,进入检索条件构造界面如图 2 4 ,这个界面分为左右两边。左边分为4 列,第l 列是供检索者选择检索属性 的,这些属性是根据检索者选择的检索服务而变化的,第2 列是供检索者选择 动作即包含或等于,如图2 5 ,第3 列是供检索者输入表达式的,第4 列是供检 索者选择逻辑符a n d 、o r 、n o t 。现在这个检索者不知道更细节的关于阻塞 方面的情况,因此他也想不出更多的检索词,就输入了标题包含t c p ,主题包 含c o n g e s t i o n ,2 0 0 2 年出版的条件,如图2 5 。右边上面有一个位置算符,其含 义见后面2 2 节。 检索条件配置好后,再回到主界面图2 2 。提交检索前首先设置一下检索时 间,有2 种选项:s h o r t t i m e ( 默认) 和l o n g t i m e ,s h o r t t i m e 即等待较短的时间, l o n gt i m e 即等待较长的时间,我们的系统没有确定具体的时间界限,而是根据 检索命中的纪录总数来定这个时间:如果选择s h o r t t i m e ,那么对每个检索代理就 复旦大学硕士论文 p a g e9o l 6 i l 要根据自己命中的纪录总数来决定,当记录总数不多的时候,就一次返回全部 纪录,但当纪录总数很多时,就首先返回一定比例的纪录,剩下的纪录用户以 后可以选择l o n gt i m e 再按s e a r c h 按钮提交取回,也就是3 2 节讲的检索事务的 第二步,调用r e s u l t a c e s s 接口的g e t d o c s 方法;如果选择l o n g t i m e ,则一次就取 回所有纪录,当然这需要较长的时间,检索者可以按s t o p 按钮随时停止。 时间配置好后,就可以按s e a c h 按钮提交检索,也就是3 2 节讲的检索事务 的第一步,调用s e a r c h 接口的s e a r c h 方法。在任何时候,都可以按s t o p 按钮停 止检索。检索返回的结果如图2 6 ,排列的次序是根据每个检索服务的次序。总 共返回4 6 篇论文纪录,其中e 1 3 8 篇,s d o s 8 篇。 到此为止,检索者就可以一篇一篇浏览所有的文章了。但是一篇一篇浏览 需要很多时间才能找到需要的信息,为了加快速度,检索者这时候就可以使用 组织功能了,见2 4 节介绍。这个检索者也不想一篇一篇浏览,于是就选定作 者作为组织的策略,如图2 7 ,然后点按钮o r g a n i z e ,组织后的结果如图2 8 , 结果根据作者分成了若干组,次序按文章的数量排列,最多的组排在最前面, 每组里面的文章根据其标题的字母顺序排列。通常说来,文章最多的作者显然 是领域权威,也是检索者最感兴趣的。每个组中很可能包含重复的论文,因此 有必要把同一论文的有关记录进行合并,每个组前面有一个复选框,选中它, 再点m e r g e 按钮,就可以合并这个组里所有的文章,合并后的结果如图2 9 。 这次因为检索者选定的范围很小,命中的总纪录也少,因此最多的作者才2 篇文章,这个检索者觉得光这前面几篇还不够,于是他又选文档来源作为组织 的策略,结果如图2 1 0 ,其中来源c o n f e r e n c er e c o r d i e e eg l o b a l t e l e c o m m u n i c a t i o n s c o n f e r e n c e 以1 5 篇排第一。这个检索者很相信i e e e 的权威, 看到这么多文章来源于它,就觉得文章的数量差不多了。这时,它可以保存这 次检索结果,以备以后需要。 上面举的是一个检索的例子,不同的检索条件和不同的返回结果需要不同 的组织策略,检索者可以灵活运用。 复旦大学硕士论文 翻曰互互墨曩盔翻镕懿。 立籼蠢曩岫 瞎口 - - i t w c h t i m e r 刁! 雯划。竺一 5 臃量i 虱l t 一 :! = :! 塑一 j 复旦大学图书馆 论文数据库 分布式检索系统 j 麓f 一g 障一一 图2 2 图2 3 塞呈查堂堡主堡兰 ! 竺! ! ! ! ! :竺 图2 4 圈2 5 墨呈查兰堡主堡奎 ! 坚! ! ! ! ! 塑 国墨四臣墨墨曩瞄截鬣黼+ 7 笠岫彻董1 0 0 - h 凹 曾口 1 t 副型 s , 誓e ht i r o l 厂习! :! 竺型竺d 疗如t t i r l w 恤 圆是一 共4 6 篇 一 广m i 扎3 8 篇 标题:ac o n t r o lt h e o r e t i c a la n a l y s i so faw i n d o w - b a s e df l o wc o n t r o l 舵c h a r , i f t c p c o n n e c t i o n s 耐t hd i f f e r e n tp r o p a g a t i o nd e l a y s 作者:o h s a k l ,i l t a k a g a k i k ;l t t r a ta i 一 作者单位:c y b e r m c d l ac e n t e ro s a k a 吣”r s i ty jo s a k a j a p 会议:i n t e r n e tp e r f o r g b a r t c ea n dc o n t r o lo fn e t w o r ks y s t e mi i 会波地点:d e n v e r ,c o , u n i t e ds t a t e s 会议主办者:s p i e 来源:p r o c e e d i p 堪so fs p i e t h ei n t e r n a t i o n a ls o c i e t yf o ro p t i c a le n s i n e e r i n sv4 5 2 3 2 0 0 1 p1 6 1 1 7 0 出皈时闩:2 0 0 1 类型:c :( c o n f e r e n c ea r t i c l e ) 摘要:董摘要 标题: t c pf r i e n 4 1 y , r a t e - b a s e dr o e c h a n l z mf o rn a c k - o r i e n t c dr e l i a b l cr e a l t lc 篮t c o n g e s t i o nc o n t r o l 作者:l a c k e r ,j o s e p hp d s qi lb r i a n 作者单位:i n f o r m a t i o nt e c l m o l o e yd i v i s i o nn a v a lr e s e a r c hl a b o r a t o r y , w a s h i n g t o n , d c u n i t e ds t a t e s 会 叟:i e 既g i o b a lt e l e c o m u t m l c a t l n sc o n f e r e n c eg l o d e c o i 0 1 会议地点:s ma n t o r i i o t x u r n t e ds t a t e s 会议主办者:i 眦,i o cg l o b f o ! l ;- r h # p p 一 - j t 口口口c 1 k t 1 小+ ;r 。“口r 价1川 二 图2 6 翻毯蜀蕾墨墨潮黼鼢。t 文岫i l ( 。i i - b 凹 瞎日 h i lt 剧驾 亘= ! 生型! ! = i 一c h t - 一 疗岫“n w “竺兰竺一 圈圃口 共4 6 篇 广e i 热3 8 篇 标题:ac o n t r o lt h e o r e t i c a la n a l y s i so faw l n d o , , - b a s e df l o , , e 帆t r o l 肥c h m i s mf o rt c p 来源:p = o c e e c u r 培so fs p i g - t h ei n t e r m t i a ls o c i e t yf o ro p t i c a lg r 培i n e e r i n gy4 5 2 3 i 题: t c p 矗- i e n d l y , r a t e - b a s e dm e c h a n l mf o rn a c k - o r i e n t e dr e l i a b l em _ i l t i e a s t 眦t e ds t a t e s : _ o ml lb r i ” t e c l m o l o t yd i v i s i o nw a r mr e s e 越- c hl 址o r a t o z 孔僦r 鼍t o qd e , 0 1 r ,_ - _ 一qq m l 1g l f l - - j = j 图2 7 壅里盔兰堡主篓塞 ! ! 些! ! 竺! :垒竺 团匮譬墨墨墨啊豳蹭蓥瀣 烹f i ( 。蠢曩坂山 口口 * 1 w e o l t | j 倒墨j c t 阳兰坐l ! 竺_ j8 “一- l t i - 罂_ :一 共4 噶 一 厂竹:毫: - c y a ,j n m c s “2 篇 标题:t c pr a t ec o n t r o lw i t hd y n a = i cb u f f e rs h a r i n g 誊鎏:c o m p u t e rc o t m u n i c a t i m u sv o l m o e :2 5 i s s u e :1 0 ,j e1 5 , 2 0 0 p p 9 2 2 9 q 3 作者:舢e j 瓣s ,o u e l l e tr e , l i c h e l i t 咖) e l f i ny 量幂:轰摄要 下载:a r t i c l ef u l lt e x tp d p ( 3 9 0i b ) 标题:t c pr a t ec o n t r o lw i t hd y n i cb u f f e rs h r i n z 作者:抽e y j a m e s ;o u e l l e t t e 1 l c h e l 1 m t m o , d e l f l ny 作者单位:n o r t e ln e t w o r k ss y s t e m s r c h i t e c ts t a t l o nco t t 删o n t k 1 y4 h 7 ,c a n a d a 来源:c o u t e rc o m l m d c a t i o n sv2 5n1 0j u n1 52 0 0 2 p9 2 2 - 9 4 3 出版时闩- 2 0 0 2 语言:e n g l i s h 类型:j ,( j o u r n a la r t i c l e ) 摘要:置擅要 广作彳i :i o u s a 4 ig ,g 1 兆,篇 标题:as i m v l ee ri d e n t i f l c a t i o nw i t hc o n g e s t i o na v o i d a n c e ( s e r i c a ) a 】g o r i t ht os u p d o r , s o 脯t c pd l f f e r e n t i a t e d e n c e so v e rt h e b rt r a f f i c 差罄:c o m p u t e rc o m m u n i c a t i o n sv o l u m e :2 5 ,i s s u e ;5 1 a r c h1 5 2 0 0 2 ,p p 4 4 5 4 6 3 怍者:l o u s a d l s , g i ,t s i l i g i r i d e s t 九 摘要:叠埴要 m m 、 : 葡r 一黼r 一 图2 8 囝匠蜀面墨墨黼镕溆j 文 ( d i 瓤d 王a d l h 凹 笛q h e e l t 上埴j 型 阳r 刁剑剑 “t 一 疗h r t - r i q :! 竺! ! i! ! 竺l 图2 9 复且大学硕士论文 p a g e1 4o l 6 0 立f ( e ) 雌【。董簟叹匝 苗q - “1 t t h t i 网广刁兰竺d :竺_ j 8 t n t - - ! ! 唑j 竺l l 共非篇1 广柬橼c o n t 盯- k o r d 1e n g i i 出n ih l l lo m a u u n irh t i ( j 卅m - t 川f l t 勰 标题:u s i n gt c pr a o d e l st om _ i d e r s t a n db r o a d , h i d t ha s s u r ei nad i f f e r e n t i a t e d 帆r im n e t w o r k j 作者ij a i n e s , i ,s e d d i g b n ;n a n d r b ,p i e d a , p ,d e v e t s i k l o t i s ,i 作者单位:c a r l e t o nu n i v e r s i t y , o t t a w a , o n t c a n a d a 会议:i e e eg 1 0 b a lt e l e c o n t s t t m l c a t i mc o n f e r e n c eg l o b e c o i l o l 会议地点:s a na n t o n i o ,t 墨u n i t e ds t a t e s 会议主办者:i e e e i g cg l o b e c o i i 来源:c o n f e r e n c er e c o r d i e e eg l o b a lt e l e c o t a m u n i c a t i o n sc o n f e r c n c ev32 0 0 1 p1 8 0 0 1 8 0 5 ( i e e ec a tn0 1 c h 3 7 2 7 0 ) 出皈时闩:2 0 0 1 类型:c a ;( c o n f c r c n c ca r t i c l c ) 摘夏:羞塘戛 标题:e n t t o - e n dr e l i a b i l l t yi nl r l i t s :t c po 、,c r m 作者:c a n t o n , a - f ;c h a h e d , t 作者单位:c d r l e t o nu n i v e r s i t y , o t t a r a , o m c a n a d a 会议:i k - eg l o b a lt e l e c o m n u n i c a t i n sc o n f e r e n c eg l o b k c o i l 0 1 会 叟地点:s a na n t o n i o ,t x , u n i t e ds t a t c s 会议主办者:i e e e ;i c cg l o b e c o i i 来源:c o n f e r e n c er e c o r d i e e eg l o b e dt e l e c o a 叫n i c a t i o n sc o n f e r e n c ev32 0 0 1 p3 4 7 3 + 3 4 7 7 ( i e e ec a t n0 1 c h 3 7 2 7 0 ) m 瞄时橱n n l :i 2 2 检索属性 我们的目标是同时检索各个检索服务,而每个检索服务所支持的检索属性 都是不同的,如图2 1 l 时一些著名检索服务支持的属性图,这个不同分两种: 专有属性。这种属性只专属于某种检索服务。比如:e i c l a s s i f i c a t i o nc o d e s 这个属性就只有d i a l o g s i t e 才有。 公共属性。这种属性不止一个检索服务有,但它们的名称可能不同。比如: 中国期刊网作者属性是a u t h o r ,而d i a l o g s i t e 中却是q p a u 。 我们这儿所指的检索服务的属性不是它拥有的数据库的对应属性,而是它在网 页里显示的属性,因为检索服务是通过h t t p 提供服务的,其对应的g e t 或 p o s t 数据就包含检索属性的名字。 我们的系统是希望提供用户一个统一的检索界面,因此我们必须统一组织这 些属性,对于专有属性是好办的,关键是那些公共属性,我们必须将它们的名 字同一起来,我们的方法就是建立了一个统一的属性表,表里包含所有的专有 属性和统一后的公共属性,比如上面的作者属性名称a u t h o r 和q p a u 就统 一为a u t h o r ,一些常见的公共属性有a u t h o r ( 作者) ,a u t h a f f l i ( 作者单 复旦大学硕士论文 p a g e1 5 0 r “) 位) ,t i t l e ( 标题) ,j o u r n a l ( 刊名) ,d a t e ( 出版时问) ,c o n f e r n a m e ( 会议名1 , c o n f e r l o c a ( 会议地点) ,c o n f e r l o c a ( 会议时间) 等等。 我们的检索界面里显示的都是统一的属性表里的属性,而且我们的系统也 只显示检索者所选检索服务支持的属性。 峙段名称 s u b j e c a b s t r aa u tj o u r n a lt i ti s s n i s y e a r o f t k e y w 数据康名 c t h o rn a m ei eb n p u b li c a t h e a d io r d 锈 1 0 n n g o v i d e b s c o p r o q u e s t s d o s e i i e l c s a f i r s ts e a r c h i d e a l s w e t s n e t w o s 2 3b o o l 语言表达式 图2 1 3 大部分检索服务都提供b o o l 语言方式的检索功能,因此我们提供给用户 的检索方式也是基于b o o l 语言的。我们考察了从复旦大学可以访问的十多个 检索服务,发现它们的b o o l 语言都不外乎支持如图i 所示的功能,图2 1 2 中 只列出了6 个检索服务。a n d ,o k , n o t 是连接属性的3 个b o o l 操作逻辑运算 符,还有5 个位置算符n w ,m n ,a n d ,o r , n o t , 这5 个位置算符都是用来表达同 种属性的几个值之间的位置关系,2 个截字符和? 关系数据库的s q l 语言的意 思相同,剩下的是一个很重要的概念停止字( s t o p w o r d ) 。下面说明这些符号 的意义: 3 个属性操作b o o l 逻辑运算符:a n d , o i l n o t a n d 是逻辑与。o r 是逻辑或。n o t 是逻辑非,在检索系统中,它们是用 复旦大学硕士论文 来连接检索表达式的,比如:e q u a l ( a u t h o r ,s t e v e n ) a n dc o n t a i n ( t i t l e ,t c p ) 就是查询作者是s t e v e n 以及标题包含t c p 的文章。 5 个位置算符:n w ,m n ,a n d ,o r ,n o t t 8 这些位置算符都是二目算符,一个位置算符可以连接两个字,这些字都是 同一属性的几个表达式值。 n w :如a ( n w ) b 表示a 在b 前面,同时它们中间最多有n 个字,当n = 0 ,也 可以写作w : m n :女【1a ( m n ) b 表示a 和b 中间最多有m 个字,但顺序任意,当m n = 0 ,也可 以写作n : a n d ,o r ,n o t :它们意义和上面3 个属性操作b o o l 逻辑运算符类似,但这 3 个是用来连接同一属性的几个表达式值的; 2 个截字符:和? + :出现在字尾或字中,如c o m * ,它就代表前面3 个字母是c o m 的任意 字; ? :出现在字尾或字中,一个问号代表一个字母,如c o m p u t ? ? , c o m p u t e r 就和它匹配: 停止字( s t o p w o r d ) t 8 l = 检索服务建立索引时,一般对漏掉那些出现率很高又没有实际意义的字,这 些字就叫做停止字。 基于对十多个检索服务的考察和研究,因此我们设计了如图2 5 b o o l 语言 检索表达式构造界面,用户在这个检索界面可以构造检索表达式,构造的表达 式将符合大部分检索服务的功能。 按照我们设计的b o o l 语畜检索表达式构造界面,检索表达式的语法9 可 由图2 1 3 描述。 复旦大学硕士论文 f h e ci70 1 1 6 f j 中 1 ) i a l o g s i t e e i s e v i e ra c mw e be b s c o 国 ( e 1 ) ( s d o s )d j 舀t a l o fs c i e n c e 全文 期 l i b r a r y 刊 网 属性操a n d 作 o r , b o o ln o t 属性搜索 , 位置n w 算符空格句点1 ( “”,n 碰 m n , x f 同一f n = j ( 0 属性的a n d , 检索词 r 之间l o r , n o t 截词算 , 符: f ? ) ? 停止字 x, ( s t o p w o r d ) 图2 1 2 图中叶表任意个数的字母( 英文) 或字( 中文) ; d i a l o g s i t e 中空格代表w ,r t 个句点代表n w ; d i a l o g s i t e 中两个字之间加号。表示两个字的位置顺序无关相当于a n d ; d i a l o g s i t e 中? 号的意义和我们的相同; e l s e v i e r ( s d o s ) 中双引号“”代表全词匹配,可用我们的w 表示。a d j 表示两字顺序不变 中间相隔若干字。可用我们的n w 表示: e l s e v i e r ( s d o s ) 中只支持i o n ; a c md i g i t a ll i b r a r y 比较复杂,它不像其他检索服务很好的支持单个属性的检索 注 复旦火学硕士论文 及属性间b o o l 逻辑符的连接,不过它支持二次检索,因此它也可以做到上幽中打4 的功 能。 a c m d i g i t a ll i b r a r y 中+ 号只能出现在字尾。 1 q u e r yt r e e ( j ) q u e r y := q “e t y io rq t c t 抛 ( 2 )】 q u c r y ia n dq u e r y 2 ( 3 ) q u c r y ln o tq r 抛 ( 1 4 )l p r o d 2 p r e d i c a t es u b t r e e ( 2 ) p r e z l:= c o n t a i n s ( f i e l d ,w p a t ) ( 2 e q u a l s ( f i e l d p p a t ) 3 w b r dp a t t e r ns u b t r e e ( 3 j ) w p a t:= w p a t lo rw p a t 2 ( 3 2 )lw p a t la n dw p a t 2 ( 奠lw p a t l ( , i w ) w p a t 2 ( 3 4 )w p a t l ( n n ) w p a t 2 ( 3 5 )i w o r d 4 p h r a s ep a t t e r ns u b t r e e ( # ) p p a t:= p p a t lo rp p a t 2 ( # 2 )ip p a t la n dp p a t 2 ( 4 3 ) p h r a s e 图2 1 3 图中c o n t a i

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论