




已阅读5页,还剩56页未读, 继续免费阅读
(农业机械化工程专业论文)个性化智能元搜索引擎模型研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
西南大学硕士学位论文摘要 茼要 i n t e r n e t 自诞生以来不断成故,尤其是最近几年更是得到长足发展,功能不断扩展,信息 容量呈爆炸性趋势增长,然而在信息极大丰富的同时用户也面临着信息过载和资源迷向的 问题,i n t e r n e t 网络环境下的信息检索于是成了一个新的研究热点。根据专家评测,目前主要 搜索引擎返回的相关结果比率不足4 5 ,用户要想获得一个比较全面、准确的结果,就必须反 复调用多个搜索引擎。元搜索引擎的出现,在一定程度上解决了这些问题。 元搜索引擎技术是一种集成搜索引擎技术。它主要通过成员搜索引擎选择、文本选择、 结果融合三个主要步骤来完成信息检索任务,如果系统策略设计得当,成员搜索引擎选择方 法合适,那么相对于独立的传统搜索引擎来说,元搜索引擎一般可以达到更高的搜索覆盖率 和更好的查询效果。但是元搜索引擎也会面临与传统搜索引擎一样的问题,就是不能对用户 进行个性化分析和提供相应的有针对性的服务,而且如果系统的集成策略设计地过于简单和 机械化,则元搜索引擎多数情况下并不会取得更好的信息检索效果。 本文试图通过设计一个个性化智能元搜索引擎模型来改善传统元搜索引擎所面临的不 足。个性化是指模型可以针对不同的用户建立不同的用户兴趣模型,采用兴趣模型将查询定 位到用户兴趣领域中并扩展用户查询,能更清晰、准确的表达用户查询 通过用户兴趣模型 来过滤和筛选搜索结果,使结果的返回更有针对性。智能是指成员搜索引擎的选择,可以根 据成员搜索引擎以往性能表现动态的决定每次的调度策略,选出那些可能对某个特定的领域 有良好检索效果的子引擎来参与最终的搜索任务。本文取得了如下研究成果; 1 基于o n t o l o g y 技术的用户兴趣模型构建 用户兴趣模型的构建对元搜索引擎的性能表现起着至关重要的作用,本论文研究了现有 用户兴趣模型的构建方法,元搜索引擎中采用的兴趣模型大多使用传统的词频法来衡量某个 用户的兴趣,用二元组( 兴趣词条,兴趣权重) 或三元组( 兴趣词条,兴趣权重,词条新鲜度) 表示,主要通过从用户访问记录中抽取部分主题词作为用户感兴趣的词条,同时计算其出现 的概率表达用户对该词条的感兴趣程度,即:兴趣权重。 但单使用词条作为用户感兴趣的模型可能会出现用户的兴趣领域相当分散,使用该分散 的兴趣模型指导用户查询的针对性不强;同时用该分散的用户必趣模型过滤出的结果可能仍 然存在不少不相关结果。为使用户模型能比较集中的反映用户对某领域的兴趣,本文提出用 领域o n t o l o g y 来表示用户兴趣,建立的模型包括用户感兴趣的领域以及反映对该领域感兴趣程 度的主题词。建立好基于领域o n t o l o g y 的用户兴趣模型后,用户的查询请求可与主题词相匹配, 映射到最相关的领域主题中使得用户的兴趣范围更明确。 2 成员搜索引擎的调度策略 本论文首先研究了现有的几种基于定性、基于定量、基于学习法的成员引擎( 也称成员 数据库) 调度策略,基于定性、定量的调度策略需要成员搜索引擎的数据库描述信息,但很 西南大学硕士学位论文摘要 多成员搜索引擎不愿意提供其搜索引擎的设计信息和统计信息。如果没有足够的数据库描述 信息,成员搜索引擎关于给定查询的有用性估计可能不能准确得到,使得基于定性和定量法 的成员搜索引擎调度策略变成空中楼阁,无法计算出与查询的相关性。基于现阶段元搜索引 擎还难以得到足够数据库描述信息发展的情况,本模型采用基于学 - 3 的方法。 依据领域o n t o l o g y 的划分情况对i n t e m e t 中的信息进行领域的划分,从领域o n t o l o g y 中选 取主题词作为该子类的代表性的词和术语。对于每一个类别代表不同类别信息的训练查询将 用来做静态学习,判断成员搜索引擎对该类别的查询效率。训练结束后每个数据库对于每个 类别都有一个初始信任因子。模型开始运行阶段采用初始信任因子作为调度依据,随着模型 的运行,动态的建立成员引擎的权值向量和相关术语集,用于表示查询词对于该数据库的权 值向量以及查询词的相关术语。权值向量和相关术语集积累到一定程度时采用信任因子和权 值向量两个指标共同来调度成员搜索引擎,在信任因子排序的基础上再以权值向量作为依据 确定成员搜索引擎的调度策略。 3 基于聚类的元搜索引擎结果融合策略 元搜索引擎的结果融合相当重要,通过融合将多个搜索引擎的结果整合,恰当的融合策 略能使多个引擎中用户感兴趣的信息统一排列在前列。 本文对现有元搜索引擎文本选择和结果合并方法的研究分析发现与用户最相关的查询结 果不一定排列在前面,若文本选择采用直接从成员引擎结果提取前面的结果来融合,可能会 丢失不少排在后面的有用信息,同时对结果的合并排列也产生影响;元搜索引擎的目标是将 最相关的文档尽可能的排列到前面,而现有的结果排序法大都不能很好地将用户感兴趣的结 果聚集成类集中放到一起,而要用户一一到众多的结果中寻找,基于此,本文的结果融合采 用如下的策略:将成员引擎的结果汇集到一起,先排除重复链接和无效链接,再对结果聚类 相似的文档聚集到一类,方便用户浏览。显示时依据与用户兴趣的相关性对类排序,同时同 一类中的文档也按相关性排序。这样尽可能的不漏掉有用文件,同时文件都以类的方式显示 给用户,用户可直接跳过不感兴趣结果。 关键词:元搜索引擎o n t o l o g y 技术用户兴趣成员搜索引擎选择 i i 西南大学硕士学位论文 a b s t r a c t a b s t r a c t t h ec a p a c i t yo fi n f o r m a t i o nh a sb e e ni n c r e a s i n gm a s s i v e l y ,s i n c et h ei n t e r a c tw a si n v e n t e d h o w e v e r ,p e o p l eu r g e n t l yn e e da ne f f e c t i v er e t r i e v a lt o o lt oh e l pt h e mf i n dt h er i g h ti n f o r m a t i o n q u i c k l yi nt h ei n f i n i t ed a t ad o m a i n a c c o r d i n g t ot h ee x p e r t s i n v e s t i g a t i o n ,t h ea v e r a g ep r e c i s i o no f n u m e r o u sf a m o u ss e a r c he n g i n es y s t e m si sb e l o w0 4 5 u s e r sh a v et os e e kh e l pf o rt h eo t h e rs e a r c h e n g i n e si no r d e rt og e tt h em o r ec o m p r e h e n s i v e ,v e r a c i o u sr e t r i e v e di n f o r m a t i o n t h ea r i s i n go f t h e m e t as e a r c he n g i n et e c h n i q u eh a ss o l v e dt h i sp r o b l e mi nas e n s e t h em e t as e a r c he n g i n ei sa ni n t e g r a t i o ns e a r c he n g i n et e c h n i q u e ,a n di t i sc o n s t r u c t e db y s e v e r a ls i n g l es e a r c he n g i n e s w h e nam e t a - e n g i n er e c e i v e saq u e r yf r o mau s e r ,i ti n v o k e st h e u n d e r l y i n gs e a r c he n g i n e st or e t r i e v eu s e f u li n f o r m a t i o nf o rt h eu s e r t h em e t as e a r c he n g i n ei t s e l f i n v o l v e st h r e ep r o b l e m s :t h ed a t a b a s es e l e c t i o np r o b l e m ( s u b - e n g i n e ss e l e c t i o n ) ,t h ed o c u m e n t s e l e c t i o np r o b l e ma n dt h er e s u l tm e r g i n gp r o b l e m f t h es y s t e mp o l i c i e sa r ed e s i g n e dp r o p e r l y ,t h e m e t a - e n g i n eh a sh i g hp o s s i b i l i t yt oa c h i e v eh i g hc o v e r a g e ,p r e c i s i o na n dr e c a l l b u tm e t as e a r c h e n g i n ei sa l s oc o n f r o n t e dw i t hh o w t oa n a l y z ep e r s o n a l i z i n gc h a r a c t e r i s t i c so fi n f o r m a t i o n r e q u i r e m e n t sa n dt op r o v i d es e r v i c ew i t hp e r t i n e n c e 。i f t h es y s t e mi n t e g r a t i o np o l i c yi st o os i m p l e a n dt h e r ei sn om e c h a n i s mt os o l v et h ei n d i v i d u a l i z e ds e r v i c e ,t h em e t as e a r c he n g i n ew o u l dn o t a c h i e v eb e t t e re f f e c tc o m p a r ew i t hs i n g l es e a r c he n g i n e a p e r s o n a l i z e da n di n t e l l i g e n tm e t as e a r c he n g i n ei sd e s i g n e di nt h i sd i s s e r t a t i o ni no r d e rt o i m p r o v et h ei n s u f f i c i e n c i e sf a c e db yt r a d i t i o n a lm e t a s e a r c he n g i n e s p e r s o n a l i z a t i o nm e a n st os e tu n au s e ri n t e r e s tm o d e lp e r t i n e n t l ya n dt oa l l o c a t eu s e r s q u e r i e st ot h e i ri n t e r e s td o m a i nf o rt h es a k eo f e x t e n dq u e r yi ni t t h u st h eu s e r s q u e r i e sc a r lb ee x p r e s s e di nam o r ea c c u r a t ea n dc l e a rw a y t h e u s e ri n t e r e s tm o d e lc a l la l s ob ea p p l i e di nr e s u l tf i l t e r i n g ,“i n t e l l i g e n t ”m e a n sd y n a m i cs u b e n g i n e s s e l e c t i n gd e c i s i o no nt h eb a s i so f t h e i rp e r f o r m a n c eo np a r t i c u l a rs u b j e c t sd e m a n d e db yt h eu s e r s q u e r i e st os o m eb e s te n g i n e s t h er e s e a r c hr e s u l t ss p r e a do u ta sf o l l o w s : 1 c o n s t r u c t i o no f u s e ri n t e r e s tm o d e lb a s e do no n t o l o g yt e c h n o l o g y c o n s t r u c t i o no f u s e ri n t e r e s tm o d e lp l a y sa ni m p o r t a n tr o l ei nt h ep e r f o r m a n c eo f m e t as e a r c h e n g i n e c o n s t r u c t i o no f u s e ri n t e r e s ta v a i l a b l ei ss t u d i e di nt h i sd i s s e r t a t i o n i nt r a d i t i o n a l a p p r o a c h e s ,w o r df r e q u e n c yi sw i l d l yu s e dt om e a s u r eu s e ri n t e r e s ta n d2 - t u p l e ( i n t e r e s ti t e m s , i n t e r e s tw e i g h t ) o r3 - t u p l e ( i n t e r e s ti t e m s ,i n t e r e s tw e i g h t ,f r e s h n e s s ) h a v eb e e nu s e d 幻e x p r e s s e d u s e ri n t e r e s tm o d e l i n t e r e s ti t e m sa r ee x t r a c t e df r o mu s e r sv i s i t i n gr e c o r d sa n di n t e r e s tw e i g h ti st h e a r i s e np r o b a b i l i t yi nt h eu s e r sv i s i t i n gr e c o r d s h o w e v e r , t h eu s e ri n t e r e s tm o d e lc o n s t r u c t e do n l yb yw o r d sm a yr e s u l ti nt h ei n t e r e s td o m a i n d e c e n t r a l i z a t i o n t h i sm o d e lc a nn o tg u i d eu s e rq u e r yp e r t i n e n t l ya n dq u i t eal o tu n r e l a t e dr e s u l tm a y 西南大学硕士学位论文 a b s t r a c t c o m eo u ta sw e l l i no r d e rt om a k eu s e ri n t e r e s tf o c u si nad o m a i n ,o n t o l o g yb a s e du s e ri n t e r e s t m o d e li sp r o p o s e di nt h i sp a p e r i n t e r e s td o m a i na n dr e l a t e dk e y w o r di nt h ed o m a i ni si n v o l v e di n t h em o d e l u s e rq u e r yc a nm a t c ht h ek e y w o r d sw i t ht h eo s e ri n t e r e s tm o d e la n dm a pt h eq u e r yt oa d o m a i nt om a k et h ei n t e r e s tm o r ec l e a r 2 s c h e d u l ep o l i c yf o rd a t a b a s e ( s u be n g i n e ) s e l e c t i o n q u a l i t a t i v e - b a s e d ,q u a n t i t a t i v e b a s e da n dl e a r n i n g b a s e dd a t a b a s es e l e c t i o n sa r ed i s c u s s e di n t h i sd i s s e r t a t i o n :t h eq u a l i t a t i v e - b a s e da n dq u a n t i t a t i v e - - b a s e dp o l i c i e sn e e dd a t a b a s ed e s c r i p t i o n i n f o r m a t i o nw h i c hi sh a r dt oo b t a i nf r o mt h es u be n g i n eo w n e r t h u s t h el e a r n i n g b a s ep o l i c yc o m e s i n t ou s ei no u rm o d e l , i no u rm o d e l i n t e r n e ti n f o r m a t i o ni sd i v i d e di n t od o m a i n si nt e r m so fd o m a i no n t o l o g y c o m p a r t i t i o n ,r e p r e s e n t a t i v ek e y w o r d so fs u b c l a s si sc h o s e nf r o mt h ed o m a i no n t o l o g y f o re v e r y s o r to f d o m a l n at r a i n i n gq u e r yi su s e da sas t a t i cl e a r n i n gt om a k eaj u d g m e n to l lt h ee f f i c f a n c yo f t h es e a r c he n g i n ei nt h i sd o m a i n a i d e rt r a i n i n ge v e r yd a t a b a s eh a v eai n i t i a lc r e d i tf a c t o rf o r d o m a i n s f o rt h ei n i t i a ls t a g e ,d a t a b a s es e l e c t i o ni sb a s e do nc r e d i tf a c t o r w e i g h tv e c t o r sa n dr e l a t e d t e r ms e to fs u be n g i n ei se s t a b l i s h e dd y n a m i c a l l ya c c o m p a n i e db yt h eu s eo fm e t as e a r c he n g i n e w e i g h tv e c t o rr e v e a le f f i c i e n c yo fs u be n g i n et os p e c i f i cq u e r yt e r m s w o r d sr e l a t e dt os p e c i f i c q u e r yt e r mi ss t o r e di nt h er e l a t e dt e r ms e t a f t e rw e i g h tv e c t o r sa n dr e l a t e dt e r ms e ta c c u m u l a t et oa c e r t a i ne x t e n t ,t h es e l e c t i o np o l i c yi sb a s e db o t ho nc r e d i tf a c t o ra n do nw e i g h tv e c t o r 3 r e s u l tm e r g i n gb a s e do nc l u s t e r i n g t h ed o c u m e n ts e l e c t i o na n dr e s u l tm e r g i n ga p p r o a c ha v a i l a b l eh a v eb e e ns t u d i e di nt h i s d i s s e r t a t i o n t h es t u d yr e v e a l st h a tr e s u l tr e l a t e dt ou s e rd o e sn o tn e c e s s a r i l ya l i g ni nf r o n t c h o o s i n g r e s u l ta l i g ni nf r o n to f e v e r ys u be n g i n ea st h er e s u l to f m e t as e a r c he n g i n ed i r e c t l yw i l lr e s u l ti n m i s s i n go f u s e f u li n f o r m a t i o nt h a tf a l l i n gb e h i n dw i t ht h es u be n g i n e o u rs t r a t e g yf o rr e s u l tm e r g i n g i sa sf o l l o w s :f i r s t ,c o l l e c ta l lt h er e s u l t sr e t u r n e db yt h ee n g i n e s ,t h e nc l e a ra w a yt h er e p e a t e dl i n k s a n dd e a dl i n k s ,a tl a s t , c l u s t e r i n ga l g o r i t h mi su s e dt oc l a s s i f yt h eo r i g i n a ld o c u m e n ts n i p p e t s i tc a n h e l pt h eu s e rv i e ws e a r c hr e s u l ta st h es p e c i f i ct o p i c s a n dt h et o p i c sa r r a n g ei nt h el i g h to f t h e c o r r e l a t i o nt ou s e ri n t e r e s t d o c u m e n ti nt h es m t l _ et o p i c sa r ea l s ol i s t e da c c o r d i n gt ot h eo r d e ro f c o r r e l a t i o n k e y w o r d s :m e t as e a r c he n g i n e o n t o l o g yt e c h n o l o g y u s e ri n t e r e s t d a t a b a s es e l e c t i o n i v 独创性声明 学位论文题目:仝蛙丝蟹篚亘蝗塞i ! 墼搓型硒窒 : 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作 及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为 获得西南大学或其他教育机构的学位或证书而使用过的材料。与我 同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明 并表示谢意。 学位论文作者:压垃 签字日期:功p6 年f 月1 7 日 学位论文版权使用授权书 本学位论文作者完全了解西南大学有关保留、使用学位论文的规 定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允 许论文被查阅和借阅。本人授权西南大学研究生院可以将学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书,本论文:叫不保密, 口保密期限至年月止) 。 学位论文作者签名:毋蚀导师签名:弦研 签字日期:砌口5 年r 月门日签字日期:? 。t 当年r 月f 7 日 学位论文作者毕业后去向: 7 工作单位: 通讯地址: 电话:(! 邮编: 西南大学硕士学位论文 第1 章文献练述 第1 章文献综述 1 。1 w e b 信息检索发展概况 目前,随着i n t e r n e 网络的迅速发展,信息检索( i n f o r m a t i o nr e t r i e v a l ) 成为我们上网 主要目的之一。根据2 0 0 5 年7 月2 1 日,中国互联网络信息中心( c n n i c ) 在京发布“第十六次 中国互联网络发展状况统计报告”,我国网络基础资源获得了重大突破,截至到6 月3 0 日,c n 网站数达到6 2 2 万,半年新增1 9 万个,增长率为4 4 1 。我们网络信息以惊人速度不断递增。 在信息检索重要性调查方面,“用户上网最主要的目的”的调查结果当中有3 7 8 是“获取信 息”一一高居上网目的第二位;在“2 0 0 4 年第十四次中国互联网络发展状况统计报告”中“我 们经常使用网络服务”也有6 1 6 是使用“搜索引擎”,仅次于使用“电子邮箱”;“用户在互 联网上获取信息最常用的方法”中有6 9 6 来自搜索引擎。以上调查结果可知,随着 i n t e r n e t 信息资源以爆炸指数递增,信息检索技术的研究已经是我们必须面临的迫切任务 1 1 1 搜索引擎概述 搜索引擎不是靠人工发现和甄别信息,而是由一个被称作“机器人”( 也称为“蜘蛛、 “蠕虫”) 的计算机程序在网页中爬行,依据定的网络协议在i n t e m e t 发现、加工、整理信 息,并为用户提供检索服务。机器人搜索引擎一般由四部分组成“1 : 1 w w w 信息的采集:通常搜索引擎会生成多个w w w 机器人,自动地根据初始搜索列表和一 定的搜索策略去w w w 站点搜集文档( 通常为h t m l 文档) 。 2 w w w 信息的分析:对由机器人搜集的文档,一般在搜索引擎本地进行分析,提取出表达文 档的关键词、摘要等信息及文档中的构成w w w 结构的超链( h y p e r l i n k ) 3 w w w 信息的存储:把文档的分析结果按照一定结构存储在搜索引擎本地数据库服务器上, 同时建立适应查询的高效索引。 4 w w w 信息的检索:一般搜索引擎提供基于w w w 技u 览器的查询请求输入界面,它根据用户 提交的查询请求。在本地数据库中检索出符合用户查询的记录,并通常依命中相关程度的次 序来排列结果,最后通过浏览器返回给用户。 我们把对用户可见的“w w w 信息的检索”这部分称之为“搜索引擎前端”。它是这样工 作的:浏览器与w e b 服务器相连,在搜索引擎的搜索界面中输入要查询的关键字,然后提交查 询请求,w e b j j g 务器就在一个大型索引数据库中查找相匹配的条文,列出找到的站点,把结果 传给浏览器。 图1 1 所示为搜索引擎前端示意图: l 竺竺矧竺鲨竺斛型竺兰竺l i 鬣询结果l堡至曼i 证配记录i 西南大学硕士学位论文第1 章文献综述 图1 1 搜索引擎前端示意图 对用户来说其它部分是不可见的,我们把它们称之为“搜索引擎后端”。搜索引擎后 端是由一个叫机器人( 或者称之为网络爬行者) 的程序快速扫描i n t e m e t j 2 的w e b 页面,提取其 中的关键词并编制索引,定期更新数据库。 图1 2 所示为搜索引擎后端示意图: 区竺! 黼墨鳖捌竺皇i 图l - 2 搜索引鼙后端 把搜索引擎前端和后端结合起来就构成了搜索引擎的工作方式。如下图l 3 所示: n p 。- - - 向 喜型 浏览器 图1 - 3 搜索引擎工作方式 现在i n t e m e t 上大多数搜索引擎都是以这种被称为机器人搜索引擎的方式工作,由于它们 采用机器人自动漫游w e b 页面,使用全文索引方式,所以与另一种称为目录式搜索引擎的相比, 信息覆盖度离,查询结果丰富。并且节约了大量人力资源。 目前,搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。搜索引擎是 随着w e b 信息的迅速增加,从1 9 9 5 年开始逐渐发展起来的技术。搜索引擎提供的导航服务己经 成为互联网上非常重要的网络服务,搜索引擎站点也被美誉为“网络门户”。 1 1 2 当前搜索引擎存在的问题 尽管搜索引擎已为人们检索信息提供了很大方便,但当前许多搜索引擎还存在一些缺点, 如下所述:在搜索引擎才产生的时候,人们认为可以建立一个完整的索引,然后就可以容易 的查找到任何东西。但是随着i n t e m e t 的发展,人们意识到这一想法显然是错误的。传统的搜 索引擎技术在现代网络信息查询中主要存在3 个缺点:覆盖率有限、结果的查准率低、用户 性能较差。 1 有限的覆盖率” 研究表明,大部分搜索引擎索引包含的网页只占全世界所有w e b 网页的- 4 , 部分,n e c 普林斯顿研究所的l a w r e n c e 博士和c l e eg i l e s l 尊士对1 1 个主要的搜索引擎的工作情况进行了 研究,并在科学上发表文章指出:“性能最好的搜索引擎,覆盏率也仅仅占现有网络资源的1 6 , 然而如果把调查的1 1 个搜索引擎加在一起,覆盖率会达到4 2 “。许多研究表明单个搜索引 2 西南大学硕士学位论文第l 章文献综述 擎不可能做到很好的信息覆盖率”。 2 查准率低 一个查询请求经搜索引擎搜索后,有时可以返回上万条结果,而用户比较关注的前几百 条信息中真正符合用户需要信息很少。换一个搜索引擎再试时将会面临同样的问题,返回结 果中存在大量无关信息。研究表明一般的查询结果中高达7 5 是不相关的信息”l 。 3 用户性能较差 由于不同搜索引擎的应用范围和专业侧重点不同,如何找到所需信息的问题,已经被如 何确知搜索引擎的位置、结构及使用方法的问题所代替。基于一般用户,很难知道和评价各 搜索引擎的具体位置、结构性能及使用方法,又由于各搜索引擎的数据库和搜索算法发生改 变,使得用户在搜索时候很难识别什么时候该用什么工具。而且在各搜索引擎之间来回切换, 操作复杂效率又低,可见使用合适有效的搜索引擎对一般用户是很复杂困难的事“1 。 1 2 元搜索引擎 在思索如何进一步提高搜索引擎能力的时候,元搜索引擎为用户提供了有效的解决方法。 它的基本思想是:当接收到来自用户的查询后,自动将查询请求同时发送给多个搜索引擎,并 将查询结果收集起来进行处理,最终提供给用户。元搜索引擎具有查询多个数据库的优势, 用户可以只通过一次查询就得到更完整的信息,并且由于元搜索引擎不需要他们自己漫游 w w w ,可以从检索w e b 的负担中解脱出来从而把重点放在对查询结果的后处理及提高用户接 口性能上。 1 2 1 元搜索引擎概述 元搜索引擎是指在统一的用户查询接口与信息反馈形式下,共享多个搜索引擎的资源库 为用户提供信息服务的系统“”。元搜索引擎和传统搜索引擎的最大不同之处在于它没有自己 的资源库以及机器人,它在服务中主要充当个代理的角色。接收用户的查询请求,把请求 解析成相应独立搜索引擎的查询式并分别或有选择的发送出去,接收参与查询过程的各个搜 索引擎的查询结果,抽取其中的部分内容以统一的形式显示给用户。如图1 - 4 所示元搜索引擎 体系结构图: 元搜索引擎体系结构的各模块分别介绍如下: 1 用户接口模块 该模块负责接收用户的查询请求并显示鸯询结果。对于存在知识库的元搜索引擎用户接 口模块还将从用户的反馈中收集用户兴趣等到知识库中以实现用户的个性化设置。同时还 接受用户的各种设置要求,如检索时间限制、结果数量限制等。 2 调度模块 元搜索引擎的调度模块根据用户的输入必须决定查询哪一个成员搜索引擎,以及按照不 同成员搜索引擎的要求修改用户输入的查询请求。 圉1 - 4 元搜索引擎体系结构 调度模块为元搜索引擎系统决定主要的搜索决策。这些都直接影响元搜索引擎是否能够 得到有用的结果。错误的选择成员搜索引擎不能得到很好的结果,而且成员搜索引擎的数目 越多意味着需要的网络资源越多,及更多的时间来完成搜索任务,所以必须在满足要求的情 况下尽可能少地选择需要查询的成员搜索引擎。调度模块的作用就是采用一定的调度策略来 决定每次调用的成员搜索引擎。 3 结果处理模块 元搜索引擎的结果处理模块从成员搜索引擎中获取网页结果,并根据各成员搜索引擎的 返回网页的不同格式提取元搜索引擎需要的内容,并对结果进行去重、合并、输出处理等。 元搜索引擎的结果一般包括网页标题,内容摘要,所指向网页的u r l ,相关度、信息返回时间 所采用的引擎标志等。 1 2 2 元搜索引擎的分类 元搜索引擎分为并行处理式、串行处理式和并串处理三大类。并行处理式元搜索引擎将 用户的查询请求同时转送给它连接的多个独立型搜索引擎进行查询处理;串行处理式元搜索 引擎将用户的查询请求依次转送给它连接的每一个独立型搜索引擎进行查询处理:并串处理 式元搜索引擎是对前两种方式的结合。按功能划分,元搜索引擎包括多线索式搜索引擎和 a 1 1 i n o n e 式搜索引擎:按运行方式的差异可分为在线搜索引擎和桌面搜索引繁。 1 多线索式元搜索引擎 多线索式元搜索引擎,指利用统一的检索接e l ,实现对多个独立搜索引擎索引数据库进 行检索,并将检索结果以统一格式显示的网络检索工具。m e t a c r a w l e r ( h l t p :w w w m e t a c 等都属于多线索式元搜索引擎。这类元搜索引擎一般具有以下特征:_rawlercom) 4 西南大学硕士学位论文 第1 章文献综述 统一检索接口:元搜索引擎提供统一接1 2 。提供对各搜索引擎特点介绍和选择机制,但所 有目标搜索引擎构成一个逻辑整体,元搜索引擎检索接口构成唯一的全局外部检索模式,用 户通过这个全局接e l 实现对多个或任意一个搜索引擎的检索。 检索指令转换:在具有唯一全局外部检索模式情况下,系统可提供统一的全局指令语言, 并自动地实现元搜索引擎指令与其目标搜索引擎指令的转换,用户使用同一指令语言检索不 同的搜索引擎的索引数据库。 统一结果集的组织与显示:元搜索引擎提供全局组织器,对各目标搜索引擎返回的结果进 行处理,形成全局结果集,并以统一格式显示,主要涉及资料格式转换、去重、统一排序等。 2 a 1 1 i n o d e 方式 a 1 1 i n o n e 方式是指元搜索引擎接e l 以任意顺序或分类罗列多个( 一般都是数十个) 搜索引 擎,元搜索引擎本身主要提供各类搜索引擎的介绍信息和物理连接机制。用户可通过这类元 搜索引擎了解有关的搜索引擎、联入所选择的搜索引擎。但元搜索引擎没有统一的全局外部 模式,而是以各搜索引擎的检索模式和资料格式直接面对用户。例女h a l l - i n o r e 元搜索引擎 r w w w , a l b a n y n e t ) 。这种a 1 1 i n - o n e 方式的元搜索引擎确切地说只是搜索引擎的罗列,它们具有 以下特点: 仅仅提供一个简单的接口来帮助用户选择和使用各搜索引摹;只能选择一个搜索引擎进 行检索:对各目标搜索引擎检索接e l 的复制可能是部分的或全部的;直接利用所选搜索引擎 的显示格式呈送给用户。 3 桌面元搜索引擎 以上各类元搜索引擎都是通过网上调用方式在线使用,还有另外一类元搜索引擎可直接 在用户计算机上运行,相当于用户自己拥有一个元搜索引擎,称之为桌面元搜索引擎。这些 桌面元搜索引擎可从网络上下载。桌面元搜索引擎是一个包括多个成员搜索引擎的完整系统, 它们往往允许用户自定义检索式运行的搜索引擎集合( 例如一个或全部目标搜索引擎) ,甚至 可由用户添加新的搜索引擎。这些桌面元搜索引擎不仅可以实现对多个搜索引擎的并行检索, 而且也能提供重要的后期处理功能。例如用户定义结果排序方式、删除重复记录等功能。 12 ,3 常见元搜索引擎的介绍 自1 9 9 5 年第一个元搜索引擎m e t a c r a w l e r 推出以来,这一新型的网络检索工具如雨后春笋 般发展迅速,特别是在国外已出现许多比较出名的多种元搜索引擎。元搜索引擎其以含盖较 多的搜索资源,能够在尽可能短的时间内提供相对全面、准确的检索结果等诸多优异功能受 到用户的青睐,己渐成为一种不可或缺的极其潜力的网络检索工具。s e a r c he n g i n ew a t c h 网站 从2 0 0 1 年开始举行调查活动,目前共评出5 届最佳元搜索引擎奖”等项目,参见表卜l : 西南大学硕士学位论文第1 章文献综述 表卜1 最佳元搜索引擎的功能介绍 中文元搜索引擎的研究还处于初步,目前除了万纬元搜索引擎比较成熟外,国内还没有 存在能让大家所广泛接受的中文元搜索引擎;搜索缩果不相关或者重复网页经常出现,搜索 性能需要进一步改进。 12 4 元搜索引擎的相关研究 元搜索引擎研究目的在于:提高查准率、查全率,减少元搜索引擎的查询时间。目前,研 究的重点:用户输入、成员搜索引擎的调度策略、结果处理。研究用户输入,主要是分析用户 的输入,对其查询要求进行处理,提取出最终提交给成员搜索引擎的关键字,有关自然语言 的理解是目前研究的热点,如果元搜索引擎能够很好的理解自然语言,那么元搜索引擎的查 询准确率将有一个质的提高。由于各个成员搜索引擎有各自专长的领域,针对某一方匿的查 询,应选择调用该领域查询性能较好的成员搜索引擎,动态调用成员搜索引擎己成为元搜索 引擎的一个重要研究领域。由于成员搜索引擎查询结果的返回格式也各不相同,结果处理模 块主要功能是:将各个搜索引擎的返回结果进行分析,剔除重复的链接,对结果进行排序,按 照元搜索引擎自己的显示格式,将结果返回给用户,咀方便用户的查询。 西南大学硕士学位论文 第1 章文献综述 元搜索引擎的所有研究,目的都是为了提高元搜索引擎的奇准率、奄全率,用户输入、 成员搜索引擎的调度策略、结果处理三方面的研究是可以相互促进的。它们的共同目标就是 提高查准率、查全率、缩短查询时间。 1 3o n t o l o g y 技术概述 1 3 ,1o n t o l o g y 的起源及定义 o n t o l o g y ,即中文的本体,最早是一个哲学上的概念,是客观存在的一个系统的解释或说 明,关心的是客观现实的抽象本质“。从哲学意义上看,o n l o l o g y 关注的是“存在”,即世界 在本质上有什么样的东西存在,或者世界存在哪些类别的实体。所以哲学上的本体论是对世 界任何领域内的真实存在所做出的客观描述。 在人工智能领域,经历t 2 0 世纪6 0 年代通用问题求解方法研究的困境,学者们开始研究 通过专门领域的知识表达来支持自动推理“。以d e n d r a l “”为代表的知识库系统的成功确 立了知识在解决人工智能问题方面的重要地位,作为研究知识库和知识系统构建技术的学科 “知识工程”( k n o w l e d g e e n g i n e e r i n g ) “”发展起来。为了减少构建知识库的代价,避免每次都 从头开始,越来越有必要考虑知识的复用问题,通过复用,系统开发者可以在已有知识基础 上更加专注于特定领域的知识构建,并且新系统可以利用所复用的知识与现存的其他系统进 行交互。这样,描述性的知识、问题解决方法以及推理服务都可在系统间实现共享,从而可 以方便地构建出更大、更好的知识库。因此。必须考虑在一个领域中哪些知识是可以复用的 或共享的,以及怎样获取和描述一个领域中鹊一般性知识等阅题。 同时,数据库管理系统( d b m s ) 研究领域也逐步发现,虽然数据库技术已经成熟,但概 念模型的一些隐蔽的、更为重要的问题依然存在。早期数据库的概念模型以专门化和不一致 为明显特征,导致了后来
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 难点解析人教版八年级上册物理声现象《噪声的危害和控制》专题练习试卷(解析版)
- 演奏说课稿-2025-2026学年初中艺术·音乐人音版五线谱2024七年级下册-人音版五线谱2024
- 1.2.2 细胞的分裂与分化 说课稿济南版生物七年级上册
- 7.1燃烧与灭火说课稿-2025-2026学年九年级化学人教版上册
- 实验室认可、计量认证及审查认可说课稿-2025-2026学年中职专业课-分析化学-分析检验技术-生物与化工大类
- 甘肃省武威第十七中学七年级信息技术下册说课稿:第13课时 电子板报的修饰
- 第2单元第5课《动物的体重-编辑数据、修饰数据表》-说课稿清华大学版(2012)初中信息技术七年级下册
- 生产过程风险预警与应对机制创新创业项目商业计划书
- 老年定制健康食品创新创业项目商业计划书
- 有机肉鸡养殖基地创新创业项目商业计划书
- 气候变化与健康课件
- 火锅店合伙协议合同范本
- 机器设备招投标管理办法
- 股权质押合同范本及股权质押期限约定
- 2025年放射工作人员放射防护培训考试题及答案
- 2024年发展对象培训结业考试真题
- 渔民补贴资金管理办法
- 顺丰快递物流模式的优势分析
- 安全用药相关管理制度
- 船员培训体系与技能提升研究-洞察阐释
- 学校工作行事历表
评论
0/150
提交评论