(计算机系统结构专业论文)基于信息类别的元搜索引擎研究.pdf_第1页
(计算机系统结构专业论文)基于信息类别的元搜索引擎研究.pdf_第2页
(计算机系统结构专业论文)基于信息类别的元搜索引擎研究.pdf_第3页
(计算机系统结构专业论文)基于信息类别的元搜索引擎研究.pdf_第4页
(计算机系统结构专业论文)基于信息类别的元搜索引擎研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(计算机系统结构专业论文)基于信息类别的元搜索引擎研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东大学硕士学位论文 摘要 i n t e r n e t 自诞生以来不断成长,尤其是最近几年更是得到长足发展,功能 不断扩展,信息容量呈爆炸性趋势增长,然而在信息极大丰富的同时,用户也 面临着信息过载和资源迷向的问题。i n t e r n e t 网络环境下的信息检索于是成了 个新的研究热点。1 9 9 4 年前后,l y c o s ,y a h o o ! 等大批搜索引擎相继涌现, 发展到现在,搜索引擎己成为上网用户最经常使用的网络服务之一。 独立搜索引擎相对容易实现,在早期设立较多,分布在不同领域、不同地 方为用户提供服务,在当前的应用仍然是最广。但是它覆盖面狭窄,检索效率 低,随着w e b 的迅速发展,越来越显得力不从心。为了改变这种状况,它们中 的一些改变原来的综合信息收集,转为集中收集某一领域的信息,为专业检索 用户提供精确的检索结果。这种方式对清晰查询、专业查询尤其有效。但是, 这种专业搜索引擎是以牺牲大的覆盖面为代价而取得某范围内的高精度的。 根据专家评测,目前主要搜索引擎返回的相关结果比率不足4 5 ,用户要 想获得一个比较全面、准确的结果,就必须反复调用多个搜索引擎“3 。元搜索 引擎是通过集成多个独立搜索引擎的方法来扩大检索覆盖面,避免重复查询的。 而且,由于它的选择余地大了许多,因此,也可为提高检索精度打下良好基础。 在传统元搜索引擎中,每次查询项提交给元搜索引擎时,元搜索引擎会选 择同样的成员搜索引擎,查询项预处理算法和查询结果融合算法。这种处理方 法仅考虑到用户的查询项,而没有考虑到用户所需信息的类别。这篇论文介绍 了一种基于信息类别的元搜索引擎,对于用户提交的相同查询关键词,如果用 户选择不同信息类别,系统会选择不同的成员搜索引擎,不同的查询项处理算 法和不同的查询结果排序算法。 本论文首先介绍元搜索引擎技术的理论基础,然后重点研究了元搜索引擎结 构原理和实现元搜索引擎过程中的关键技术,包括成员搜索引擎选择技术、结果 合成技术和论文相似性检索的算法。重点研究了各种己有的技术实现的常用算 法,并且在分析比较的基础上提出本课题采用的算法。最后通过实验验证了算法 的高效性。 关键词:元搜索引擎、搜索引擎、信息检索、信息类别 山东大学硕士学位论文 a b s t r a c t i nr e c e n ty e a r s ,t h er a p i dg r o w t ho fn e t w o r ki n f o r m a t i o nr e s o u r c e h a sm a d ei tm o r ed i f f i c u l tf o rp e o p l et ol o c a t et h ei n f o r m a t i o nt h e yn e e d o nn e t w o r k a sar e s u l t ,d e v e l o p i n gi n f o r m a t i o nr e t r i e v a l ( i r ) t e c h n o l o g y i sv e r yi m p o r t a n ti ni n t e r n e tf i e l d s e a r c he n g i n e ss p r u n gu pi n1 9 9 4 , s u c ha sl y c o s ,y a h o oa n ds oo n ,a tp r e s e n t ,s e a r c he n g i n e sh a sb e c o m e o n eo ft h em o s tp o p u l a rn e t w o r ks e r v i c e so ni n t e r n e t s i n g l es e a r c he n g i n ew h i c hp r o v i d e ss o m es e r v i c ed i s t r i b u t e di n d i f f e r e n tf i e l d ss t i l li sa p p l i e dw i d e l yb e c a u s ei t sc o m p i e t i o ni s r e l a t i v e l ye a s y ,a n dw a sc r e a t e dt o om u c hs i n c ei tf i r s ta p p e a r e d b u t i tc a n tk e e pu pw i t hc u r r e n ts t a g g e r i n gd e v e l o p m e n to fw e bw i t ht i m e p a s s i n gb yb e c a u s ei t sl i m i t e dc o v e r a g ea n d1 0 we f f i c i e n c y t oc h a n g e t h ec o n d i t i o n ,s o m eo ft h e mt u r nt h ef o r m e rm e t h o db yw h i c hg a t h e r e da v a r i e t yo fi n f o r m a t i o nt oa n o t h e rw h i c hj u s tp o i n tt h ed a t a o ft h e s p e c i a l i z e df i e l d t h ei n n o v a t i o ni sv e r ye f f e c t i v ef o rc l e a ro r t h e s p e c i a l i z e dq u e r y y o uc a ns e et h a ts p e c i a l i z e ds e a r c he n g i n eg e t sh i g h p r e c i s i o ni ns o m ef i e l dj u s ta te x p e n s eo fl a r g er e t r i e v a lc o v e r a g e m e t a s e a r c he n g i n e sb yi n t e g r a t i n gt h e m a c c o r d i n gt ot h ee x p e r t s i n v e s t i g a t i o n ,a v e r a g ep r e c i s i o no f n u m e r o u sf a m o u ss e a r c he n g i n es y s t e mi sb e l o w0 4 5 i na d d i t i o n ,i ta l s o p u t sg o o df o u n d a t i o nt oi m p r o v eh i g hp r e c i s i o nb e c a u s ei tc a ne n l a r g e c h o i c es c o p e s o ,u s e r sh a v et os e e kh e l pf o rt h eo t h e rs e a r c he n g i n e s i no r d e rt og e tt h em o r ec o m p r e h e n s i v e ,v e r a c i o u sr e t r i e v e di n f o r m a t i o n t h ea r i s eo fm e t as e a r c he n g i n et e c h n i q u eh a ss o l v e dt h i sp r o b l e mi na s e n s e w h e naq u e r yi ss u b m i t t e dt oam e t as e a r c he n g i n e ,d e c i s i o n sa r em a d e w i t h r e s p e c t t ot h eu n d e r l y i n gs e a r c he n g i n e st ob eu s e d ,w h a t m o d i f i c a t i o n sw i l lb em a d et ot h eq u e r y ,a n dh o wt os c o r et h er e s u l t s 山东大学硕士学位论文 t h e s ed e c i s i o n sa r et y p i c a l l ym a d eb yc o n s i d e r i n go n l yt h eu s e r s k e y w o r dq u e r y ,n e g l e c t i n gt h el a r g e ri nf o r m a t i o nn e e d i nt h i sp a p e r , w ed e s c r i b eam e t as e a r c he n g i n ea r c h i t e c t u r et h a tc o n s i d e r st h eu s e r s i n f o r m a t i o nn e e df o re a c hd e c i s i o n u s e r sw i t hd i f f e r e n tn e e d s ,b u tt h e s 锄ek e y w o r dq u e r y ,m a ys e a r c hd i f f e r e n ts u b s e a r c he n g i n e s ,h a v e d i f f e r e n tm o d i f i c a t i o n sm a d et ot h e i rq u e r y a n dh a v er e s u l t so r d e r e d d i f f e r e n t l y a tf i r s t ,t h ep a p e ra n a l y z e st h eb a s et h e o r i e so fm e t as e a r c he n g i n e t h e n ,t h ep a p e ri sw i t hav i e wt ot h er e s e a r c hi nf r a m e w o r ka n dp r i n c i p l e o fm e t a - s e a r c he n g i n ea n dp i v o t a lt e c h n o l o g yu s e di nr e a l i z a t i o n , i n c l u d i n gs i n g l es e a r c he n g i n ec h o o s i n g ,r e s u l t si n t e g r a t i o na n dt h e a l g o r i t h mo ft h e s e ss i m i l a r i t yr e t r i e v a l i ta n a l y z e st h o r o u g h l yt h e m e t h o d sa n da l g o r i t h m sw h i c hu s e di nr e a l i z a t i o nt h e nc o m p a r e st h e me a c h o t h e r o nt h i sb a s e ,w eb r i n gf o r w a r dt h ea l g o r i t h m sw eu s e di np a p e r w i t hs o m el a b s ,t h ea l g o r i t h mi sp r o v e dt oh a v eh i g hp e r f o r m a n c e k e y w o r d s :m e t as e a r c he n g ir e ,s e a r c he n g in e 。in f o r m a tio f fr a t rie v ai , l n f o r m t i o nn e e d n i 原创性声明和关于学位论文使用授权的说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明 的法律责任由本人承担。 论文作者签名:蛔日 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者繇邋新龆盟日靴唑2 山东大学硕士学位论文 第1 章绪论 1 1 研究背景 人们在应用网络资源时,希望尽可能在短时间内获得有用的信息。如何从 海量w e b 信息中快速获取有用的信息,是目前w e b 信息获取研究的重点。基于 w e b 的信息获取包括两个方面内容:信息搜索和信息抽取。w e b 文本信息搜索是 指查找与查询条件相关的w e b 文本。搜索引擎无疑是信息搜索的有利工具,搜 索引擎通过收集众多的网络站点来提供全局性网络资源控制与检索机制,从而 帮助用户方便地在网络中找到所需信息。目前在i n t e r n e t 上己经出现了很多著 名的拥有很高访问量的搜索引擎站点,例如g o o g l e ,y a h o o ,a 1 t a v i s t a ,e x c i t e 等。 搜索引擎一般由一个称为“机器人”或“蜘蛛”或“爬虫”的软件a g e n t 以 某种方式自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索 引,由用户界面根据用户的查询输入检索索引库并将结果返回给用户。搜索引 擎总是使用“蜘蛛”严密搜索互联网以寻找文件和它们的网址,被搜集到文件 及其网址则被送给搜索引擎的索引器。索引器从文件中摘录一些信息并将它存 入数据库。选取索引信息取决于特定的搜索引擎,一些搜索引擎索引文件中的 每个词:另一些则仅仅索引文件标题。当用户输入关键词执行搜索时,搜索引 擎就会在数据库中搜索与用户查询相匹配的文件,并编辑出可作为超文本链接 的结果。 l a w r e n c e 年d g i l e s 在1 9 9 9 年对当前w e b 上的搜索引擎做了研究,提出当前搜 索引擎存在的的五个普遍问题: ( 1 ) 搜索引擎覆盖范围相对减少:搜索引擎的索引能力正在越来越落后于网 络的快速增长速度。自1 9 9 7 年1 2 月以来,搜索引擎的覆盖面相对于网络上公开的 可检索的内容实际上是减少了。据估计网络中有超过8 亿个可索引的网页,大约 1 5 t b 的信息量。然而,没有一个单个的搜索引擎能涵盖多于网上全部可检索页 的1 6 。 ( 2 ) 访问不均衡:w e b 搜索引擎检索至l j w e b 中的某个偏爱的网站页后,搜索 山东大学硕士学位论文 引擎或跟随其链接( i i u r l ) ,或通过分析用户注册发现新页。他们通常更喜欢检 索与其有更多链接的站点( 更“流行”的站点) 。如,美国站点与非美国站点相比, 他们更可能检索美国站点( a l t a v i s t a 例外) ,教育站点与商业站点相比,他们更 可能检索商业站点。 ( 3 ) 内容陈旧:各搜索引擎检索到的文件有时是不再有效的,因为网页已被 移至别处或不再存在。调查发现,几个不同搜索引擎检索到的第一个文件在网上 存在的平均时间是1 8 6 天。 ( 4 ) 元数据使用较少:许多搜索引擎是基于网页中定义了的元数据来索引网 络信息。然而,简单的h t m l “关键词”和元标签“描述”仅仅在3 4 的网站主页 上被使用。使用d u b l i nc o r e 元数据标准的站点更是微乎其微,仅仅只有0 3 。 ( 5 ) 信息分布不平衡:网上信息分布是不平衡的。有8 3 网站包含商业的内容, 只有6 的网站包含科学或教育的内容。 元搜索引擎是建立在已有的搜索引擎服务之上的一种搜索引擎,它利用下层 多个搜索引擎提供的服务向上提供统一的检索服务,自身不采集文件,也没有索 引,只是维护它所管理的搜索引擎的参数信息,如每个引擎的查询参数、引擎的 内容表示。当一个查询到来时,元搜索引擎自身并不处理( 这只是一种简单的情 况) ,而是按照各个成员引擎的查询格式作相应的转换之后再分发到各个成员引 擎,有关成员引擎的参数信息可以帮助元搜索引擎进行引擎的选择和协调,各个 成员引擎返回结果之后,元引擎进行结果合并形成按全局权重排序的序列输出给 用户。之所以要开发元搜索引擎,主要的理由是:( 1 ) 增 l w e b 网页检索的覆盖范 围。如果将多个搜索引擎组合在一起,可查询的互联网覆盖范围面将比任何单个 搜索引擎都大很多。( 2 ) 元搜索具有较好的扩展性;它使得各个成员引擎规模变 小,性能更好,这样成员引擎的检索响应时间短,还可以使得检索的内容保持最 新。( 3 ) 提高检索的有效性。进行文本检索时,文件可以根据其主题来分类。当 进行查询时,可以先识别与该查询相关的类别,然后再检索属于这些类别的文件, 这种方法可以提高检索的有效性。在互联网环境里,属于专题搜索引擎的文件已 被事先分了类。因此,当集成搜索引擎接到查询要求时,引擎只需把查询送到与 其相关的底层专题引擎。所以,使用元搜索引擎可获得比综合性引擎更好的结果。 山东大学硕士学位论文 1 2 作者所做的工作 通过调查发现,传统元搜索引擎搜索虽然提高了检索的覆盖率,但是用户并 不一定能得到想要的内容,这是因为查询关键字有时并不能代表用户的信息需 求,这里系统提供信息类别供用户选择,信息类别一般按信息内容分计算机知识、 商业、时事新闻、网页、学术论文等。 用户通过查询接口提交查询请求时,除了要提交查询关键字,还要选择检索 信息的类别。系统根据关键词以及信息类别,结合它积累下来的一些知识如网络 状况、搜索引擎性能、系统状况来制订本次查询的执行方案:采用哪些搜索引擎, 从每个引擎获取多少信息,如何扩展查询项,采用什么样的排序策略。 由于人们各自感兴趣的领域不同,这种元搜索引擎对用户在不同领域相同的 检索请求下有不同的检索结果,这可以通过三种方案实现:1 对不同的领域选 择不同的成员搜索引擎;2 系统在检索请求提交之前个性化地调整查询表达:3 在查询结果返回的时候,个性化地对搜索结果进行处理再返回给用户。 作者在论文中做的工作主要有以下几个部分: 1 解析搜索引擎系统搜索到的网页。论文给出一种方法,解析搜索引擎中 返回的网页,从中提取各个记录及记录中的元素,比如标题、摘要、链接等。 设计并实现了算法中需要的数据结构和相关算法。 2 在查询接口部分,引入了“信息类别”。对不同的信息类别,系统在“成 员搜索引擎选择”、“查询项处理”、“查询结果融合”三个方面采用相应的策 略进行处理。作者对这些处理策略进行了设计和分析。 3 给出了一种查询结果排序算法,能有效的过滤掉广告网页和陈旧网页。 4 详细介绍了基于元搜索引擎的学术论文相似性检索方法,并给出了一个 有效的论文文档聚类算法。 1 3 论文内容的组织 本论文是对作者所做工作的总结。概要论述了元搜索引擎的发展现状和元搜 索技术中的关键问题和相关算法,提出了一种基于信息分类的元搜索引擎的模型 并使用j a v a 语言开发出了一个原型系统。全文共分为六章,组织结构如下: 第一章介绍了论文的背景和所作工作及论文内容的组织。 第二章概述了元搜索引擎的工作原理、体系结构和设计高效元搜索引擎所 山东大学硕士学位论文 面临的挑战。 第三章介绍了成员搜索引擎的选择策略和文档选择技术。 第四章对检索结果的融合和排序进行了研究,给出了一个有效的排序算法。 第五章介绍了利用元搜索引擎进行学术论文检索的方法,并给出了一个聚 类算法 第六章就元搜索引擎实现中的关键技术进行了分析 山东大学硕士学位论文 第2 章元搜索引擎概述 元搜索引擎( m e t as e a r c he n g i n e ) 被称为搜索引擎之上的搜索引擎。这类 搜索引擎自身并不收集网站或网页信息,通常也没有自己的数据库,而是将用户 递交的检索请求经过多种转换处理后提交给多个预先选定的独立搜索引擎( 如 i n f o s e e k ,e x c i t e ,a l t a v i s t a ,y a h o o ,h o t b o t 等) ,并将所有查询结果集中起 来以整体统一的格式呈现在用户面前。由于采用了一系列的优化机制,它能够在 尽可能短的时间内提供相对全面、准确的信息。即使不能完全满足用户需求,仍 可以作为相对可靠的参考源进行扩展搜索,因此元搜索引擎已成为备受推崇的检 索工具。 2 1 元搜索引擎的构成 元搜索的工作原理通常为:元搜索引擎是将现有的多个搜索引擎看成一个整 体,为用户提供一个统一的查询接口,用户的查询请求由元搜索根据知识库中的 信息,转换为多个搜索引擎可以识别的格式,然后分别发送给各个搜索引擎,由 这些搜索引擎完成实际的信息检索,最后元搜索引擎再把从各个搜索引擎返回的 结果收集起来,进行比较分析,合并冗余信息,去除重复信息,以一定的格式返 回给用户。其工作过程可以归纳为如下6 步:接受用户的原始查询;把原始查询 分别转换为各个成员搜索引擎能够接受的形式: 向成员搜索引擎发送查询;收 集各个搜索引擎的原始查询结果;对原始查询结果进行合成,形成最终结果; 把最终查询结果递交给用户。 元搜索引擎通常主要由以下三个子部分构成: ( 1 ) 检索请求预处理部分:实现用户的个性化检索设置的要求、成员搜索引 擎的调度方案、检索时间的限制、返回结果量的限制等; ( 2 ) 成员搜索引擎调度部分:决定把一个特定查询分配到哪些目标元搜索 引擎; ( 3 ) 检索结果处理部分:实现把调用的成员搜索引擎检索到的结果去重、合 并、排序和按一定的格式返回给用户; 山东大学硕士学位论文 2 2 元搜索引擎分类 元搜索引擎按照其调用成员搜索引擎的方式分类,可分为串行元搜索引擎和 并行元搜索引擎。所谓串行元搜索引擎就是将用户的查询提交给某个成员搜索引 擎,待该成员搜索引擎返回结果后再对另外一个成员搜索引擎进行查询,这样查 询时间为所有成员搜索引擎查询时间的总和。而并行元搜索引擎是指各个成员搜 索引擎并发进行查询。 元搜索引擎按运行方式的差异可分为在线搜索引擎和桌面搜索引擎。通过网 上调用方式在线使用的元搜索引擎称之为在线元搜索引擎,与它相对应的另一类 元搜索引擎可直接在用户计算机上运行,相当于用户自己拥有一个元搜索引擎, 称之为桌面元搜索引擎。桌面元搜索引擎是一个包括多个成员搜索引擎的完整系 统,它们往往允许用户自定义检索运行的搜索引擎集合,甚至可由用户添加新的 搜索引擎。 元搜索引擎按功能划分,可分为多线索式搜索引擎和a 1 1 一i n o n e 式搜索引 擎。下面详细介绍一下: 多线索式元搜索引擎 多线索式元搜索引擎,指利用统一的检索界面,实现对多个独立搜索引擎的 索引数据库进行检索,并将检索结果以统一格式显示的网络检索工具。 多线索式元搜索引擎一般具有以下特征: ( 1 ) 统一检索界面提供统一界面,提供对各搜索引擎的特点介绍和选择机 制,但所有目标源搜索引擎构成一个逻辑整体,元搜索引擎检索界面构成唯一的 全局外部检索模式,用户通过这个全局界面实现对多个或任意一个搜索引擎的检 索。 ( 2 ) 检索指令转换在具有唯一全局外部检索模式情况下,系统可提供统一的 全局指令语言,并自动地实现元搜索引擎指令与其目标源搜索引擎指令的转换, 用户使用同一指令语言检索不同搜索引擎的索引数据库。 ( 3 ) 统一结果集的组织与显示元搜索引擎提供全局组织器,对各目标源搜索 引擎返回的结果进行处理,形成全局结果集并以统一格式显示,主要涉及数据格 式转换、去重、统一排序等。 像m e t a c r a w l e r ,s a v v y s e a r c h ,p r o f u s i o n 等都属于这类元搜索引擎。 山东大学硕士学位论文 o a i i i n o n e 式搜索引擎 a l l i n o n e 方式,是指元搜索引擎界面以任意顺序或分类罗列多个搜索引 擎,元搜索引擎本身主要提供各类搜索引擎的介绍信息和物理连接机制。用户可 通过这些信息了解有关的搜索引擎,连入要选择的搜索引擎。但元搜索引擎没有 统一的全局外部模式,而是以各搜索引擎的检索模式和数据格式直接面对用户。 确切的说,这种a l l - i n o n e 方式的元搜索引擎,只是搜索引擎的罗列。它们具有 以下特点: ( i ) 仅仅提供一个简单的界面帮助用户选择和使用各搜索引擎。 ( 2 ) 只能选择一个搜索引擎进行检索。 ( 3 ) 对各目标源搜索引擎检索界面的复制可能是部分的或全部的。 ( 4 ) 直接利用所选搜索引擎的显示格式将结果呈送给用户。 以上就是a 1 1 - 1 n o n e 主要特点,可以帮助我们使用这种元搜索引擎,但是从 它的特点可以看出存在一些局限性。1 。 2 3 元搜索引擎与独立搜索引擎和分布式搜索的比较 23 1 与独立搜索引擎的比较 元搜索引擎区别于独立搜索引擎,最主要的是一般没有自己独立的索引数据 库,可以投入更多力量提供统一检索界面,形成一个由多个分布的、具有独立功 能的搜索引擎构成的虚拟整体,用户通过元搜索引擎的功能实现对这个虚拟整体 中各独立搜索引擎数据库的查询、显示等操作。元搜索引擎中各独立搜索引擎各 自保持其原来的局部数据模式和检索指令,由元搜索引擎提供一个全局外部模 式,用以接受用户检索输入和结果输出。这种特色的布局方式,造就了元搜索引 擎的以下优势: ( 1 ) 信息的覆盖面元搜索引擎一般调用它自己认为比较好的几个搜索引 攀,而且大多数的元搜索引擎都提供给用户在一定范围内搜索引攀的功能。有些 元搜索引擎还以频道的方式为用户提供专业的搜索引擎分类。这样用户可以根据 自己的喜好和要查询的内容选择相应的搜索引擎。 ( 2 ) 搜索结果的权威性和可靠性独立搜索引擎索引数据库的更新需要一定 的周期,而且搜集的信息也各有一定的侧重,元搜索引擎调用多个独立搜索引擎 获取搜索结果,这种方式保证了信息的互补性。其次,与独立搜索引擎相比,提 山东大学硕士学位论文 高了信息的新鲜度。如果同样搜索结果在多个搜索引擎中同时出现,那么说明这 个搜索结果比较重要。这样,避免了有些独立搜索引擎人工干预有些搜索排名的 缺点,使得搜索结果的排序更加公正。有些元搜索引擎还检查搜索结果链接的存 在性,这样可以保证用户得到的元搜索引擎结果的可靠性。 ( 3 ) 易维护性是针对元搜索引擎的管理者而言的。元搜索引擎省去了独立 搜索引擎中搜集和存储网页、建立和存储索引的工作。它将它所调用的搜索引擎 看成一个独立完成一定功能的实体,本身不需要去维护,只需要知道他们的调用 接口。元搜索引擎的查询精度在很大程度上在于它所调用的搜索引擎的精度。所 以,元搜索引擎可以把主要精力放在搜索引擎的选择、查询请求的优化和搜索结 果的优化上。一般的元搜索引擎都提供了对应的优化机制。 2 3 2 与分布式搜索引擎的比较 分布式搜索引擎是由很多“独立搜索引擎”构成的,但是它采用的是和元搜 索引擎完全不同的分布式检索方式。这种方式根据地域、主题或其他划分标准, 将全网划分成若干自治域,在每个自治域内分设检索服务器,每个检索服务器由 信息搜集软件、索引数据库和代理三部分组成。信息搜集软件负责本自治域信息 的搜集,并建立索引信息存入索引数据库,代理则负责向用户提供查询接口,并 与其他代理进行交互,实现检索服务器之间的信息交换。 可见,分布式检索中,各个检索服务器要管理的w e b 信息量相对小,对于各 检索服务器的添加、删除也便于维护。因为它们可以联合起来针对同一查询协同 工作,因此,可在降低索引数据库大小的同时,克服独立搜索引擎覆盖面低、维 护困难,重复建设,浪费网络资源等问题。但是,分布式检索在实际提供w e b 检 索服务时,客户端要使用支持同一协议的检索工具或者添加一个协议转换的网 关。而这都是非常难解决的问题,因此,到目前为止,基于这种分布式思想的搜 索引擎还不存在。 元搜索引擎也是为克服独立搜索引擎覆盖面低等问题而提出来的。虽然目前 存在的版本效率不高,但是它的存在为其改造和发展奠定了基础,不需要从根本 上改造现有独立搜索引擎,也不用维护大的索引数据库。如果采用好的数据模型, 对各异构搜索引擎集成,对整个查询过程在上层加入合适的控制机制,将会使元 搜索引擎的特长得以充分发挥,从而获得较高的查全率和查准率”3 。 山东大学硕士学位论文 2 4 元搜索引擎的评价指标 作为一种搜索引擎,元搜索引擎也有搜索引擎的一些基本指标,如响应速度、 准确率等。但成员搜索引擎间的个体差异性很大,如果结合它们的性能来对元搜 索引擎进行评价,将很难得出精确的结果。因此元搜索引擎的评价主要依靠下面 几个主要指标: 1 ) 成员搜索引擎的调度策略也就是是否允许用户浏览并选择要调用的独 立搜索引擎。有些元搜索引擎固定地调用几个独立的搜索引擎,用户不能修改。 有些元搜索引擎的高级特性中让用户选择调用哪些搜索引擎。这种方式对于那些 对独立搜索引擎比较了解的用户来说,是可取的,而对于不了解的用户来说,可 能选择不到适合自己查询的搜索引擎。独立搜索引擎的各种技术飞速发展,性能 也随之不断提高。元搜索引擎只能选择几个( 一般不超过1 6 个) 搜索引擎同时进行 搜索,因为选择的搜索引擎的个数越多,固然得到的搜索结果更加全面,但是结 果的集成将花费更多的时间。元搜索引其一直固定的调用几个搜索引擎,可能跟 不上搜索引擎发展的潮流。 2 ) 覆盖网络资源的广度即是否覆盖多种网络资源类型,是否可提供主题范 畴的目录服务。 3 ) 检索选项和功能设置是否支持逻辑匹配检索、短语检索、自然语言检索 等高级检索特性;是否能够实现检索请求的“本地化”转换;是否可以限定最长 检索时间:是否可以设置每个搜索引攀的返回的结果数;是否可以设置标题的大 小( 搜索引擎可以从t i t l e 标记中显示的最大字符数) 和摘要的大小( 搜索引擎所 显示结果中摘要的最大字符数) ;是否提供显示选项( 用户可以通过它来设置结果 的其他显示方式) ;是否能够自动检查链接的有效性等等。检索选项越多,用户 使用的时候就越灵活。 4 ) 对搜索结果的处理能力对独立搜索引攀返回的结果处理是元搜索引擎 的又一重要技术,它包括结果的处理和结果的显示。有些元搜索引攀提供多种显 示结果的方式,如有些元搜索引攀提供方式让用户按照时间、按照搜索引擎、按 相关度等来排序。有些元搜索引擎提供了让用户定制搜索结果的聚类方式,如按 域名聚类、按主题分类等。 山东大学硕士学位论文 2 5 元搜索引擎面临的挑战 虽然元搜索本身通过集中多种独立搜索引擎的方式来改善查询效能的思想 不复杂,但是元搜索引擎所具有的一些特征却使构建高效的元搜索引擎的任务非 常困难。元搜索引擎的主要目标与独立搜索引擎是一致的,都是为了找出对应于 某个查询的n 个最有用的文档或资源,但是对于元搜索引擎来说,它通常没有自 己的索引数据库,只能依赖于来自其它搜索引擎的结果来为自己的检索任务服 务,元搜索引擎也可以有自己的结果评分标准,但是它却对各个搜索引擎返回的 结果知之甚少。再加上子搜索引擎的自治性和相异性等,这都给架构高效的元搜 索引擎带来了不小的难度。元搜索引擎需要面对的五个基本问题o ”: ( 1 ) 首先,一个元搜索引擎只能得到从子搜索引擎返回的受限的结果集合。 这种限制被称为w e b 搜索水平问题( w e bs e a r c hh o r i z o np r o b l e m ) 。造成这种限 制的原因既是由于子搜索自治性引起的,也和有限的资源和知识有关。 ( 2 ) 其次,虽然元搜索引擎可以得到许多结果的超链接地址( u r l ) ,但是可 以用来评价和给每个搜索结果打分的信息却不总是能够从予搜索引擎的查询接 口中得到。这种限制被称为有限信息问题( 1 i m i t e di n f o r m a t i o np r o b l e m ) 。 ( 3 ) 元搜索引擎的搜索功效依赖于子搜索引擎的查询表现,而且这种情况很 难控制,因此,元搜索引擎会存在有搜索时间问题( t e m p o r a ls e a r c hp r o b l e m ) 。 ( 4 ) 特定子搜索引擎的合作态度可能会影响到元搜索引擎在找寻有用信息 时的表现。一个合作( c o o p e r a t i v e ) 的子搜索引擎可能会主动的提供额外的信息 来改善元搜索引擎的查询功效。同时,也可能会存在有具有敌意( h o s t i l e ) 的子 搜索引擎,它们可能会阻碍或干涉元搜索引擎的查询进程。这种问题称为限制性 合作关系( 1 i m i t e dc o o p e r a t i o np r o b l e m ) 。 ( 5 ) 最后,每个独立的搜索引擎都是独立的实体,都有它们独自的接口组件, 这种相异的多接口现象会给构建在这些独立搜索引擎之上的元搜索定位有用的 信息带来很大的困难,这种问题称为多接口问题( m u l t i p l ei n t e r f a c e s p r o b l e m ) 。 本章小结 元搜索引擎被称为搜索引擎之上的搜索引擎。元搜索引擎通常主要由以下三 个子部分构成:检索请求预处理部分、成员搜索引擎调度部分、检索结果处理部 山东大学硕士学位论文 分:元搜索引擎按照其调用成员搜索引擎的方式分类,可分为串行元搜索引擎和 并行元搜索引擎,按运行方式的差异可分为在线搜索引擎和桌面搜索引擎,按功 能划分,可分为多线索式搜索引擎和a l 卜i n o n e 式搜索引擎,第2 节详细讨论了 多线索元搜索引擎$ i a l l i n o n e 式元搜索引擎的特点:第3 节对元搜索引擎与独 立搜索引擎、分布式搜索引擎分别做了比较,分析元搜索引擎的优缺点;作为一 种搜索引擎,元搜索引擎也有搜索引擎的一些基本指标,如响应速度、准确率等, 这里介绍了元搜索引擎所特有的一些评价指标,如成员搜索引擎的调度策略、覆 盖网络资源的广度、检索选项和功能设置、对搜索结果的处理能力;虽然元搜索 本身通过集中多种独立搜索引擎的方式来改善查询效能的思想不复杂,但是元搜 索引擎所具有的一些特征却使构建高效的元搜索引擎的任务非常困难,第5 节从5 个方面讨论了元搜索引擎发展面临的基本问题。 山东大学硕士学位论文 第3 章成员搜索引擎的选择策略 选择成员搜索引擎是元搜索引擎实现过程中需要解决的一个关键问题。如果 元搜索引擎的成员搜索引擎数量不多,可以将用户的查询送到各个成员搜索引 擎。然而将查询送到每个成员搜索引擎的策略是不合理的,会造成w e b 资源的浪 费,增加网络负载。用户目标是在最短时间内查到最有用的资料。不能给用户提 供一大堆资料让用户选,而是应当给用户尽量少的有用信息,以节省用户时间。 3 1 成员搜索引擎的影响 成员搜索引擎的影响是多方面的,成员搜索引擎的查询时间、查准率和查全 率、输入输出接口从不同方面影响着元搜索引擎的性能。 查询时间 元搜索引擎的响应时间是由成员搜索引擎决定的,而且是由时间性能最差的 那个成员搜索引擎的检索时间所决定的。时间问题是元搜索引擎所遇到的一大问 题,目前流行有两个解决方案。其一,通过用户的输入,控制时间。即在用户接 口,有一个时间选择选项,由用户选择等待返回结果的最长时间。另一种方式是 分批显示。即增量式显示,返回结果一点一点的增加。最早返回的结果先显示给 用户,然后随着结果的返回,再动态的改变显示页面。目前大部分的元搜索引擎 采用的是第一种方式。 查准率和查全率 查准率是指获取的相关信息与获取总信息的比率。即用户通过元搜索引擎所 获取的信息中对于用户来讲有用的信息占总共获取信息的比率,而查全率是用户 获取的信息与整个i n t e r n e t 中相关信息的比率。元搜索引擎,由于它调用了多个 成员搜索引擎,并且采用相关的元搜索技术,消除了重复及冗余信息,并进行结 果的重新排序。所以它的查全率相比单个成员搜索引擎高,也就是信息覆盖率高。 整个元搜索引擎的查全率和查准率受它所调度成员搜索引擎的查全率和查准率 影响,而一个好的元搜索引擎可以通过一系列的优化来提高元搜索引擎的查全率 和查准率。 输入输出接口 元搜索引擎通过调度成员搜索引擎进行查询,从各个成员搜索引擎返回的 山东大学硕士学位论文 h t m l 文件中抽取结果,然后进行结果合并。而每个成员搜索引擎都有自己独特的 用户输入和输出接口。由于成员搜索引擎的用户输入和输出接口没有统一的标 准,这样就增加了元搜索引擎实现难度,为了实现对成员搜索引擎的调度,必须 对每个成员搜索引擎的用户输入输出接口进行分析。随着成员搜索引擎用户输入 和输出接口的改变,系统维护开销也将变大。 3 2 成员搜索引擎的选择方法 怎样选择独立搜索引擎是在元搜索引擎是在元搜索引擎实现的过程中所要 解决的一个关键的问题。 如果元搜索引擎的独立搜索引擎数量不多,可以将用户的查询送到各个独立 搜索引擎。然而,当独立搜索引擎数量巨大,比如有成千上万个,将查询送到每 个独立搜索引擎的策略则不再合理。因为在这种情况下,大多数成员数据库对此 查询毫无用处。假设用户只对1 0 个与其提交查询最匹配的文件感兴趣。这1 0 个文 件显然最多只能来自于1 0 个不同的数据库。因此,如果数据库的数量远远超过1 0 个,大量的数据库对于此查询是没有用的。将查询送到大量无用数据库有很多缺 点。首先,传输查询到无用数据库并从这些数据库传输无用文件到元搜索引擎形 成了不必要的网络通信。其次,当无用独立搜索引擎处理查询时,其资源也被浪 费了。第三,当无用搜索引擎返回大量结果时,元搜索引擎需要花更大的代价来 识别处理有用的结果。为了解决以上的问题,我们尽量将查询只送到潜在有用的 数据库。这个如何识别潜在数据库的问题被称为成员搜索引擎的选择问题。 当元搜索引擎收到用户查询时,它启动数据库选择程序来选择合适的成员搜 索引擎。一个好的数据库选择方法应该准确地识别出有用的数据库,为了进行数 据库的选择,必须要知道能够反映每个成员引擎的数据库特点的信息,我们称这 种信息为数据库特征信息。现有多种解决数据库选择问题的方法,可以分为三类: ( 1 ) 定性的方法这类方法根据一定的评分函数针对给定查询预测每个数据 库的质量。其评分或质量衡量往往不易理解。 ( 2 ) 定量的方法这类方法根据一些比定性方法使用的衡量标准更易理解的 标准来衡量数据库的有用性。换言之,定量的方法使用根据给定查询计算出 数据库的有用性。相对于定性方法而言更加直接和明确。 ( 3 ) 基于学习的方法这类方法根据以往检索成员搜索引擎的经验来预测各 山东大学硕士学位论文 引擎对新查询的有用性。 3 2 1 定性的方法 有些定性法只能用很粗略的信息来代表每个成员搜索引擎的内容。通常, 这些信息只有几个关键字和几个句子。使用粗略信息的好处在于这些信息比较容 易获得而且只需要很少的存储空间。但是它的缺点是不容易把单个成员搜索引擎 的性能描述清楚。较新的定性方法采用非常详细的信息,描述了每一个成员搜索 引擎数据库的性能。下而介绍一种该类方法。 在c o r in e t ( c o l l e c t i o nr e t r i e v a li n f e r e n c en e t w o r k ) 方法。”中,每个成 员搜索引擎数据库的描述信息包括了其所有术语的两个信息:文件频率和数据库 频率。前者是指在某个成员搜索引擎数据库中含有该术语的文件个数,后者是指 含有该术语的成员搜索引擎数据库的个数。 对于给定查询q ,c o r in e t 将一种在i n q u e r y 系统中被称为i n f e r e n c e n e t w o r k 的文件评估法经拓展后用于计算成员搜索引擎数据库关于q 的评分。这种 延展主要是概念上的,其思想是将一个成员搜索引擎数据库代表想象为一个含有 该数据库的所有术语的超级文件。数据库中术语的文件频率成为超级文件中术语 的术语频率。假设d 表示这个所有超级文件的数据库。术语的数据库频率在d 中 成为该术语的文件频率。因此,从成员搜索引擎数据库代表信息中,便可以得到 每个术语文件的术语频率和文件频率。公式t f * i d f 可以用来计算每个超级文件中 术语的权值,以便将每个超级文件用权值向量来表示,t f 是根据术语频率计算出 来的权值因子,而i d f 是根据文件频率计算出来的权值因子。通常t f 是术语频率 的增函数,i d f 是文件频率的减函数。c o r in e t 使用的是一种某于i n f e r e n c e n e t w o r k 的概率论方法。 在c o r in e t 中,每个术语的数据库代表信息稍稍多于一个数据量( 即文件频 率加上所有数据库共享的数据库频率) 。因此,c o r in e t 方法具有较好的扩展性, 获得或维护代表每个成员数据库内的信息也很容易。c o r in e t 的一个优点是其计 算文件对于查询系统的一套评分方法可以同样( 通过数据库代表信息或超级文件) 用于计算数据库对于查询的评分。 3 2 2 定量法 定量方法和定性方法主要区别在于前者使用的衡量成员搜索引擎数据库有 山东大学硕士学位论文 用性的标准更加明确和实用。举例来说,定量方法使用的衡量成员搜索引擎数据 库有用性的一种标准是“成员搜索引擎数据库中对于每一个查询潜在的有用文件 的数量”。很明显,这个数量清楚的反映了该成员搜索引擎数据库对于给定查询 的有用性。 另外一种有用的定量衡量标准是:一个成员搜索引擎数据库中与给定查询最 为相似的文件的全局相似度。一方面,该标

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论