(计算机应用技术专业论文)基于主题的元搜索引擎关键技术研究.pdf_第1页
(计算机应用技术专业论文)基于主题的元搜索引擎关键技术研究.pdf_第2页
(计算机应用技术专业论文)基于主题的元搜索引擎关键技术研究.pdf_第3页
(计算机应用技术专业论文)基于主题的元搜索引擎关键技术研究.pdf_第4页
(计算机应用技术专业论文)基于主题的元搜索引擎关键技术研究.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

c l a s s i f i e di n d e x : u d c : ad i s s e r t a t i o nf o rt h ed e g r e eo fm e n g r e s e a r c ho nk e y t e c h n o l o g i e so f t h e m e - - b a s e dm e t as e a r c h e n g i n e s c a n d i d a t e :c a iy u h o n g s u p e r v i s o r :p r o f y i ng u i s h e n g a c a d e m i cd e g r e ea p p l i e df o r :m a s t e ro fe n g i n e e r i n g s p e c i a l i t y :c o m p u t e ra p p l i e dt e c h n o l o g y d a t eo fs u b m i s s i o n :j a n u a r y , 2 010 d a t eo fo r a le x a m i n a t i o n :m a r c h ,2 010 u n i v e r s i t y :h a r b i ne n g i n e e r i n gu n i v e r s i t y 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由 作者本人独立完成的。有关观点、方法、数据和文献的引用已在 文中指出,并与参考文献相对应。除文中已注明引用的内容外, 本论文不包含任何其他个人或集体已经公开发表的作品成果。对 本文的研究做出重要贡献的个人和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担巳 作者( 签字) :磋玢咳厶 日期:加,d 年;月几日 哈尔滨工程大学 学位论文授权使用声明 本人完全了解学校保护知识产权的有关规定,即研究生在校 攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨 工程大学有权保留并向国家有关部门或机构送交论文的复印件。 本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据 库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本 学位论文,可以公布论文的全部内容。同时本人保证毕业后结合 学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈 尔滨工程大学。涉密学位论文待解密后适用本声明。 本论文( 由在授予学位后即可口在授予学位1 2 个月后 口 解密后) 由哈尔滨工程大学送交有关部门进行保存、汇编等。 作者c 签字) :豫身弘 导师签字:饼功艺 日期:劢,0 鹎月u 日移年( 月蜩 v 哈尔滨丁稗大学硕十学位论文 摘要 近年来随着互联网的飞速发展,网络中的信息量急剧增加,用户如何能 够在最短时间内获得最需要的信息成为目前信息检索领域的首要问题。现有 的搜索引擎都在一定程度上存在搜索覆盖率不足、搜索效率低下及重复信息 较多等问题,为了解决这些问题,元搜索引擎应运而生。元搜索引擎的工作 原理是集成多个独立搜索引擎,再通过一定的调度策略和结果集成算法来得 到搜索结果集合。这种方法既可以扩大搜索的覆盖范围,又可以通过用户的 喜好来选择符合用户需求的结果集合。 本文首先介绍了目前搜索引擎发展的局限性,分析研究元搜索引擎的目 的及意义,阐述了元搜索引擎的基本概念与工作原理,分析其国内外研究现 状及各种研究方法的优缺点。为了解决目前元搜索引擎发展中面临的问题, 本文提出一种基于芏题的元搜索引擎模型,与传统元搜索引擎单纯的处理机 制相比,这里加入了伪爬虫调度机制,并引入了用户输入分析算法,在提高 元搜索引擎查准率的基础上降低了搜索的响应时间。在成员搜索引擎调度策 略方面,从深入分析用户查询意图入手,结合成员搜索引擎数据库与主题类 别的相似度及用户对成员搜索引擎的关注度,提出一种基于伪爬虫的成员搜 索引擎调度策略。在结果集成方面,结果去重算法采用基于地址u r l 、标题 和摘要的综合分析方式对搜索结果进行去重。在结果排序方面,给出一种结 合用户对成员搜索引擎的关注度、搜索结果在成员搜索引擎中的位置得分和 搜索结果与主题的相关度的排序算法,对返回结果进行排序。 最后对本文中提出的算法进行实验,分析实验结果,同时,根据用户对 搜索引擎的需求发展趋势,确定了下一阶段的研究方向。 关键词:元搜索引擎;调度策略;伪爬虫;结果集成策略 哈尔滨t 程大学硕十学位论文 a b s t r a c t i nr e c e n ty e a r s ,t h ew o r l dw i d ew e bi sd e v e l o p i n ga ta na m a z i n gs p e e d ,t h e a m o u n to fi n f o r m a t i o nh a si n c r e a s e dd r a m a t i c a l l y h o wt h eu s e rc a no b t a i nt h e m o s tu s e f u li n f o r m a t i o ni nt h es h o r t e s tt i m eb e c o m eap r i m a r yp r o b l e m i no r d e r t os o l v et h e s ep r o b l e m s ,m e t a - s e a r c he n g i n eh a sb e e nd e v e l o p e d i t sw o r k i n g p r i n c i p l e i st oi n t e g r a t em a n yi n d e p e n d e n ts e a r c he n g i n e s ,g a t h e rt h e i rr e t u r n i n g r e s u l t sb yc e r t a i nd i s p a t c h i n gs t r a t e g ya n dt h em e r g i n ga l g o r i t h mo fr e s u l t s t h i s m e t h o dn o to n l yc a ne x p a n dt h ei n f o r m a t i o nc o v e r a g e ,b u ta l s oc a nc h o o s e s u i t a b l er e s u l t st h r o u g ht h eu s e rp r e f e r e n c e s t h ep a p e rd e s c r i b e st h ec u r r e n tl i m i t a t i o n so fs e a r c he n g i n ed e v e l o p m e n ta n d a n a l y s e st h ep u r p o s et os t u d yt h em e t a - s e a r c he n g i n e i ta l s oi n t r o d u c e st h eb a s i c c o n c e p to fm e t a s e a r c he n g i n ea n dt h ew o r k i n gp r i n c i p l e t h e ni td e s c r i b e st h e t w ok e yt e c h n i q u e so ft h em e t a s e a r c he n g i n e :m e m b e rs e a r c he n g i n ed i s p a t c h i n g s t r a t e g ya n dr e s u l t sm e r g i n ga l g o r i t h m ,a n da n a l y s e st h ec u r r e n tr e s e a r c ha th o m e a n da b r o a d t h i sp a p e rp r o p o s e sam e t a - s e a r c he n g i n em o d e lb a s e do nt h et h e m e , c o m p a r e dw i t ht r a d i t i o n a ls e a r c he n g i n e ,i ti n t r o d u c e st h eu s e rf o c u sm o d e l ,t h e u s e ri n p u ta n a l y s i sa l g o r i t h m , t h ed i s p a t c h i n gs t r a t e g yb a s e do nt h ep s e u d oc r a w l e r a n dd a t a b a s e f o rm e m b e rs e a r c he n g i n ed i s p a t c h i n gs t r a t e g y , i ti sb a s e do nt h e a n a l y s i so ft h ei n t e n t i o no fu s e r s q u e r i e s ,t h es i m i l a r i t yo f m e m b e rs e a r c he n g i n e d a t a b a s e ,t h et h e m ea n dt h eu s e r s f o c u s f o rt h er e s u l t sm e r g i n ga l g o r i t h m ,t h e r e s u l t sa r es o r t e db yt h e i rp o s i t i o ni nt h em e m b e rs e a r c he n g i n e ,u s e r s sf o c u so n m e m b e rs e a r c he n g i n e sa n dt h er e l e v a n c et ot h es u b j e c tc a t e g o r y t or e m o v et h e r e p e t i t i v er e s u l t s ,h e r ei tu s e sa m e t h o db a s e do nt h eu r l ,t i t l ea n da b s t r a c t f i n a l l y , t h i sp a p e ra n a l y z e st h ea l g o r i t h me x p e r i m e n t a lr e s u l t sa n dg i v e st h e f u r t h e rs t e p so ft h er e s e a r c h k e yw o r d s :m e t a - s e a r c he n g i n e ;d i s p a t c h i n gs t r a t e g y ;p s e u d oc r a w l e r ;r e s u l t sm e r g i n g s t r a t e g y ; 目录 第l 章绪论l 1 1 研究背景l 1 2 研究目的及意义2 1 2 1 搜索引擎发展的局限性”2 1 2 2 研究元搜索引擎的目的及意义3 1 2 3 国内外研究现状4 1 3 论文主要内容及结构5 第2 章元搜索引擎综述7 2 1 元搜索引擎的产生7 2 2 元搜索引擎原理8 2 - 3 元搜索引擎分类9 2 4 元搜索引擎关键技术一l o 2 5 本章小结”1 2 第3 章基于主题的元搜索引擎模型研究“1 3 3 1 基于主题元搜索引擎模型1 3 3 1 1 模型的组成1 4 3 1 2 模型中模块功能划分1 4 3 1 3 模型工作流程1 6 3 1 4 改进后的模型的优势1 7 3 2 用户关注模型1 7 3 2 1 用户模型建模技术18 3 2 2 主题分类参考模型1 9 3 2 3 用户关注主题树2 0 3 2 4 用户关注模型建立与更新2 1 3 3 用户输入分析算法”2 3 哈尔滨丁程大学硕十学位论文 | 置i 宣宣i i i i i i i i i i i i i i i i i i i i i i 宣i 宣i i i i i 蕾i i i i i i i i i i i i i i 宣审宣宣i i i i i i i 萱i i i i 一 3 4 基于伪爬虫的成员搜索引擎调度策略2 4 3 4 1 元搜索引擎调度关键技术2 4 3 4 2 基于伪爬虫的调度策略2 7 3 5 本章小结”3 1 第4 章元搜索引擎结果集成策略3 2 4 1 结果集成相关算法研究3 2 4 2 现有算法的比较分析3 6 4 3 基于主题的元搜索引擎结果集成策略- 3 7 4 3 1 搜索结果去重3 7 4 3 2 搜索结果排序4 3 4 4 实验及结果分析4 5 4 5 本章小结“4 8 结论4 9 参考文献:5 1 攻读硕士学位期间发表的论文和取得的科研成果5 6 致谢5 7 1 1 研究背景 随着互联网技术的快速发展,网络中信息量急剧增加。这些网络资源丰 富了人们的生活,并为人们查找信息提供了极大的便利,但也不可避免的暴 露出一些问题。其中最主要的就是由于信息资源的增长速度过快,人们很难 在短时间内从海量的信息中获取自己所需的有效信息,更难以对收集来的海 量信息进行分析和获取知识。 为了解决这些问题,人们开发出了新的互联网信息检索系统,其中最为 典型的就是搜索引擎。目前,搜索引擎已成为人们获取网络信息资源的主要 方式,相关搜索引擎网站也是用户使用网络时首选的访问站点,比较受用户 信赖的几个主流搜索引擎有谷歌、百度、搜狐、雅虎和m s n 等。 对于现有的搜索引擎,由于不同搜索引擎采用的算法各不相同,数据库 的覆盖范围差异较大,造成返回的结果集合以及结果的排列顺序有很大的不 同。同时,各搜索引擎数据库对信息的覆盖率远远小于目前庞大的互联网信 息数量,据统计表明,百度作为较权威的中文搜索引擎,其对中文网页资源 的覆盖率只有3 2 5 3 ,并且不同的搜索引擎的搜索结果重复率在1 0 3 0 之 间。显然,普通搜索引擎只能覆盖少数网络资源,而普通搜索引擎返回的结 果数量都比较巨大,动辄成千上万,在如此之多的搜索结果中通常掺杂着大 量的无关信息,给用户的检索带来了很多困扰,也浪费了用户的时间。用户 在查找所需的检索结果时,经常需要在多个搜索引擎中切换查找,以获取更 多的有用信息,但每个搜索引擎的用户接口和查询语法都不相同,这也给同 时使用多个系统的用户带来不便,浪费了用户的时间,增加了用户的搜索代 价。虽然与以前在海量的互联网信息中盲目的寻找相比,搜索引擎的出现已 经大大提高了用户的搜索效率,但是在信息呈爆炸性增长的互联网时代,搜 索引擎在搜索质量、搜索代价方面仍然满足不了用户的需求。 1 哈尔滨丁程大学硕士学位论文 为了提高搜索引擎的数据库覆盖率问题和检索质量问题,一些搜索引擎 致力于索引更多的网页,以及提高搜索结果的质量。目前提出的一种基于多 个搜索引擎基础之上的搜索引擎,也就是元搜索引擎,也是解决这一问题的 重要手段。元搜索引擎为用户提供统一的检索界面,接收并处理用户的查询 请求,然后根据一定的调度策略,选择调用一个或多个独立搜索引擎进行查 询,最后将来自独立搜索引擎的检索结果收集起来,进行优化处理后,以一 定的格式返回给用户。元搜索引擎没有自己独立的数据采集机制和相应的数 据库,它的数据分析是建立在若干个成员搜索引擎返回的结果上的,这样, 通过元搜索引擎,用户不必关心自己想检索的信息在哪个搜索引擎的文档数 据库中,元搜索引擎会自动遍历其整合的独立搜索引擎来查询信息。同样, 由于元搜索引擎的出现,也不需要把搜索引擎的负载设计得很大,这样不仅 节省资源,而且提高了搜索引擎的性能。因而元搜索技术也越来越成为计算 机界研究和开发的热点。著名的元搜索引擎有i n f o s p a c e 、d o g p i l e 、v i v i s i m o 等,中文元搜索引擎中具代表性的有万维搜索。在搜索结果排序方面,有的 直接按来源搜索引擎排列搜索结果,如d o g p i l e ,有的则按自定的规则将结果 重新排列组合,如v i v i s i m o 。 1 2 研究目的及意义 1 2 1 搜索引擎发展的局限性 搜索引擎经过几十年的发展,已经得到了长足的进步,从某种程度上来 说,方便了用户从浩瀚的信息海洋中搜索感兴趣的信息和有用的信息,但是 用户在用搜索引擎进行信息搜索时,常常会发现大量重复或者不相关的结果 也被搜索引擎检索出来,浪费用户的时间和精力。而且,不同的搜索引擎由 于互联网资源的覆盖范围和检索算法的不同,往往返回不同质量的结果,用 户为了获得更满意的结果,通常要在多个搜索引擎间切换。这些问题的产生 主要是由于搜索引擎自身的局限性: 2 哈尔滨丁稗大学硕+ 学位论文 i i i i i i i i i i i i i i i i i i i i i 鼍萱| 萱萱i i i i 萱萱萱i i i i i 萱萱i i i i i i i i i i i i i 萱i i 萱i 置薯 1 搜索引擎覆盖率和查全率比较低。据调查,搜索引擎平均只能覆盖到 整个互联网资源的5 2 0 幢,而互联网上的信息资源是动态变化的,且信息 量呈指数级增长,信息内容不断更新,信息存放位置的不断变更,任何一个 搜索引擎都不可能覆盖互联网上的所有网页信息。在这样的覆盖率下,查全 率也相应的比较低,造成网上大量信息被遗漏,网络信息资源遭到浪费。 , 2 冗余重复信息量大。尽管现有的搜索引擎对搜索结果进行了一定的消 重处理,但是几乎每个搜索引擎都会搜索出重复的或者基本与查询不相关的 结果,用户只能人工从这些结果中发现自己需要的信息。 3 搜索引擎数据库规模大,信息更新慢。随着互联网信息量的快速增长, 搜索引擎需要维护的数据库规模也不断在增大,大规模索引数据库的维护是 比较困难的,而且互联网上信息的更新快,经常会导致链接失效;并且对大 容量的、非结构化或者半结构化的信息进行增加、删除和修改也是索引数据 库维护的一个难点。 - 。 4 搜索引擎搜索的模式不能满足用户的个性化要求。目前绝大多数搜索 引擎都采用单一的搜索方式,不具有识别用户兴趣、爱好的能力,以致于所 有用户,只要在同一个搜索引擎上进行查询且查询关键词一致,所得到的查 询结果都相同,显然不能满足不同用户的需求。同时,查询返回的结果往往 成千上万,内容千差万别,使得用户在寻找自己需要的信息时犹如大海捞针。 5 搜索引擎的搜索算法忽视用户的反馈信息。搜索引擎在查询时大多采 用基于查询关键词的匹配算法,在查询结果排列时也大多采用基于词频或基 于网页内链接的分析,很少考虑到用户对查询结果的反馈信息。 1 2 2 研究元搜索引擎的目的及意义 由于搜索引擎的诸多局限性,元搜索引擎应运而生。元搜索引擎是基于 多个独立搜索引擎的搜索引擎,它将多个独立引擎集合为一个整体,为用户 提供一个统一的检索界面,当用户输入查询请求后,元搜索引擎根据自身的 查询分析机制,将用户的查询语句进行分析转化,然后根据一定的元搜索引 哈尔滨t 程大学硕+ 学位论文 擎调度策略,调用某些独立的成员搜索引擎根据分析后的查询关键词进行检 索。最后由元搜索引擎将各成员搜索引擎返回的结果按照一定的结果合成算 法进行去重、排序,再将得到的结果集合返回给用户。 利用元搜索引擎对互联网上信息进行搜索,能够扩大查询的覆盖范围, 提高查询的准确率。它给用户提供了一个统一友好的界面,使用户可以同时 对多个成员搜索引擎进行查询,并帮助用户将多个成员搜索引擎返回的结果 进行处理,包括对结果的去重和排序,使用户免受重复信息的困扰。同时, 元搜索引擎也降低了搜索引擎工程的复杂度,因为它是利用其它搜索引擎的 搜索结果,没有独立的网源采集标引机制和相应的数据库,不需要维护庞大 的网页标引数据库,大大降低了工程的复杂度,并且在存储设备上比独立搜 索引擎要小的多。开发人员只需要挑选出性能优秀的通用或专业搜索引擎作 为元搜索引擎的成员引擎,设计最大程度上满足用户需求的调度策略和结果 返回排序算法,就可大大提高搜索效率。 1 2 3 国内外研究现状 目前在国外搜索引擎研究领域,元搜索引擎由于其自身的优势而备受关 注,目前网络中已经有上百个元搜索引擎,其中比较优秀的元搜索引擎有 m a m m a ,m e t a c r a w l e r ,s a v v ys e a r c h ,p r o f u s i o n 等。 m a m m a 自称为“搜索引擎之母”,它是一种并行元搜索引擎,可同时调 用7 个最常用的成员搜索引擎,并且可查询网上商店、新闻、股票指数、图 像和声音文件等资源。其特点是检索界面友好,检索选项丰富,比如:可控 制调用的成员搜索引擎、选择使用短语检索功能、设定检索时间、设定每页 可显示记录数等b ,。 m e t ac r a w l e r 也是并行元搜索引擎,它可同时调用1 2 个成员搜索引擎, 提供涵盖近2 0 个主题的目录检索服务。提供全面的用户接口与丰富的逻辑检 索功能;它对搜索结果的排序是基于评分策略的,同时有效地消除了大量的 重复结果,保证了高质量的搜索结果。 4 , , 哈尔滨t 程大学硕士学何论文 s a v v ys e a r c h 可以从7 0 0 多个搜索引擎、w e b 目录、拍卖站点、门户、 新闻资源、讨论组和参考站点返回结果:专注于研究大量的搜索引擎在不同 主题或领域的检索效率以及访问一个搜索引擎需要的资源代价,由此为用户 选择最优的搜索引擎进行检索伟,。 p r o f u s i o n 是一个优秀的智能型元搜索引擎,它在其检索界面上提供了尽 可能多的检索选项,包括:检索类型、结果显示数量、可搜索资源范围涵盖 娱乐、健康、体育、m p 3 等,并支持个性化设置,自动实现符合特殊检索语 法要求的转换旧,。 目前,国内的中文元搜索引擎研究还处于探索阶段,中文元搜索引擎的 数量不多,搜索效果还有待进一步提高。比较著名的中文元搜索引擎有:万 纬元搜索引擎、m e t a f i s h e r 等。 万纬元搜索引擎是最著名的中文元搜索引擎。万纬主要包括了5 个英文 搜索引擎a r g o s 、g o o g l e 、h o t b o t 、n o r t h e m l i g h t 、y a h o o 和7 个中文搜索引 擎如新浪、雅虎( 中文) 、搜狐、天网、悠游搜索。用户可根据需要自由选择其 中最多6 个引擎进行同步搜索,搜索结果可按相关度、时间、域名和引擎分 类。 m e t a f i s h e r 元搜索引擎可以调用g o o g l e 、y a h o o 、a l l t h e w e b 、o p e n f i n d 、 百度等成员搜索引擎。它的特点是:首先具有c o o r a n k 网页评级系统,通过 网页评级可以更好的对搜索结果进行排序,为用户提供准确性参考:其次通 过使用c o o w o r d 关键词自动分析归纳算法,可以增加搜索的深度与广度;最 后为用户提供在结果页面直接预览网站的功能”一。 1 3 论文主要内容及结构 本文通过分析目前元搜索引擎研究和实现中的不足,提出一种基于主题 的元搜索引擎模型,并对元搜索引擎实现中的两大关键技术:成员搜索引擎 调度策略和搜索结果集成策略进行研究和改进,以提高元搜索引擎的查全率 和查准率。主要内容有如下几个部分: 哈尔滨t 程大学硕十学何论文 第1 章介绍了论文的研究背景,分析目前搜索引擎发展的局限性,提出 研究元搜索引擎的重要意义,并介绍目前国内外元搜索引擎的研究现状,最 后给出研究内容及论文的组织结构。 第2 章概述了元搜索引擎的产生、分类及工作原理,对元搜索引擎的关 键技术进行介绍,并提出目前研究中的不足及改进方向。 第3 章介绍了基于主题的元搜索引擎模型结构,模块划分及工作流程。 详细介绍成员搜索引擎调度策略中涉及到的用户关注模型、用户输入分析算 法和基于伪爬虫的调度策略。 第4 章介绍元搜索引擎的结果集成策略,在分析现有的搜索结果集成算 法的基础上,提出一种基于u r l 、标题和摘要的搜索结果去重策略,以及基 于主题的元搜索引擎结果排序算法,并通过实验分析算法效率。 6 第2 章元搜索引擎综述 随着互联网的快速发展,互联网信息资源量呈现爆炸性增长,传统的搜 索引擎在查全率和查准率方面很难满足用户的要求,用户经常需要在多个搜 索引擎之间进行切换以获得所需的信息。为了提高用户的搜索效率,元搜索 引擎应运而生。 2 1 元搜索引擎的产生 为了弥补搜索引擎在信息覆盖率上的不足,2 0 世纪9 0 年代中期,由华 盛顿大学硕士生e r i cs e l b e r g 和o r e ne t z i o n i 研究并推出了元搜索引擎旧,。元搜 索引擎是指建立在独立搜索引擎之上的搜索引擎,它通过调用多个独立的搜 索引擎同时或分时进行查询,并收集返回结果。元搜索引擎没有自己的数据 库,它不收集互联网中的网页或网站,而是将用户输入的查询语句进行分析 处理后,提交给已选定的各独立搜索引擎,最后收集各独立搜索引擎返回的 结果,并根据某些机制进行整理、排序,最后返回给用户。由于元搜索引擎 是综合其他独立搜索引擎的搜索结果,并对结果进行集成处理,所以在很大 程度上元搜索引擎比独立搜索引擎提供的搜索结果更准确、更全面。 元搜索引擎由于其基于各独立搜索引擎的特性,扩大了信息的覆盖范围, 提高了信息的查全率;由于元搜索引擎提供的统一检索界面,用户不需要在多 个搜索引擎之间进行切换搜索便可以得到自己需要的结果,使用户从繁重的搜 索工作中解脱出来,节省了用户的搜索时间。在元搜索引擎的成员搜索引擎集 合中,除了通用搜索引擎外,还可以引入专题类的搜索引擎,这样可以大大提 高用户对某些专题检索的准确率。相比较于独立搜索引擎,元搜索引擎提高了 资源的利用率,省去了收集、存储和索引构建等工作,也不需要维护大规模的 数据库,仅充分利用了现有的各成员搜索引擎的数据库资源,这样来说,元搜 索引擎的构建比起独立搜索引擎来说大大降低了工程的复杂度。 哈尔滨t 稃大学硕十学何论文 i i i 宣i 萱萱皇蕾i | i i i i i i i i i i i i i i i i i i i 萱萱i 葺i 叠宣i i 宣i i i 暑i i i 置| 一 2 2 元搜索引擎原理 元搜索引擎是基于多个独立搜索引擎的搜索引擎,它通过搜索代理调度 多个成员搜索引擎,将用户发送的请求转化为成员搜索引擎能够识别的格式, 并将其发送给各个成员搜索引擎,最后将成员搜索引擎返回的结果进行收集、 去重和排序,然后再返回给用户,元搜索引擎的基本结构如图2 1 所示。 图2 1 元搜索引擎基本结构 元搜索引擎通常都包含用户接口界面、查询转发机制、搜索引擎代理和 结果显示机制等基本的组成部分。 ( 1 ) 用户接口主要负责提供一个统一的查询接口和结果显示界面。 ( 2 ) 查询转发机制主要是负责将用户提交的查询请求转化为各个成员搜 索引擎能够识别的格式,并转发给各成员搜索引擎。 ( 3 ) 搜索代理是通过一定的成员搜索引擎调度算法选择本次用户查询中 要使用的成员搜索引擎,调度算法的选择直接关系到用户查询的准确率,好 的调度算法,可以根据用户的需要来选择与用户查询最相关的搜素引擎,这 样不仅可以节省搜索时间,还可以提高搜索的准确率。 ( 4 ) 结果显示机制是负责对成员搜索引擎返回的结果进行分析、去掉重 复结果,然后根据用户的需要对结果进行排序,再将处理后得到的结果集合 8 哈尔滨t 稗大学硕十学付论文 按一定格式返回给用户l - ”。 2 3 元搜索引擎分类 元搜索引擎存在很多种类,有的元搜索引擎对成员搜索引擎的调度方式 是串行的,而有些是并行的;有些元搜索引擎需要在客户端进行安装,而有 些可以直接在线使用。元搜索引擎可根据其成员引擎的调度方法、搜索机制 以及自身运行方式等的不同分为三类: ( 1 ) 按照对成员搜索引擎的采用的调度算法的不同,可分为串行元搜索 引擎和并行元搜索引擎。串行元搜索引擎是将查询请求依次提交给每个成员 搜索引擎,待一个成员搜索引擎返回搜索结果后,再将查询请求提交给另一 个成员搜索引擎,这种方法的优点是调度机制比较简单,但缺点是所需时间 比较长,等于所有成员搜索引擎的总查询时间。并行元搜索引擎是指同时对 各个成员搜索引擎提交查询请求,其所耗费的时间等于查询时间最长的成员 搜索引擎所用时间。这种方式的优点是节省了时间,但缺点是需要很大的网 络带宽来下载大量的搜索结果。 ( 2 ) 按照搜索机制的不同,可分为集中式元搜索引擎和多线索式元搜索 引擎。集中式元搜索引擎是指将多个独立搜索引擎罗列在页面上,并提供一 个公共的搜索接口,但实际上用户一次只进入一个独立的搜索引擎。它的特 点是每次只选择一个搜索引擎进行搜索,搜索界面比较简单,直接采用所选 择的成员搜索引擎的显示格式返回给用户。多线索式元搜索引擎是通过统一 的搜索界面,同时对多个成员搜索引擎进行搜索,并将搜索结果以一致的格 式返回给用户。这类元搜索引擎的主要特点是具有统一的搜索界面,可自动 的实现搜索语言的转换,并且将结果以集合的形式统一返回给用户。比较著 名的多线索式元搜索引擎有m e t ac r a w l e r 、s a v v ys e a r c h 、p r o f u s i o n 。 ( 3 ) 按照元搜索引擎的运行方式的不同,可分为桌面元搜索引擎和在线 元搜索引擎。桌面元搜索引擎是一种安装在用户计算机上的客户端软件,它 是一个包括多个成员搜索引擎的系统,用户可以选择自己需要的成员搜索引 9 哈尔滨t 稃大学硕十学f f z 论文 擎集合进行搜索,也可以添加自己需要的成员搜索引擎,桌面元搜索引擎还 提供去掉重复结果和排序的服务。在线元搜索引擎与独立搜索引擎类似,它 通过在线的方式调用其成员搜索引擎进行搜索工作n ”。 2 4 元搜索引擎关键技术 元搜索引擎的关键技术主要有两大方面,首先是成员搜索引擎的调度策 略,一个好的调度策略,可以通过分析了解用户的查询意图,选择更符合用 户查询需求的成员搜索引擎进行搜索,这样做不仅减轻了系统的负担,也节 省了搜索过程中所需的时间。目前主要的成员搜索引擎调度算法有定性的方 法、定量的方法和基于学习的方法。元搜索引擎的另一个关键技术就是结果 集成技术,结果集成的主要目的是去掉各成员搜索引擎返回的结果集合中重 复信息,并对返回的搜索结果按照用户的需求进行排序。目前主要的结果集 成算法有直接排序法、根据成员搜索引擎中的位置信息进行排序法以及相关 分值融合法。 、 目前采用的调度算法主要有三种类型:定性的方法、定量的方法和基于 学习的方法。首先,对于定性的方法,主要是通过特定的评分函数对某一特 定搜索预测每个成员搜索引擎的搜索性能,从而选择性能更好的搜索引擎进 行查询,这种方法缺点是所采用的评分函数一般较为复杂,且实际操作比较 困难;第二类是定量的方法,它主要是计算对于每次查询,各成员搜索引擎 数据库中的潜在有用文件的数量。第三类是基于学习的方法,这类方法是通 过对以前提交查询得到的搜索经验进行学习,以预测各个成员搜索引擎的数 据库信息对于新查询的有用程度n ”。以上三类方法都只是从算法的角度出发, 并没有考虑到对用户需求的分析,了解用户的查询关键词所属的主题类别, 这样可能会得到很多与用户搜索并不相关的结果,致使搜索效率不高。 在结果集成算法中,主要有直接排序法、位置信息排序法以及相关分值 融合法。直接排序法是将成员搜索引擎返回的结果集合在一起在进行选择的 一种方法,这种方法实现简单,但缺点很明显,只注重了提高搜索结果覆盖 强对搜索结果中的重复信息和无效链接的处理。这些冗余信息大量存在于各 成员搜索引擎的搜索结果中,给元搜索引擎的结果集合造成很大影响,应采 取一定的方法,去除这些无效信息,以提高搜索结果的质量。 ( 3 ) 元搜索引擎应从用户需求入手,为用户提供个性化的服务。为了使 元搜索引擎的优势更加明显,最重要的是深入了解用户需求,为不同用户提 供适合的个性化服务,以提高元搜索引擎的用户满意度。元搜索引擎除了为 用户的搜索提供统一的搜索界面之外,还可以根据用户的喜好让用户自己选 择查询中需要调用的成员搜索引擎,以及本次用户查询中涉及到的主题类别, 这样做,可以更好的提高搜索效果,也使用户感到元搜索引擎的便利性。 ( 4 ) 大力发展中文元搜索引擎。目前绝大多数著名的元搜索引擎均为外 文元搜索引擎,而中文元搜索引擎数量很少,且搜索效果差强人意,并没有 体现出元搜索的优势。我国对元搜索引擎的研究尚处于初级阶段,与国外的 元搜索引擎从搜索效率上来说还有很大的差距。所以应该重视元搜索引擎的 发展,挖掘元搜索引擎的潜力,集中更多的力量开发性能优异的中文元搜索 引擎系统,这对于我国的网络信息资源检索的发展有相当积极的作用。 2 5 本章小结 本章主要对元搜索引擎的相关知识进行介绍。首先阐述了元搜索引擎的 概念和产生意义,接着介绍元搜索引擎的工作原理及现有的元搜索引擎分类。 最后介绍元搜索实现中的两大关键技术:成员搜索引擎调度策略和结果集成 算法,通过介绍目前已有的相关技术,分析其中存在的不足,并给出本文的 研究目标。 哈尔滨t 程大学硕+ 学何论文 i i i i i 置宣i i i i i i i i i i i i i i 置i i i i 宣i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i 宣i 萱i | 第3 章基于主题的元搜索引擎模型研究 传统元搜索引擎系统模型仅包括用户接口界面、查询转发机制、搜索引 擎代理和结果显示机制这几部分,要提高元搜索引擎的查询效率,返回更符 合用户需求的搜索结果,本文提出了基于主题的元搜索引擎模型。 3 1 基于主题元搜索引擎模型 为了解决传统元搜索引擎仅考虑到信息搜索的广度,而忽略了信息搜索 的准确度,也就是搜索到更符合用户需求的查询结果,本文提出了基于主题 的元搜索引擎模型如图3 1 所示。 图3 1 基于主题的元搜索引擎模型 基于主题的元搜索引擎模型主要包括八个模块,分别是:用户输入输出 接口、用户输入分析模块、用户关注模型数据库、伪爬虫模块、网页摘要数 据库、特征值数据库、搜索结果集成模块以及成员搜索引擎集合。 哈尔滨丁稗大学硕十学位论文 3 1 1 模型的组成 基于主题的元搜索引擎模型从技术实现的角度来看主要包括两大关键技 术,分别为:成员搜索引擎调度策略和搜索结果集成策略。成员搜索引擎调 度策略的主要作用是调用与用户查询最相关的成员搜索引擎进行搜索,其实 现主要涉及到以下几个组成部分:用户关注模型、用户输入分析模块、伪爬 虫模块以及成员搜索引擎集合。搜索结果集成策略是对成员搜索引擎返回的 搜索结果去掉重复信息和无效链接,再对搜索结果进行排序,搜索结果集成 模块也是元搜索引擎实现的关键。 3 1 2 模型中模块功能划分 下面主要对模型中各模块的功能进行介绍。 1 用户输入输出接口 用户输入输出接口主要功能是接收用户输入的查询语句,并将最终排序 结果返回给用户。同时负责用户注册、输入用户关注的主题类别信息以及用 户登录。 2 用户输入分析模块 主要是为了对用户查询语句进行更好的分析,了解用户的查询意图,它 是基于用户关注模型来实现的。首先对用户输入的查询语句进行分析,提取 关键词;然后对关键词采用用户输入分析算法,将用户的查询关键词映射到 用户关注的主题类别,选择权值最高的主题类别作为本次查询的主题类别。 通过用户输入分析算法,可以大大降低语言的歧义性,使搜索更符合用户的 关注意图,提高了元搜索引擎的搜索准确率。 3 用户关注模型 用户关注模型主要是用来记录用户在搜索时关注的主题类别和主题关键 词,它可以对用户的搜索行为进行动态学习,存储并管理用户的相关信息, 记录用户的历史搜索行为及对搜索结果满意度的评价。用户关注模型是元搜 索引擎调度模型的重要组成部分,为系统对用户输入的查询语句进行分析提 供了重要依据,也是提高用户查询准确率的关键。 1 4 哈尔滨1 = 稃大学硕十学何论文 4 伪爬虫模块 这里的伪爬虫并不是普通搜索引擎中所使用的网络爬虫,它实现的功能 与网络爬虫有相似的地方,并实现传统元搜索引擎中的搜索代理的工作,故 又称为伪爬虫。伪爬虫在元搜索引擎初始化阶段,先调用各成员搜索引擎根 据主题类别中的关键词进行搜索,对返回的搜索结果提取网页文档的摘要, 并按主题类别进行分类存储,网页文档摘要主要通过提取各独立搜索引擎提 供的网页快照来实现的。然后计算网页文档摘要与各主题类别的相似度,此 方法将在3 4 2 节中介绍,并以此值来设定各个成员引擎关于某一主题的初始 搜索权值,在用户使用过程中,根据用户的搜索行为来对各成员搜索引擎主 题权值进行动态调整。在搜索时,根据对用户输入查询语句的分析,得出用 户搜索的主题类别,伪爬虫调用该类别中权重值高的成员搜索引擎进行搜索, 这样既保证了搜索信息的查全率,又节省了处理大量搜索结果浪费的时间, 提高了搜索的效率。另外,系统通过伪爬虫定期调用各成员引擎进行按主题 的搜索,以更新各成员搜索引擎的主题相似度权值。 5 网页摘要数据库 网页摘要数据库主要存放网页摘要,这些摘要由伪爬虫根据主题类别关 键词进行搜索后,抓取返回的搜索结果摘要,并将其按主题类别分类存储在 网页摘要数据库中。 6 特征值数据库 特征值数据库主要存放各成员搜索引擎关于各主题类别的相似度权值信 息以及系统对用户的行为进行动态学习得到的信息。用户行为信息主要指用 户对成员搜索引擎的评价,包括用户查看某成员搜索引擎返回的搜索结果的 比例,评价结果是否与查询语句相关,以及是否收藏或是保存了搜索结果。 7 搜索结果集成模块 搜索结果集成模块的主要功能是收集各成员搜索引擎返回的搜索结果, 去除搜索结果中的无效链接,消除搜索结果中的重复信息,最后根据基于主 题的元搜索引擎结果排序算法,对搜索结果进行处理后,按值由大n d , 的顺 序进行排列,并将排序后的结果返回给用户输入输出接口。 8 成员搜索引擎集合 哈尔滨t 程大学硕十学位论文 成员搜索引擎集合是元搜索引擎调度的成员搜索引擎,可以有通用搜索 引擎和专题搜索引擎。通用搜索引擎是指百度、谷歌、有道、雅虎、搜狗、 m s n 等搜索引擎,专题搜索引擎是指专门针对某一领域的搜索引擎,比如针 对医学领域的放心1 2 0 搜索等。 3 1 3 模型工作流程 基于主题的元搜索引擎模型的工作流程为:首先用户通过注册建立个人 用户关注模型;然后由用户输入输出接口接受用户的查询请求,通过用户输 入分析模块对用户输入的查询语句进行分析,了解用户的查询意图,得到用 户查询的主题类别,这是通过用户关注模型数据库中的信息来实现的;接着 通过伪爬虫调用该主题类别中具有较高权值的几个成员搜索引擎进行搜索, 成员搜索引擎的主题权值存储在特征值数据库中;收集得到的搜索结果,通 过搜索结果集成模块去掉搜索结果集合中的无效链接、重复结果,在将结果 进行排序后以一定的形式返回给用户。如图3 2 为系统模型工作流程图。 ( 开始 ) 上 i用户注册,输入关注主题类别建立用户关注模型 0 i 输入查询语句 i 对查询语句进行分词,通过用户输入分析算法将关键 l 词映射到主题类别 山 l 伪爬虫调用主题权值高的成员搜索引擎搜索 0 i 收集返回的搜索结果,通过结果集成算法进行处理 士 l 将结果以一定形式显示给用户 0 ( 结束 ) 图3 2 系统模型工作流程图 r 1 。1 。- _ _ _ _ _ _ _ _ _ _ _ _ _

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论