(计算机软件与理论专业论文)元搜索引擎中检索结果优化策略的研究.pdf_第1页
(计算机软件与理论专业论文)元搜索引擎中检索结果优化策略的研究.pdf_第2页
(计算机软件与理论专业论文)元搜索引擎中检索结果优化策略的研究.pdf_第3页
(计算机软件与理论专业论文)元搜索引擎中检索结果优化策略的研究.pdf_第4页
(计算机软件与理论专业论文)元搜索引擎中检索结果优化策略的研究.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

螂煳掣必 fy 17 3 8 d 爸。芗。 广西大学学位论文原创性声明和学位论文使用授权说明 学位论文原创性声明 本人声明:所呈交的学位论文是在导师指导下完成的,研究工作所取得的成果和相 关知识产权属广西大学所有。除已注明部分外,论文中不包含其他人已经发表过的研究 成果,也不包含本人为获得其它学位而使用过的内容。对本文的研究工作提供过重要帮 助的个人和集体,均已在论文中明确说明并致谢。 门, 论文作者签名: j 轰i ,3 、j f :j o 年多月2 日 学位论文使用授权说明 本人完全了解广西大学关于收集、保存、使用学位论文的规定,即: 本人保证不以其它单位为第一署名单位发表或使用本论文的研究内容; 按照学校要求提交学位论文的印刷本和电子版本; 学校有权保存学位论文的印刷本和电子版,并提供目录检索与阅览服务; 学校可以采用影印、缩印、数字化或其它复制手段保存论文; 在不以赢利为目的的前提下,学校可以公布论文的部分或全部内容。 请选择发布时间: 口即时发布口解密后发布 ( 保密论文需注明,并在解密后遵守此规定) 论文作者签名:闻j 卜孕, 导师签名: 、ji - g 月形嵋 元搜索引擎中检索结果优化策略的研究 摘要 近年来,随着网络的大量普及以及各种技术的快速发展,互联网上的 信息呈爆炸性增长。人们要在网上快速查找自己想要的资料越来越困难, 搜索引擎的出现为解决这一难题提供了方便。 然而,独立搜索引擎所覆盖的信息面相对来说,还不够宽。随着网络 的迅猛发展,独立搜索引擎越来越显得力不从心。为了改变这一状态,元 搜索引擎伴随着人们的需要就产生了。元搜索引擎所覆盖的信息范围相对 而言比较广,在一定范围内能提高了检索结果的查全率以及准确性。它吸 引着人们的浓厚研究兴趣,成为信息检索研究的热点之一。而由于元搜索 引擎所选取的各成员搜索引擎在检索方式、排序算法等方面采用不同的方 法,这就造成了在对返回结果进行相关处理时比较困难,所以它也是信息 检索研究的难点之一。本文在深入研究元搜索引擎的相关技术基础上,提 出了基于用户偏好的摘要位置的结果排序算法和基于网页正文主题和摘 要的网页去重算法。 首先,简述了元搜索引擎的运作原理和分类,研究了元搜索引擎的核 心技术,并阐述了它的不足以及未来发展趋势。 其次,在深入研究元搜索引擎返回结果常用排序算法的基础上,提出 了一种改进的基于用户偏好的摘要位置排序算法。该算法不仅能体现出查 询词与主题、摘要的相关度,而且能体现出用户对成员搜索引擎的偏好。 i 实验表明,该算法具有明显的优势,更能满足用户的个性需求。 再次,利用模糊匹配的思想,引入分词,提出一种基于网页正文主题 和摘要的网页去重算法。该算法首先对各成员搜索引擎返回来的网页标题 进行有关处理,提取出网页的主题信息,然后对主题、摘要进行分词,再 分别计算主题、摘要的相似度。二者结合能更好地体现出文章摘要的内容, 实现网页去重。实验表明,在网页去重方面,比起基于传统特征码的去重 算法,该算法具有明显的优势,更接近人工统计结果。 最后,设计出整个元搜索引擎系统,验证算法的有效性。 关键词:元搜索引擎成员搜索引擎结果排序网页去重 l i r e s e a r c ho ns e a r c hr e s u l t so p t i m i z a t i o n s t r a t e g yo fm e t as e a r c he n g i n e a b s t r a c t i nr e c e n ty e a r s ,w i t ht h ei n c r e a s i n gp o p u l a r i t yo ft h en e t w o r k , a sw e l l a st h er a p i dd e v e l o p m e n to fv a r i o u st e c h n o l o g i e s ,t h u st h ei n f o r m a t i o ni si n e x p l o s i v eg r o w t ho nt h ei n t e r n e t i tb e c o m e sm o r e a n dm o r ed i f f i c u l tw h e n p e o p l ew a n tt of i n dt h ei n f o r m a t i o ni n t h ew e b ,b u tt h ea p p e a r a n c eo f s e a r c he n g i n e st os o l v et h i sp r o b l e m h o w e v e r , f o rt h ei n d e p e n d e n ts e a r c he n g i n e ,t h ei n f o r m a t i o nc o v e r e d s u r f a c ei sr e l a t i v e l ys p e a k i n g ,r a t h e rn a r r o w w i t ht h er a p i dd e v e l o p m e n to f n e t w o r k , t h ei n d e p e n d e n ts e a r c he n g i n eb e c o m e sl e s s a n dp o w e r l e s s t o c h a n g et h i ss t a t e ,t h em e t as e a r c he n g i n ea p p e a r s m e t as e a r c he n g i n ec a n c o v e rab r o a d e rs c o p eo fi n f o r m a t i o n ,i nac e r t a i nr a n g ec a ni m p r o v et h e r e t r i e v a lr e s u l t so ft h er e c a l lr a t ea n da c c u r a c y i ta t t r a c t sp e o p l e ss t r o n g i n t e r e s ti nt h es t u d y , ar e s e a r c hh o t s p o ti ni n f o r m a t i o nr e t r i e v a l b e c a u s e m e m b e r so ft h es e a r c he n g i n ew h i c ht h em e t as e a r c he n g i n es e l e c t e du s e d i f f e r e n tm e t h o d si nr e t r i e v a lm e t h o d sa n ds o r t i n ga l g o r i t h m ,s oi ti sv e r y d i f f i c u l tt od e a lr e s u l t e di nt h er e t u r nr e s u l t s ,a n di t i sa l s oo n eo ft h ed i f f - i c u l t i e so fi n f o r m a t i o nr e t r i e v a l i nd e p t hs t u d yo fr e l a t e dt e c h n o l o g i e so f l l i m e t as e a r c he n g i n e ,t h i sp a p e rp r o p o s e sb a s e do nu s e rp r e f e r e n c e s s u m m a - r y p o s i t i o no ft h er e s u l t ss o r t i n ga l g o r i t h ma n d b a s e do nw e b - t h e m e sa n d s u m m a r yo ft h ed u p l i c a t e dw e b p a g e sd e l e t i o na l g o r i t h m f i r s t ,t h ew o r k i n gt h e o r yo ft h em e t as e a r c he n g i n ei s i n t r o d u c e d s i m p l y a n d t h e ns o m ec o r et e c h n o l o g i e so fm e t as e a r c he n g i n e a r e r e s e a r c h e d a n di t sl i m i t a t i o n sa n df u t u r et r e n d sa r ei n t r o d u c e d s e c o n d ,i nd e p t hs t u d yo fp o p u l a r m e t as e a r c he n g i n er a n k i n g a l g o r i t h mt o r e t u r nr e s u l t s ,b a s e do nu s e rp r e f e r e n c e s i m p r o v e m e n t s s u m m a r y p o s i t i o no ft h er e s u l t ss o r t i n ga l g o r i t h m i s p r o p o s e d t h e a l g o r i t h mc a nn o to n l yr e f l e c tt h eq u e r yw o r d sa n dt o p i c 、s u m m a r y o ft h e r e l e v a n c e ,b u ta l s or e f l e c tt h eu s e r sp r e f e r e n c e s e x p e r i m e n t ss h o wt h a tt h e a l g o r i t h mh a so b v i o u sa d v a n t a g e s ,b e t t e r m e e tt h ei n d i v i d u a ln e e d so f u s e r s t h i r d ,a na l g o r i t h mo fd u p l i c a t e dw e b p a g e sd e t e c t i o nb a s e do na c o m b i n e dd u p l i c a t i o nd e t e c t i o no ft h et i t l ea n ds u m m a r yo fw e bp a g ei s p r o p o s e d ,f i r s t ,t h ea l g o r i t h md e a l sw i t ht h ep a g et i t l ew h i c hs i n g l es e a r c h e n g i n e sr e t u r n ;s e c o n d ,e x t r a c t st h e m a t i ci n f o r m a t i o no fp a g e ,a n dt h e n c a r r i e so u tw o r ds e g m e n t a t i o no nt h es u m m a r y ;f i n a l l y , c a l c u l a t e st h e s i m i l a r i t y ac o m b i n a t i o no fb o t hc a nb e t t e rt or e f l e c tt h ec o n t e n t so ft h e a r t i c l es u m m a r y , r e a l i z et od e t e c t i o na n de l i m i n a t i o no fd u p l i c a t e dw e b p a g e s e x p e r i m e n t a lr e s u l t ss h o wt h a ti nt h ea s p e c t so fd u p l i c a t e dw e b p a g e s d e l e t i o n ,t h ea l g o r i t h m h a so b v i o u sa d v a n t a g e st o c o m p a r e dw i t h t h e i v t r a d i t i o n a ls i g n a t u r e - b a s e da l g o r i t h m ,i sc l o s e rt oa r t i f i c i a lr e s u l t s t h ee n d ,d e s i g nam e t as e a r c he n g i n es y s t e ma n dv e r i f i c a t et h e e f f e c t i v e n e s so fa l g o r i t h m k e yw o r d s :m e t as e a r c he n g i n e ;s i n g l es e a r c he n g i n e ; r e s u l tr a n k i n g ; d u p l i c a t e dw e b p a g e sd e l e t i o n ; v 目录 摘要。i l 】 i s t r a c t i i i 第一章绪言1 1 1 研究的背景及意义1 1 1 1 研究的背景1 1 1 2 研究的意义1 1 2 本课题的主要内容和组织结构2 1 2 1 研究的主要内容2 1 2 2 本文的创新点2 1 2 3 本文的组织结构2 1 3 本章小结3 第二章元搜索引擎相关的知识。4 2 1 元搜索引擎的概念及工作原理4 2 1 1 元搜索引擎的概念4 2 1 2 元搜索引擎的工作原理4 2 2 元搜索引擎的分类。5 2 3 元搜索引擎的关键技术。6 2 3 1成员搜索引擎的选择。6 2 3 2 检索结果的优化7 2 3 2 1 检索结果的排序7 2 3 2 2 检索结果的去重8 2 4 元搜索引擎的不足8 2 5 元搜索引擎的发展趋势9 2 6 本章小结1 0 第三章元搜索引擎结果排序研究1 1 3 1 常见排序方法的研究1 1 3 2 基于用户偏好的摘要位置排序方法1 3 3 2 1 相关定义13 3 2 2 建立用户偏好模型1 3 3 2 3 设计结果排序函数1 3 3 2 3 1 计算检索结果跟用户查询串的相关度1 4 3 2 3 2 计算检索结果跟成员搜索引擎返回结果列表的相关度1 5 3 2 3 3 计算用户跟成员搜索引擎的偏好度1 5 3 2 3 4 检索结果相关度的计算1 6 3 3 实验及分析17 3 3 1 查准率的比较17 3 3 2 结果排序时间的比较18 3 4 本章小结1 9 v i 第四章元搜索引擎结果去重研究2 0 4 1 常用去重算法的研究2 0 4 2 基于网页正文主题和摘要的去重算法2 1 4 2 1 提取网页正文主题2 1 4 2 2 设计网页相似度评价函数2 2 4 2 3 网页相似度的计算2 2 4 3 实验及分析2 3 4 3 1 去重效果比较2 3 4 3 2 去重的正确率和召回率比较2 4 4 3 3 去重时间效率比较2 4 4 4 本章小结2 5 第五章相关模块的设计2 6 5 1 概述。2 6 5 2 整个系统的设计及实现2 7 5 2 1 用户接口模块的设计2 7 5 2 2 查询模块的设计2 8 5 2 3 结果处理模块的设计2 9 5 2 4 结果输出模块的设计。3 0 5 3 实验及分析。3 l 5 3 1 查准率的比较3 1 5 3 2 系统的响应时间。3 2 5 4 本章小结3 4 第六章结论与展望。3 5 6 1 结论。3 5 6 2 今后工作的展望3 5 参考文献3 7 j 变谢4 0 攻读硕士学位期间发表论文情况。4 2 攻读硕士学位期间参加的科研项目。4 2 v l i 广西大掌硕士掌位论文元搜索5 i 擎中检索结果优化策略的研究 1 1 研究的背景及意义 第一章绪言 1 1 1 研究的背景 随着各种技术的迅猛发展以及互联网的大量普及,互联网上各种信息的数量呈现大 幅度增加。据中国互联网信息中心n 1 的最新调查报告,截至2 0 0 8 年底,中国网页总数超 过1 6 0 亿个。每周网络上大约有8 的新网页出现,网页的更新率超过了1 5 ,以及增加 的新链接达2 5 左右 2 1 。互联网上的信息资源越来越来丰富,规模越来越庞大。在当今 信息化的时代,我们要想在这么庞大的信息海洋里查找自己需要的信息,如果没有搜索 引擎的帮助,不难想象出是怎样的结果。所以在浩瀚的互联网资源里查找需要的资料, 光靠人工查找是不可能实现的,必须借助于搜索引擎。搜索引擎的出现为人们在信息的 海洋里查找所需的资料提供了方便,它逐渐成为人们日常生活当中必不可少的检索工具 之一。但是,要想任何一个独立搜索引擎完全覆盖整个互联网上的信息是绝对不可能的。 据统计嘲,国内外一些著名搜索引擎的信息覆盖率最高不超过3 0 ,而且同一检索请求 在不同搜索引擎中的检索结果的重复率不超过3 4 。所以用户要想得到一个相对完整、 权威的结果就不得不在多个独立搜索引擎中辗转,这样既加重了用户的负担,又浪费了 用户的时间和精力。从而元搜索引擎的出现就很有必要了。 通常情况下,搜索引擎往往返回的结果数量非常庞大,用户从成千上万项的检索结 果中筛选出自己所真正需要的资料要花费大量的时间和精力,而人的耐心是有限度的, 几乎不可能有人会对搜索引擎返回的数百万个检索结果链接从头到尾一一浏览。搜索引 擎营销公司i p r o s p e c t h 3 - 于2 0 0 6 年1 月对搜索引擎用户行为和态度进行了调查,该公司以网 络作为调查工具,搜集2 3 6 9 样本,研究结果显示只有1 0 的用户会查看三页之后的站点, 3 9 的用户只查看第一页结果,并且比例在近四年内是提高的。由此可见,前三页搜索 结果的准确与否决定了一个搜索引擎的成败。所以如何对返回结果进行合理处理并将与 用户查找最相关的结果排在前面是非常重要的。它是元搜索引擎最核心的部分,也是难 点之一,一个元搜索引擎的性能很大程度上是由这一部分决定的。由于每个搜索引擎检 索的标准、排序算法以及采用的数据库各不相同,那么如何将所有成员搜索引擎的反馈 结果整合成一个统一的结果列表,客观地综合参考各搜索引擎的相关性评价,在最后结 果中准确地体现相关性和重要性,是非常复杂的,也是很值得研究的问题。 1 1 2 研究的意义 与传统的搜索引擎相比,元搜索引擎可以集合多个独立搜索引擎的检索结果,所覆 盖的信息范围比较广,提高了查全率,也在一定范围内提高了检索结果的查准性,但是 广西大掌司e 士掌位论文元搜索3 i 擎中检索结果优化策略的研究 它返回的结果太多,而且存在大量重复的网页,这样非常不利于用户进行快速、准确地 定位自己所需要的资料。针对这些情况,本文的目的是对多个成员搜索引擎返回的结果 进行去重处理,消除那些重复或相似网页,再根据改进后的结果排序算法对去重后的结 果进行重排序,使得相关度高、质量好的网页排在最前面,有利于用户快速、准确地找 到所需资料,从而节约用户时间和精力。 元搜索引擎能有效地弥补独立搜索引擎信息覆盖率不够宽这一不足。本文对元搜索 引擎的搜索结果进行重新排序和去重等处理,那么在提高查全率的同时也提高了检索的 查准率,也为用户赢得了时间和精力。对现有的排序算法和去重算法进行深入研究分析, 并提出相应的改进算法,开展这一领域的工作对元搜索引擎的研究具有一定的理论价值 和实际意义。 1 2 本课题的主要内容和组织结构 1 2 1 研究的主要内容 对成员搜索引擎返回的结果进行重排序和去除重复网页是元搜索引擎的关键技术, 也是该研究领域的热点和难点,所以本文研究的主要内容有: ( 1 ) 研究和分析现有的元搜索引擎搜索结果的排序算法,提出一种改进的基于用户偏 好的摘要位置排序算法,使得重新排序后提交给用户的前1 0 0 个搜索结果的准确率有 所提高,并能进一步体现出用户的兴趣爱好。 ( 2 ) 研究和分析现有网页去重技术,获得重复率数据,并提出一种基于网页正文主题 和摘要的网页去重算法,以达到对前1 0 0 个搜索结果的消重率有所提高。 ( 3 ) 设计和实现相应的系统,验证消重算法、排序算法的有效性。 1 2 2 本文的创新点 本文的创新点有: ( 1 ) 传统的结果排序算法虽考虑了查询词跟返回结果的摘要的局部相关度,但未 能友好的表达出用户的爱好以及兴趣所在,所以本文提出了一种改进的基于用户偏好的 摘要位置排序算法。 ( 2 ) 为了更好地体现出网页摘要的内容信息,达到去除重复或相似网页的目的, 本文借鉴模糊匹配的思想,提出了一种基于网页正文主题和摘要的网页去重算法。 1 2 3 本文的组织结构 元搜索引擎是当今信息检索中研究内容的热点之一,对它进行应用研究具有理论价 值和现实意义。本文阐述了元搜索引擎的基本知识,研究了元搜索引擎中最重要的技术 结果排序和网页去重,提出了比较有效的排序算法和去重算法。 2 广西大掌硕士学位论文 元搜索引擎中检索结- j r - 优化策略的研究 本文的组织结构如下: 第一章绪言 首先介绍了元搜索引擎的研究背景以及意义,然后分析了元搜索引擎的研究现状, 最后是论文的研究主要内容、创新点以及组织结构。 第二章元搜索引擎相关的知识 首先给出了元搜索引擎的概念,然后对元搜索引擎的原理、分类以及关键技术进行 详细地研究,最后阐述了元搜索引擎的发展趋势。 第三章元搜索引擎结果排序研究 首先对常用的结果排序算法进行了分析、比较,考虑到用户对成员搜索引擎的偏好, 最后提出一种改进的基于用户偏好的摘要位置排序算法。实验表明,该结果排序算法能 比较好的将与用户查询意图相关的结果排在返回结果的最前面,不仅满足了用户的需 求,而且提高了查准率。 第四章元搜索引擎结果去重研究 首先对常用的网页去重算法进行了分析、比较,借鉴模糊匹配的思想,提出了一种 基于网页正文主题和摘要的网页去重算法。实验表明,与基于传统特征码的去重算法相 比,它具有明显的优势,更接近人工统计结果。 第五章相关模块的设计 我们对整个元搜索引擎系统进行了设计,并开发出相应的系统,验证了排序算法、 去重算法的有效性。 第六章结论与展望 概括性地总结了本文的研究工作,并对今后的进一步工作进行了展望。 1 3 本章小结 本章主要阐述了本课题研究的背景、研究的目的和意义,介绍了本文研究的主要内 容、创新点以及组织结构。 广西大掌硕士掌位论文元搜索3 i 擎中检索结果优化策略的研究 第二章元搜索引擎相关的知识 本章首先介绍元搜索引擎的概念、工作原理,其次分析了元搜索引擎的分类以及关 键技术,最后对元搜索引擎的发展趋势进行了阐述。 2 1 元搜索引擎的概念及工作原理 2 1 1 元搜索引擎的概念 为了更好的理解什么是元搜索引擎,我们先了解独立搜索引擎的定义。独立搜索引 擎【5 】是按照一定的策略通过网络蜘蛛( s p i d e r ) 从互联网上采集网页,并对收集的网页进 行处理,建立索引数据库。当用户提交查询请求后,搜索引擎就从索引数据库中查找对 应的信息返回给用户。所以一般独立搜索引擎主要由网络蜘蛛、索引与搜索引擎软件等 部分组成。而元搜索引擎( m e t as e 绷he n 西n e ,简称m s e ) 是构建在多个独立搜索引擎 之上的搜索引擎,它通过调用其它独立搜索引擎从而达到检索的目的。元搜索引擎所调 用的独立搜索引擎我们称之为成员搜索引擎s s e 。成员搜索引擎的个数可以由用户选 择,也可以由系统所设定。从某种意义上来讲,元搜索引擎实际上并不是一个真正的搜 索引擎,并没有自己的网页数据库,更像一个信息聚集器。它只是向用户提供了一个统 一的查询接口,通过对各个成员搜索引擎所返回的结果进行去重和重排序等处理后,以 统一的方式将处理后的结果返回给用户。 元搜索引擎也称为搜索引擎之上的搜索引擎,它没有自己的数据库,而是一个同时 对多个独立搜索引擎进行检索的工具。它将用户的查询请求转化为多个独立搜索引擎的 检索请求,然后同时在多个独立搜索引擎上进行检索,并将结果进行处理,最后将结果 返回给用户。当前的元搜索引擎为了能更快地响应用户,引擎内部往往会在本地进行缓 冲和存储。在检索结果进行排列方面,有的未加任何处理,直接将各个成员搜索引擎检 索结果返回给用户,有的会对检索结果经过综合计算后重新排序,作为自己的结果返回 给用户。由于前者未加任何处理,所以只是提高了查询的查全率,而不能提高查准率; 而后者在提高查全率的同时,在一定程度上也提高了查准率。目前比较常用的元搜索引 擎有万维搜索引擎、m e t a c r a w l e r 、幽s p a e e 等。 2 1 2 元搜索引擎的工作原理 元搜索引擎跟独立搜索引擎最大的区别在于它没有自己的爬虫( r o b o t ) ,不需要自 己采集网页,也不需要维护庞大的索引数据库,而是提供某些接口去调用多个独立的搜 索引擎。当用户在输入框中输入某一查询词并向元搜索引擎发出查询请求时,元搜索引 擎就将用户的查询请求转化为各成员搜索引擎能够接受的格式,成员搜索引擎接到查询 请求后进行检索并将检索结果返回给元搜索引擎,然后元搜索引擎将这些成员搜索引擎 4 2 - 1 。 目 元搜索引擎的工作原理 ,一。由, 剖u 刚墩终绡果按统的格式分页的返回给用户。 广西大学硕士掌位论文 元搜索暑i 擎中检索结果优化策_ 备的研究 ( 2 ) 桌面型元搜索引擎 具有代表性的桌面元搜索引擎有b e e l i n e 、s e a r c h w o l f 和飓风搜索通等。桌面型元 搜索引擎运行在用户的电脑上,用户通过调用程序的方式来运行它。由用户端直接把检 索请求发送给所调用的搜索引擎,然后对返回的查询结果进行处理后以一定的方式显示 出来陆1 。用户可以按照自己的偏好自由选择一个或多个成员搜索引擎,甚至可以自己增 加新的成员搜索引擎。在检索结果处理方面,桌面型元搜索引擎提供了相关的优化处理 功能,比如用户自己定义结果排序方式( 如可选择按更新时间或相关度等进行结果排 序) 、去除相同记录等功能。 ( 3 ) 基于w e b 的元搜索引擎 在各种元搜索引擎中,基于w e b 的元搜索引擎是应用得最为广泛的。具有代表性 的有:m e t a c r a w k e r 、i x q u i c k 以及国内的万纬搜索等。它以w e b 方式提供搜索服务,请 求提交代理、检索接口代理和结果显示代理都存放在元搜索引擎所在的服务器端【6 】。服 务器端的请求提交代理和检索接口代理负责将用户的检索请求分别发送到各个成员搜 索引擎,然后由服务器端的结果显示代理将各个成员搜索引擎返回的检索结果进行相关 处理后再返回给用户。 2 3 元搜索引擎的关键技术 前面已经介绍过元搜索引擎不需要采集网页,也不需要维护庞大的数据库,所以精 力主要放在如何提高搜索速度、优化检索结果等方面,特别是在对返回结果的处理方面。 下面将详细地介绍成员搜索引擎的选择以及对检索结果的优化处理。 2 3 1 成员搜索引擎的选择 元搜索引擎所选取的成员搜索引擎的好坏直接影响到它的查询效率和性能,所以如 何选择成员搜索引擎也是元搜索引擎中一个比较重要的知识点。一般来讲,元搜索引擎 所选取的成员搜索引擎应该是质量比较高、相对稳定、响应速度比较快,或者至少在某 方面应该具有一定的优势。我们首先要对每个独立搜索引擎的情况有比较清楚的了解, 才可能合理、准确的选择成员搜索引擎,比如说在响应速度、更新周期、检索效率等反 面。一般而言,成员搜索引擎应具备这三个优点h 1 :一是能比较准确的检索到信息,相 关度比较高:二是系统响应速度比较快。由于元搜索引擎要收集多个成员搜索引擎的查 询结果,所以只有当每个成员搜索引擎的响应速度都比较快的时候,元搜索引擎的响应 速度才可能比较快;三是检索结果简洁并具有某一特点,方便进行h t m l 源码的分析与 剥离。 目前,在选择成员搜索引擎时可以有多种多样的方法,概括起来说,可以分为以下 几种: 6 元搜索引擎中检索结果优化策略的研究 1 、一般的方法 这种方法又可以分为基于系统自动选择成员搜索引擎和允许用户自由选择成员搜 索引擎。基于系统自动选择成员搜索引擎的元搜索引擎要自动评价各个成员搜索引擎的 性能效率,然后在此基础上由系统决定选择比较合适的成员搜索引擎阻1 。这种元搜索引 擎工作过程相对简单,但它不能很好体现出用户的真实想法,往往将很多与用户查询相 关度不高的结果返回给用户,造成查准率不高,未能充分满足用户的查询需求。允许用 户自由选择成员搜索引擎的元搜索引擎提供了用户选项部分,从而用户能根据自己的偏 好设定自己想使用的资源、检索范围以及结果排序策略等,还能够随时更改用户选项以 便设定搜索引擎的检索方法。这种方法能体现出用户的意图,比较人性化。 2 、基于学习的方法 这种方法是通过一段时间内对用户所提交的检索关键词中得到的检索经验来猜测 用户的爱好兴趣、经常浏览哪些范围的内容等,从而为用户选择最适合的成员搜索引擎, 以便提高用户满意度以及检索的效率。它能很好的表达出用户的真实想法,有助于提高 查询的准确率。 目前,元搜索引擎在选择成员搜索引擎时最常见的方法是选择几个最常用、检索效 率比较好、响应速度快的独立搜索引擎作为成员搜索引擎,比如谷歌、百度、雅虎等。 不过也有的元搜索引擎允许用户在给定的几个成员搜索引擎中选择自己喜欢的搜索引 擎。这种方法比较灵活,用户有自主权,但是一般的用户并不是很了解哪些搜索引擎在 哪些方面具有优势、哪些搜索引擎具有同样的网页数据库等,所以在真正搜索信息的时 候,可能会出现检索效率低的情况。最好的解决方法就是,在为各种类型的检索分别提 供一个最适合的、默认的搜索引擎集合的基础上,允许用户有自由选择的权利。 在选择成员搜索引擎时还应该注意的问题是搜索引擎是否采用独立的数据库,不要 将采用相同技术和网页数据库的搜索引擎放在一起。比如:搜狐和新浪采用百度的搜索 技术和网页数据库n 1 ,雅虎中国和网易采用谷歌的搜索技术。要是我们将采用相同搜索 技术的搜索引擎同时选为成员搜索引擎的话,理论上是分别在两个搜索引擎中进行检 索,而实际上是在同一个搜索引擎中对相同查询词进行了两次查询。这样重复检索不仅 没有提高效率,还白做工了,因为它们检索出来的结果是一样的。这显然不合适的。 2 3 2 检索结果的优化 元搜索引擎最核心的部分就是对返回结果进行消重、重排序等处理。从某种意义 上来说,一个元搜索引擎的优劣最根本是由消重和排序算法所决定,它直接影响到整个 系统的工作时间,还决定着整个系统的查准率。 2 3 2 1 检索结果的排序 元搜索引擎结果排序曲3 是指收集多个成员搜索引擎所返回的检索结果,然后按照一 定的结果排序算法对结果进行重新排序,最后将排序后的结果按一定的方式返回给用户 7 广西大学硕士掌位论文 元搜索引擎中检索结果优化策略的研究 的过程。在对检索结果进行排序的过程中,元搜索引擎可以充分利用成员搜索引擎所返 回的网页标题、内容摘要等内容。 由于在第三章中,我们会详细地介绍目前元搜索引擎中常用到的结果排序算法,所 以在此不再介绍。 2 3 2 2 检索结果的去重 网页消重【1 0 】是指去除所搜集网页集合中主题内容重复或大部分相同的网页。由于互 联网上的信息经常被互相转载,所以在各成员搜索引擎返回的结果中不可避免地会出现 大量重复网页。重复网页的存在不仅加重了用户的负担,而且降低了索引效率,直接影 响到元搜索引擎的质量。因此,准确、快速的去除重复网页是提高元搜索引擎质量的关 键技术之一。 目前,大多数的元搜索引擎在网页去重方面,基本上都是基于网页摘要相似度来进 行去重。虽然相似度算法不尽相同,但基本原理是差不多的。文献【1 1 】利用返回结果 中每个网页的地址、标题、摘要作为判断网页重复性分析的依据,提取出摘要特征串, 并利用模糊匹配的思想对摘要进行相似度计算。文献【1 2 提出了摘要和标题相结合的 去重算法。文献【1 3 】提出基于搜索结果摘要语句相似度的结果消重算法。它通过计算 摘要的语句向量模型中向量的相似度判断结果对应的网页是够属于同一个内容的不同 转载网页或同一个网页,从而达到消重的目的。 2 4 元搜索引擎的不足 成员搜索引擎和元搜索引擎本身的技术都对元搜索引擎的性能有很大的影响:一方 面,成员搜索引擎所具有的某些强大的功能在元搜索引擎中会受到制约而不能完全地表 现出来,另一方面,无论哪种元搜索引擎技术都不能完全调用成员搜索引擎的所有功能。 所以,元搜索引擎在拥有自身优势的同时,还存在着某些不足与局限。它的局限性主要 表现在以下几方面【,j 。 ( 1 ) 成员搜索引擎的数量受限制 一般来说,元搜索引擎调用的成员搜索引擎的数量非常有限,通常只是调用几个 比较常见的搜索引擎,比如g o o g l e 、百度、a l t a v i s a 等。虽然有些元搜索引擎可以让用 户自由选择成员搜索引擎,但其所提供的搜索引擎最多也不会超过十个。因为它提供的 成员搜索引擎越多,在处理结果的时候就要花费更多的时间,加重了它的负担,同时也 会增加用户查询的等待时间。 ( 2 ) 检索请求受到限制 前面讲过,元搜索引擎需要将用户的查询请求转化为每个成员搜索引擎能够识别的 格式,那么它就必须考虑到所有成员搜索引擎的检索语法,所以很多的高级查询语法不 能在元搜索引擎中使用,只能使用一些比较简单的语法。 8 元搜索引擎中检索结果优化策略的研究 ( 3 ) 检索结果数量有限 现在互联网上资源越来越丰富,在检索时,独立搜索引擎返回的结果通常有成千 上万条,而元搜索引擎是对多个独立搜索引擎进行调用,为了提高检索的效率,它需要 对所有成员搜索引擎的返回结果进行去重和重排序等优化处理,而我们要考虑到系统运 行的响应速度以及效率,所以大部分的元搜索引擎只对各成员搜索引擎返回的前几十条 检索结果进行处理,这样虽然可以减少检索时间,但却是以牺牲信息的覆盖率为代价。 ( 4 ) 检索结果排序的局限性 每个搜索引擎都有自己独特的地方,它们在使用的索引方法和相似度评价等方面有 很多的不同,而且很多搜索引擎对于这些关键技术是保密的,所以元搜索引擎的设计者 不知道这些成员搜索引擎的关键技术的细节,这就造成了在处理结果的时候不能找到一 种合适的算法对其进行很好地排序。 2 5 元搜索引擎的发展趋势 对于元搜索引擎来说,最关键的问题就是查询前的预处理和对返回结果的优化处 理。近年来,元搜索引擎逐渐往专业化、个性化、智能化等方面发展,这不仅符合人们 的需求,也是元搜索引擎未来发展的趋势【7 1 。 ( 1 ) 专业化 专业化元搜索引擎只是针对某一领域进行搜索,所以能够比一般的元搜索引擎挖得 更深更具体,而且检索负担也小得很多,符合元搜索引擎的发展方向。比如某些用户可 能只想查询某些专业方面的资料,那么他可以选择专业搜索引擎来进行查找,这样的话, 他所找到的资料就比较准确,花的时间也比较少点,因为专业搜索引擎所面对的只是某 个领域的,并不针对整个网络资源。由于有不同的需要,现在已经有很多不同的专业元 搜索引擎,比如有针对新闻、教育、娱乐等方面的元搜索引擎。 ( 2 ) 个性化 现在的元搜索引擎逐渐往个性化方向发展,在输入方面,使用自然语言输入,不 仅便于用户的使用,而且与用户的查询需求更接近,有利于提高检索的精确度。在返回 结果方面,可以充分考虑用户的年龄、职业、地域等方面的差异给出相应的检索结果, 这样就能很好的发挥预处理和查询结果集成方面的能力,将个性化的搜索结果返回给用 户。 , ( 3 ) 智能化 通过不断学习来推断用户的爱好、兴趣以及检索习惯之后,元搜索引擎可以自动选 取合适的成员搜索引擎达到有效搜索的目的。另外,在输入方面,可采用视频、声音、 图像等其它方式的输入查询,实现智能化的查询转换功能,从而取到预想的效果。现在 的搜索引擎正在逐步地向智能化发展,越来越体现出智能化的一面。 9 广西大掌硕士掌位论文元搜索5 i 擎中检索结果优化策略的研究 2 6 本章小结 本章介绍了元搜索的概念、工作原理,分析了元搜索的分类以及关键技术,最后对 元搜索的不足和发展趋势进行了阐述。 1 0 广西大掌硕士学位论文元搜索引擎中检索结果优化策略的研究 第三章元搜索引擎结果排序研究 由于元搜索引擎返回的结果比较庞大,而用户又没有足够的耐心去看完所有的网 页,他们一般只会查看前几页的信息,所以如何将最有用的信息尽可能地排在前面是一 件非常重要的事情。它直接影响到元搜索引擎的检索效率,同时也反映出用户对元搜索 引擎的满意度。 本章,我们提出了一种改进的摘要位置结果排序算法,并通过实验对算法进行有 效性验证。该算法在充分利用传统结果排序算法优点的基础上,考虑了用户对不同搜索 引擎的偏好以及对特定信息的关注。该算法具有人性化的一面,更能满足用户的个性化 需求,能进一步提高检索的查准率。 3 1 常见排序方法的研究 由于各成员搜索引擎在建立索引、相关度分析、排序算法等方面所采用的方法各不 相同,所以元搜索引擎在对返回的检索结果进行排序时可以采用各种各样地方法。 ( 1 ) 简单合并法 这种排序方法非常简单,它没有对检索结果进行任何处理,只是把成员搜索引擎检 索的结果简单地叠加在一起,然后返回给用户。它只是提高了查全率,并没有提高用户 的满意度,一些重要的信息可能会排在比较靠后的位置,而没被用户发现。 这种排序方法可分为直接合并法和轮询法。直接合并法是元搜索引

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论