一种元搜索引擎的查询结果处理模型.doc

上传人：清*** IP属地：河南上传时间：2020-04-15 格式：DOC 页数：6 大小：301KB 积分：12 举报 版权申诉

已阅读5页，还剩1页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

19 一种元搜索引擎的查询结果处理模型一种元搜索引擎的查询结果处理模型摘要为改进元搜索引擎查询速度慢独立性差的缺点本文设计了一个元搜索引擎的结果处理模型该模型结合元搜索引擎的特点设计了一种 4 级结果集的结构提高了元搜索引擎结果处理的效率在结果提取部分提出了根据反馈信息自动调整权重的算法 FBWM 在没有人工干预的情况下自动监视各独立搜索引擎的性能变化并随之动态调整其权重在结果排序部分提出了改进的位置全文排序法 IPFTS 在算法中引入了词条匹配等级的概念不但能提高搜索结果和查询串相关度的精度还能保证排名在前的搜索结果的 URL 的有效性关键词元搜索引擎结果处理 FBWM 算法 IPFTS 算法词条匹配等级 1 引言搜索引擎按其工作原理可分为目录式搜索引擎机器人搜索引擎和元搜索引擎三大类其中元搜索引擎具有无需人工干预无需维护庞大的数据库以及搜索的查全率高等优点但也具有查询处理速度慢搜索性能过于依赖所调用的独立搜索引擎等缺点为了克服这些缺点本文对元搜索引擎的结果处理部分提出了一种新的处理模型及相关算法论文第2节简要介绍元搜索引擎的体系结构第3节介绍本模型的结构和一些算法的思想和实现步骤第4节是全文总结 2 元搜索引擎的体系结构一个元搜索引擎就是一个高层的搜索引擎它是调用其他搜索引擎的搜索引擎元搜索引擎接收用户的查询串并把它提交给多个下层搜索引擎再把下层搜索引擎返回的结果合并成一个统一的结果返回给用户一个元搜索引擎一般包括用户接口分发器结果提取和结果排序 4 个模块如图 1 所示图 1 元搜索引擎德体系结构用户接口接收用户的输入并向用户输出搜索的结果分发器以用户接口传送的查询串为依据根据所调用的独立搜索引擎的特点产生不同的查询语句以适应各个不同的独立搜索引擎的特定要求例如在 Google 中把 OK HERE 作为一个词来看待而在其他一些搜索引擎中会被看成是 OK 和 HERE 两个词结果提取模块负责从多个独立搜索引擎返回的结果中提取部分或全部结果再把这些结果交给结果排序模块它要解决的是怎样从独立搜索引擎中提取结果和提取多少等问题目前的处理方法主要有系统预定法权重分配法 1 和信息获取的训练集策略等 2 结果排序模块负责把结果提取模块提交的结果按照一定的策略排序再交给用户接口元搜索引擎的结果排序模块工作的原则是在保证效率的基础上尽可能利用一切可用信息提高结果排序的质量目前的处理方法有将响应最快的搜索引擎的搜索结果先返回星星体系位置排序法摘要排序法位置摘要排序法等 2 3 一种元搜索引擎的结果处理模型结果处理模型涉及图 1 中的结果提取模块和结果排序模块它的工作过程是对各个独立搜索引擎搜索到的结果进行提取并将这些结果进行排序后再提交给用户接口 3 1 模型的 4 级结果集结构各个独立搜索引擎把各自的搜索结果提交给结果提取模块结果提取模块以此为 1 级结果集利用 FBWM Feedback Based Weight Modifying 方法根据各个独立搜索引擎的权重从 1 级结果集中提取一部分结果形成 2 级结果集对 2 级结果集的结果用位置排序法排序取其排位在前的用户接口分发器结果排序模块结果提取模块 SE1 SE2 SEn www 一种元搜索引擎的查询结果处理模型 20 一部分得到 3 级结果集根据各个独立搜索引擎对 3 级结果集的贡献比率定义 1 重新调整各个独立搜索引擎的权重提取 3 级结果集中排在前边的一些结果形成 4 级结果集再对 4 级结果集中的结果应用改进的位置全文排序法 IPFTS 排序完毕后将 4 级结果集的结果和剩余的 3 级结果集的结果提交给用户接口图 2 4 级结果集示意图这样的结果集结构设计是出于这样一种思想每个独立搜索引擎都会返回上百万结果但是据调查最终用户可能浏览到的网页少于 100 个所以一般情况下返回 1 000 000 个结果和返回 100 个结果对用户来说几乎是一样的为了提高性能我们在庞大的较低级结果集中用低级快速的算法挑选出一部分网页构成较高级的结果集在新结果集中应用更高级的精度更高但时间复杂度也更高的算法从新结果集中再提取新的子集应用更加复杂的排序算法最终目的是达到搜索精度和效率的平衡 3 2 搜索结果的提取这里的提取是指从各个独立搜索引擎各自的搜索结果集中提取部分搜索结果作为元搜索引擎进一步处理的结果集搜索结果的提取方法有系统预定法权重分配法和训练集方法等系统预定法过于死板它限制从各个独立搜索引擎的结果集中提取结果的数量也限制了最终结果集的上限权重分配法可以更改所取结果的总数量并利用权重使从各个搜索引擎的结果集取得结果各占一定比例然而独立搜索引擎发展的速度很快其性能随时变化如果等这些搜索引擎公布这些变化或明显地感到其性能发生变化时再调整它们的权重就不能及时合理有效地利用独立搜索引擎的最新成果训练集方法则要维护一个庞大的训练集削弱了元搜索引擎无须维护大量数据这一优点 3 2 1 FBWM 算法的思想由此本文提出一种可以根据反馈信息自动调整权重的算法简称 FBWM 方法它实际上也是基于学习的方法但是与训练集方法相比它有自己的特点 FBWM 算法不固定每次查询所返回结果的数量的总数 2 级结果集的基数因为对于不同的查询串搜索引擎返回的结果的数量相差悬殊我们对每个独立搜索引擎规定一个比率从每个独立搜索引擎的结果集中按照这个比率提取排名在前的一部分结果这个比率与各个独立搜索引擎的权重相关从各个独立搜索引擎的结果集提取出来的结果合到一起就形成了 2 级结果集然后对 2 级结果集中的结果用位置排序法进行排序形成 3 级结果集根据各个独立搜索引擎的搜索结果对 3 级结果集的贡献比率并不仅仅是在 3 级结果集中占有率来调整它们的权重对 3 级结果集的贡献比率越大说明这个独立搜索引擎返回结果的质量越高所以应该从它的结果集中多取一些结果 3 2 2 符号的约定 Si表示元搜索引擎调用的第 i 个独立搜索引擎假设共调用 M 个独立搜索引擎 Ri表示第 i 个独立搜索引擎返回结果的结果集 Wi为 Si的权重 Ni表示从 Ri中根据 Wi提取结果的数量 ni表示在3 级结果集中属于Ri中结果的数量 3 2 3 FBWM 算法的描述 FBWM 算法的步骤如下首先对每个独立搜索引擎 Si赋以权重 W0 即 Wi W0 计算从 Ri中提取的结果的数量 Ni 1 M i iiii wwRcN 1 1 其中 Ri 表示集合 Ri的基数 c1是常数可以取 0 1 0 01 等等视对返回结果的数量的要求而 1 级结果集全部结果 2 级结果集实施排序的初始结果集 3 级结果集最终显示的结果集 4 级结果集实施高精度排序算法的结果集一种元搜索引擎的查询结果处理模型 21 定我们规定搜索引擎的权重以百分数表示即令所以 1 可表示为 1 M 1 i i w 2 iii wRcN 1 将每个 Ri中前 Ni个结果取出并合并形成 2 级结果集对 2 级结果集用位置排序法进行排序取出前 n 个结果形成 3 级结果集其中 3 M i i Ncn 1 2 c2为常数它的作用和 c1一样用来控制 3 级结果集中结果的数量 n 不宜太多或太少可以定义 n 的上下限如果通过 c2的调节不能使 n 落在这个范围内那就应该强迫 n 属于这个范围每个独立搜索引擎我们可以根据占有率来调整的权重但是在算法分析部分 M i ii nn 1 i S 我们会看到这样做有不妥之处于是本文提出了贡贡献比率这个概念定义 1 Si对 3 级结果集的贡献比率 pi表示为 Si 对 3 级结果集贡献的结果数 ni除以 Si 在 2 级结果集中的个数公式表示为 pi ni Ni 4 再定义规范化的贡献比率调节系数 i P 5 M i iii ppP 1 重新调整每个 Si的权重 Wi 6 iii Pcwcw 43 其中 c3和 c4为常数且 c3 c4 1 c3和 c4 的大小决定了 Pi对 Wi的影响力对每个 Wi重新计算完毕后将每个 Wi重新化成百分比形式化为百分比形式还可以保证每次 Pi对 Wi的影响力是一样的 7 n i iii www 1 对每次查询都重复步骤到步骤 3 2 4 FBWM 算法的分析对搜索结果总数量的适应性为了简单我们假设只有两个独立搜索引擎 S1 S2 对于查询串 q1 S1返回 100000 个结果 S2 返回 150000 个结果总结果数为 250000 对于查询串 q2 S1返回 1000 个结果 S2返回 1500 个结果总结果数为 2500 显然最终我们需要的 2 级结果集的结果数应该与上述总结果数近似成正比 FBWM 方法通过以百分比的形式提取结果确保了这一点而系统预定法和普通的权重分配法就不具有这种灵活性所以说 FBWM 方法避免了人为的设定取回数量带来的不合理之处很好的适应了 Si对不同的查询串返回结果的不可预测性以及返回结果的数量差别太大对独立搜索引擎性能变化的适应每次查询都会对各个独立搜索引擎的权重作调整当此元搜索引擎的使用频率较高时完全可以及时地适应独立搜索引擎性能的变化实际的元搜索引擎大都是设计了一个统计模型来监视各个独立搜索引擎的性能变化而不是仅仅参照相对滞后的独立搜索引擎公布的技术信息对独立搜索引擎的搜索精度的差别的适应为什么用贡献比率而不用占有率举例来说假设对某个查询串 q S1返回了 200 个搜索结果 S2返回了 800 个搜索结果 S1和 S2初始的权重分别为 W1 0 5 和 W2 0 5 则提取到 2 级结果集的数量分别为 N1 200 0 5 100 N2 800 0 5 400 假设最终 S1的 100 个搜索结果有 50 个入选了 3 级结果集而 S2的 400 个搜索结果也只有 50 个入选显然 S1的搜索质量比 S2高应该从 S1的结果集中多取但是 S1和 S2的结果在 3 级结果集中的占有率都是 50 50 50 0 5 根据公式 6 没有起到调整权重的作用而 S1的贡献比率 p1 50 100 0 5 S2的贡献比率 p2 50 400 0 125 S1的贡献比率调节系数 P1 0 5 0 5 0 125 0 8 S2的 P2 0 125 0 5 0 125 0 2 可以看到 S1的权重必定会有所提高 S2的必定会下降这才能适应不同的独立搜索引擎在搜索精度上的差别与训练集方法的不同之处虽然都是根据各个独立搜索引擎的结果集在高质量的结果集中占有情况来调整权重但是 FBWM 算法根据的是贡献比率训练集方法根据的是占有率训练集方法中的权重决定的是各个独立搜索引擎的搜索结果在总结果集中占有的比例而 FBWM 方法中的权重决定的是从各个独立搜索引擎的结果中选取结果的比例因为没有维护查询结果集所以 FBWM 方法的效率和资源占一种元搜索引擎的查询结果处理模型 22 用方面比训练集策略有明显优势但是也失去了对独立搜索引擎针对不同查询串的搜索性能差异的处理能力 3 3 搜索结果的排序这一部分要把搜索结果按规则评分把得分最高的结果放在最前在本文讲述的模型里搜索结果的排序过程先是把第 2 结果集里的结果用位置排序法排序选出其中前 N 个结果形成第 3 结果集选出前 K 个结果形成第 4 结果集一般的 K N 对第 4 结果集的结果应用改进的位置全文排序法 IPFTS 算法进行排序最后把排好序的第 4 结果集和第 3 结果集的结果提交给用户接口这一部分提出了一个改进的位置全文排序法简称 IPFTS Improved Place Di表示 ri对应的全部文本信息即文档 q 表示用户输入的查询串 lj表示 q 中第 j 个词条 X 为查询串 q 中的词条数 3 3 3 IPFTS 算法的描述对每个 ri 仿照摘要排序法计算 Di与 q 的普通相关度是指没有词条匹配等级影响的相关度先计算q中每个词条lj与文档Di的相关度Rl lj Di ij DlRl 8 1 ln ijD lOccurence k iji DklLocationDLength 其中 Length Di 为 Di的长度 Occurrence lj Di 为 lj在 Di中出现的次数 Location lj k Di 为词条 lj 在 Di中第 k 次出现的位置再计算 Di与 q 的相关度 Rq q Di X j iji DlRlDqRq 9 其中 X 为查询串 q 中的词条数一种元搜索引擎的查询结果处理模型 23 计算文档 Di与查询串 q 的词条匹配等级定义词条 lj与文档 Di的词条匹配等级系数 mg lj Di 10 计算查询串 q 与文档 Di的词条匹配等级 MG q Di 11 i DqMG X j ij Dlmg 1 其中 X 为 q 中词条的个数计算查询串 q 与文档 Di的相关度 R q Di 12 iii DqRqDqMGDqR 计算位置信息的得分 P ri P ri 1 i 13 公式 13 表示第 4 结果集中第 i 个结果的位置信息得分是它所在的位置的倒数综合位置信息和相关度信息先将相关度和位置信息得分分别标准化再乘以各自的权重相加得到最终排序分数 Rank ri i rRank 14 K i ii K i ii rPrPcDqRDqRc 1 6 1 5 其中 c5 c6是常数它们的大小决定了位置信息和相关度信息对最终排序的影响力 K 为第 4 结果集中结果的个数第 4 结果集的基数最后将第 4 结果集中的 ri按照 Rank ri 的值从大到小排列 3 3 4 IPFTS 算法的分析 IPFTS 算法就是一种加入了词条匹配等级的全文相关度计算方法与位置排序法的融合除了位置排序法本身的特点外还有以下特点对独立搜索引擎用户接口的差异的适应 IPFTS 算法是根据搜索结果的网页全文来计算相关度不管各个独立搜索引擎的用户接口以什么形式返回结果都不影响 IPFTS 算法的最后结果对返回结果的有效性的保证对第 4 结果集的结果来说因为要获取它的全文所以要链接它的 URL 并将它的全文下载到本地这无形当中检测了 URL 的有效性这是目前很多搜索引擎没有做的例如经常会在 Google 和 Baidu 等搜索引擎的搜索结果中发现无效链接死链接这多半是出于时间效率上的考虑在稍后的分析中会看到由于本模型的第 4 结果集较小所以时间上的代价可以接受时间代价问题本模型假设第 4 结果集的结果数为几百普通的元搜索引擎提取摘要时处理的结果往往是几千几万甚至更多所以要下载的网页数也达到几百到几千以 Google 为例它每页显示 10 个搜索结果也就是说每获取 10 个搜索结果的摘要信息就要下载一个网页而 IPFTS 算法略掉了从较为庞大的结果集中提取摘要的步骤所以在获取网页方面本模型的 IPFTS 算法并没有花费更多的时间当然这是以参加精确排序的结果数减少为代价的 3 4 模型的特色 4 级结果集结构使最有用的搜索结果接受最多最精确的处理使那些不太有用的结果浪费很少时间在一定程度上解决了元搜索引擎响应速度慢的缺点另外它使一些时间代价大的算法得以实施根据反馈信息自动调整权重的算法能根据每次查询的反馈信息自动调整独立搜索引擎的权重做到了在没有人工干预的情况下自动的监视独立搜索引擎的性能变化并根据变化作相应的调整而且 FBWM 算法对不同的查询串返回结果的数量的巨大差别对各个搜索引擎精度的差别作了相应的处理词条匹配等级词条匹配等级的引入使得含有查询串中多数词条的文档从只含有较少词条但词条出现次数较多的文档中脱颖而出改进的位置全文排序法较位置摘要排序法能更精确的判别结果与查询串的相关度对独立搜索引擎用户接口的差异有很好的适应性还能保证第4 结果集中结果的有效性 4 结束语一种元搜索引擎的查询结果处理模型 24 用户接口分发器结果提取模块和结果排序模块构成了元搜索引擎本文对元搜索引擎中的结果提取模块和结果排序模块提出了一种新的查询结果处理模型该模型利用 4 级结果集的结构根据反馈信息自动调整权重的算法词条匹配等级的概念和改进的位置全文排序法等技术有利于克服元搜索引擎查询速度慢独立性差的缺点将来如果能结合用户接口模块和分发器模块的新技术共同应用将会使元搜索引擎更具威力参考文献 1 Eric J Glover Using Extra Topical User Preferences To Improve Web Based Metasearch PhD thesis University of Michigan 2001 2 Yuwono B Lee D Server ranking for distributed text database systems on Internet Proceedings of 5th International Conference on Database Systems for Advanced Applications Melbourne Australia World Scientific Pub Co Inc April 1997 pp 391 400 3 徐宝文张卫峰搜索引擎与信息获取技术北京清华大学出版社 2003 pp 146 147 153 4 Sergey Brin Lawrence Page The Anatomy of a Large Scale Hypertextual Web Search Engine Computer Networks and ISDN Systems 1998 Volume 30 issues 1 7 A Novel Processing Model for the Query Results of Meta search Engines ZHANG Qiang Gong1 YU Guo Bao2 LIAO Hu Sheng3 SUI Shu Lin4 1 2 3 College of Computer Science and Technology Beijing University of Technology Beijing 100022 China 4 Sifang College Qingdao University of Science and Technology Qingdao Shandong 266042 China Abstract This paper presents a novel processing model for the query results of meta search engines which aims at improving the

人人文库> 全部分类> 教育资料 > 课设设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

一种元搜索引擎的查询结果处理模型.doc

文档简介

温馨提示

最新文档

评论

一种元搜索引擎的查询结果处理模型.doc

文档简介

温馨提示

最新文档

评论

相关文档