元搜索引擎原理与利用_第1页
元搜索引擎原理与利用_第2页
元搜索引擎原理与利用_第3页
元搜索引擎原理与利用_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、元搜索引擎:原理与利用王芳 张晓林(四川联合大学信息管理系,成都,610064) 文摘:本文对元搜索引擎的基本结构和运行过程进行了分析,并结合实例介绍了元搜索引擎的类别与特点。 关键词:元搜索引擎,搜索引擎,桌面搜索引擎,信息检索Meta-Search Engines: Principles and ApplicationsWang Fang, Zhang Xiaolin(Department of Library and Information Science, Sichuan Union University, Chengdu, 610064) Abstract: The paper gi

2、ves an analysis of the basic structure and functional process of meta search engines, and describes with examples the categories and characteristics of these new search tools. Keywords: Meta search engines, Search engines, Desktop search engines, information retrieval 1前言Internet/WWW的迅速发展带来丰富的和动态变化的

3、网络化信息资源,同时也呼唤新的检索机制与能力。搜索引擎技术应运而生,通过采集标引众多网络站点来提供全局性网络资源控制与检索机制,从而帮助用户方便地在网络中准确检索所需信息1-3,著名的Yahoo!、Infoseek、AltaVista、悠游(GoYoYo)等就是典型代表。然而,当搜索引擎数量迅速增加、各自使用的检索方式日益复杂时,如何准确选择搜索引擎、如何减轻学习与操作负担、如何有效利用多个搜索引擎的“集成”资源与检索能力等就成为制约网络信息检索技术进一步优化和发展的重要问题。正是面对这个挑战,检索工具开发者设计了元搜索引擎(Meta-Search Engines),能够利用多个搜索引擎进行网

4、络信息查询。 2元搜索引擎的基本结构与运行原理 2.1元搜索引擎的基本性质与结构所谓元搜索引擎,是对分布于网络的多种检索工具的全局控制机制,它通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作(Search the search engines)4-5,其基本结构如图1所示。图1 我们可将元搜索引擎看成具有双层C/S结构的系统,用户向元搜索引擎发出检索请求,元搜索引擎再根据该请求向多个搜索引擎发出实际检索请求;搜索引擎执行元搜索引擎检索请求后将检索结果以应答形式传送给元搜索引擎,元搜索引擎将从多个搜索引擎获得的检索结果经过整理再以应答形式

5、传送给实际用户。当然,某些元搜索引擎具有略微不同的机制,我们将在下面讨论元搜索引擎实例时具体介绍。 2.2搜索引擎和元搜索引擎的区别搜索引擎与元搜索引擎的主要区别在于搜索引擎拥有独立的网络资源采集标引机制和相应的数据库,而元搜索引擎一般没有自己独立的数据库,却更多地是提供统一联结界面(或进一步地提供统一检索方式和结果整理),形成一个由多个分布的、具有独立功能的搜索引擎构成的虚拟逻辑整体,用户通过元搜索引擎的功能实现对这个虚拟整体中各独立搜索引擎数据库的查询显示等一切操作。元搜索引擎中各独立搜索引擎被称为“成员搜索引擎”,它们各自保持其原来的局部数据模式和自己的检索指令;元搜索引擎给出一个全局外

6、部模式,用以接受用户检索输入和结果输出。不过,有些元搜索引擎给出的全局外部模式不够完善。2.3元搜索引擎的基本运行过程根据分布式数据库系统的原理,我们可以用图2初步描述元搜索引擎基本运行过程的概念模型6:图2根据该模型,元搜索引擎的主要功能有:(1)搜索引擎的选择:元搜索引擎一般允许用户选择合适的搜索引擎集合具体进行检索,选择方式包括选择一个搜索引擎、选择全部搜索引擎、选择满足一定条件的若干个搜索引擎(例如最快的或最好的三个)。有些元搜索引擎只能使用固定的搜索引擎集合。(2)检索指令的转换:由于每个搜索引擎都有自己的查询语言,因此元搜索引擎需要将用户通过统一界面以统一形式输入的全局检索指令转换

7、为各个成员搜索引擎的局部指令语言,这可利用“全局/局部指令字典”来实现。但指令语言转换并不是异形指令的简单、机械互换,应做到:对应指令的功能性质一致性;对应指令的功能作用范围一致;对应指令的逻辑结构和构成一致;对应指令的逻辑结果一致。全局指令既要准确地表达所有成员搜索引擎指令语言的共同特点和指令形式,又要能够以一定方式执行有关成员搜索引擎指令的特殊功能。目前,指令转换尚有较多不足之处。 (3)局部结果转换和全局结果组织:从各搜索引擎返回的结果具有自己的数据格式,元搜索引擎需要依照用户要求或系统设置值将各个局部结果转换为全局结果要求的形式,并构成逻辑上统一的整体结果集合和格式呈交用户。全局格式转

8、换与检索指令转换一样,要在数据项数量、逻辑内容、名称、长度、位置等方面准确地表达所有成员搜索引擎局部格式的共同特点和要求,又要能根据全局模式的要求对数据进行处理,还要协调不同的局部格式可能存在的差异,对某些搜索引擎特有的信息段要适当处理,保证对每一个命中记录具有尽可能详细的描述资料。元搜索引擎还应对全局结果进行剔重、排序等处理。 2.4自动选择的实现方式前面提到,用户可选择满足一定条件的若干搜索引擎同时进行检索。一般地,元搜索引擎将根据一定条件自动实施这种选择7。(1)“选择最好”模式:元搜索引擎可能采取以下方式来选择“最好”的搜索引擎,例如它可跟踪一定时期各类检索式检索成员搜索引擎的命中记录

9、数的统计分布,根据该分布来确定相对于一定主题的“最好”搜索引擎。或者,元搜索引擎可对成员搜索引擎的索引数据库进行某种方式的分类统计,建立类目与URL数量的对应关系,并据此确立“最好”的搜索引擎。例如,Profusion和SavvySearch就提供了类似的功能。(2)“选择最快”模式:元搜索引擎系统可能采取下列两种方式来选择“最快”的搜索引擎:A.随机产生方式:元搜索引擎以并行方式将检索指令传送给若干搜索引擎,选择最先返回的几个(比如前三个)结果集并组织成全局结果集,忽略后面的其他结果集。B. 先验式:检索工具研制者在大量测试数据基础上,制定相应的控制字典,明确标明某一类信息与搜索引擎检索速度

10、的映射关系。用户提交检索式后,元搜索引擎首先进行概念分析,确认它隶属的类别范畴,然后对照控制字典通过一定的算法选择最快的前几个搜索引擎。该方式涉及的技术细节较多,包括词表的建立、维护,词表中用于速度测试的词汇的选定,对成员搜索引擎的定期速度测试等,都将对测试结果的可靠性产生较大影响。3元搜索引擎的分类 按功能划分,元搜索引擎包括多线索式搜索引擎和All-in-one式搜索引擎;按运行方式的差异可分为在线搜索引擎和桌面搜索引擎。3.1 多线索式元搜索引擎所谓多线索式元搜索引擎指利用唯一的、确定的检索界面,实现对多个独立搜索引擎索引数据库进行检索,并将检索结果以统一格式显示的网络检索工具。如Met

11、acrawler 、Savvysearch、Profusion等都是属于多线索式元搜索引擎。在理想状态下,这类元搜索引擎应具有以下特征: (1) 统一检索界面:元搜索引擎提供统一界面,提供对各搜索引擎特点介绍和选择机制,但所有成员搜索引擎构成一个逻辑整体,元搜索引擎检索界面构成唯一的全局外部检索模式, 用户通过这个全局界面实现对多个或任意一个搜索引擎的检索。(2)检索指令转换:在具有唯一全局外部检索模式情况下,系统可提供统一的全局指令语言,并自动地实现元搜索引擎指令与其成员搜索引擎指令的转换,用户使用同一指令语言检索不同的搜索引擎的索引数据库。(3)统一结果集的组织与显示:元搜索引擎提供全局组

12、织器,对各搜索引擎返回的结果进行处理以形成全局结果集,并以统一格式显示,主要涉及数据格式转换、剔重、统一排序等。 3.2ALL-IN-ONE方式所谓ALL-IN-ONE方式是指元搜索引擎界面以任意顺序或分类罗列多个(一般都是数十个)搜索引擎,但元搜索引擎本身主要提供各类搜索引擎的介绍信息和物理连接机制。用户可通过这类元搜索引擎了解有关的搜索引擎、联入所选择的搜索引擎,但元搜索引擎没有统一的全局外部模式,而是以各搜索引擎的检索模式和数据格式直接面对用户,例如ALL IN ONE元搜索引擎((1)仅仅提供一个简单的界面来帮助用户选择和使用各搜索引擎。 (2)只能选择一个搜索引擎进行检索。(3)对各

13、独立搜索引擎检索界面的复制可能是部分的或全部的。 (4)直接利用所选搜索引擎的显示格式呈送给用户 3.3 桌面元搜索引擎8以上各类元搜索引擎都是通过网上调用方式在线使用,还有另外一类元搜索引擎可直接在用户计算机上运行,相当于用户自己拥有一个元搜索引擎,称之为桌面元搜索引擎。这些桌面元搜索引擎可从网络上下载,例如EchoSearch ( ( (4实际元搜索引擎分析下面我们通过对三个著名的元搜索引擎的介绍来进一步分析元搜索引擎的特点。 4.1MetaCrawler MetaCrawler9由华盛顿大学的Erik Selberg等共同研制,1997年初被go2net收购,目前已发展成为一个优秀的多线

14、索式搜索引擎。它可同时调用6个搜索引擎并行检索,包括Lycos、Infoseek、WebCrawler、Excite、AltaVista和Yahoo!。它可使用简单检索和高级检索。检索式中关键词间用空格分开,允许包括一个或多个短语(短语用“”标志);词前加“+”号或“-”号表示结果中必须包括的词或禁止出现的词;圆括号中的词当作一个整体处理。图形界面提供了相当于布尔操作AND、OR的选项和短语检索,检索范畴可限制在Web、新闻组、计算机产品或文件中。MetaCrawler高级检索界面中还能定义等待检索的最大时间(5秒2分钟)和从每个搜索引擎返回的最大结果数(10,20,30)。它能整体地集成查询

15、结果,删除重复的URL,将将结果排序以统一的格式显示给用户。而且,MetaCrawler具有自动核实功能,它将存储各个搜索引擎返回的结果并确认和删除死链。 4.2SavvySearch SavvySearch10是一个并行检索的元搜索引擎,它可调用21个独立的搜索引擎,检索包括Web、Usenet新闻组、软件、参考工具、人、技术报告等信息。每次最多可同时检索5个搜索引擎的数据库。它根据历次检索获取有关统计数据,从而可依据搜索引擎对提问式的可能有用程度,将21个搜索引擎进行分组排序,以确定每次选择的5个搜索引擎。SavvySearch提供布尔逻辑算法和词组检索:all query term(AN

16、D),any query term(OR)和all query term as a phrase。但不是所有的成员搜索引擎都能正确处理布尔操作符,结果可能不精确。检索可在一定的资源类型中进行,如Web资源、人、或学术资料等。在SavvySearch中用户可指定每个搜索引擎返回结果的数目,而且如果选择了“integrate result”选项,系统将对结果集作删重处理。检索结果包括发现资源的搜索引擎的名称、可链接的网页标题、URL、文件大小、相关程度和页面开始的十几个单词。 4.3ProFusion ProFusion11也是一个并行检索的搜索引擎,最多可同时调用9个独立的搜索引擎。搜索引擎的调

17、用方式分为:a.系统自动选择最好的3个 ;b.系统自动选择最快的3个;c.全部调用;d.用户从中选取任意个搜索引擎。Profusion会按每个搜索引擎的语法分析查询,对于真正的布尔查询可以从下拉菜单中选择“Boolean”,短语检索选择“phrase”,检索范畴可选则Web或Usenet。在检索式中可直接用圆括号()、AND(或&)、OR(或|)、NOT(!)和NEAR(),操作符必须大写,且操作符前后都要有空格。Profusion能够综合搜索结果并为结果排序,但它不能显示每个结果来自哪个搜索引擎。另外,它还提供个性化的结果页面。在免费注册后,Profusion会为用户维护一个页面。每周或每月重复运行查询,一旦发现变化就会发电子邮件通知该用户。 当然,目前在网络上运行的元搜索引擎还有许多,有兴趣者请参见1。参考文献:1 王芳. 网络信息检索机制研究. 四川联合大学硕士论文, 1998.52 孙国泉. 网络机器人. 现代图书情报技术, 1996.63 储荷婷. 国际互联网检索工具. 大学图书馆学报, 1997.34 Notess, G. R. Internet "onesearch" with the Meta Sear

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论