




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、现代图书情报技术1998年第6期收稿日期:1998-06-03元搜索引擎:原理与利用王芳张晓林(四川联合大学信息管理系成都610064【摘要】对元搜索引擎的基本结构和运行过程进行了分析,并结合实例介绍了元搜索引擎的类别与特点。【关键词】元搜索引擎搜索引擎桌面搜索引擎信息检索M eta-search Eng i nes:Pr i nc iples and Appl ica tion sW ang FangZhang X i aol i n(D ep a rt m en t of L ibra ry and Inf or m a tion S cience,S ichuan U n ion U n
2、 iversity,Cheng d u【Abstract】T he paper givers an analysis of the basic structu re and functi onal p rocess of m eta search engines,and describes w ith examp les the catego ries and characteristics of these new search too ls.1前言In ternet WWW的迅速发展带来丰富的和动态变化的网络化信息资源,同时也呼唤新的检索机制与能力。搜索引擎技术应运而生,通过采集标引众多网
3、络站点来提供全局性网络资源控制与检索机制,从而帮助用户方便地在网络中准确检索所需信息1-3,著名的Yahoo!、Info seek、A ltaV ista、悠游(GoYoYo等就是典型代表。然而,当搜索引擎数量迅速增加、各自使用的检索方式日益复杂时,如何准确选择搜索引擎、如何减轻学习与操作负担、如何有效利用多个搜索引擎的“集成”资源与检索能力等就成为制约网络信息检索技术进一步优化和发展的重要问题。正是面对这个挑战,检索工具开发者设计了元搜索引擎(M eta2Search Engines,能够利用多个搜索引擎进行网络信息查询。2元搜索引擎的基本结构与运行原理211元搜索引擎的基本性质与结构所谓元
4、搜索引擎,是对分布于网络的多种检索工具的全局控制机制,它通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个搜索引擎来实现检索操作(Search the search engines4-5,其基本结构如图1所示。图1元搜索引擎搜索引擎搜索引擎搜索引擎用户我们可将元搜索引擎看成具有双层C S 结构的系统,用户向元搜索引擎发出检索请求,元搜索引擎再根据该请求向多个搜索引擎发出实际检索请求;搜索引擎执行元搜索引擎检索请求后将检查结果以应答形式传送给元搜索引擎,元搜索引擎将从多个搜索引擎获得的检索81结果经过整理再以应答形式传送给实际用户。当然,某些元搜索引擎具有略微不同
5、的机制,我们将在下面讨论元搜索引擎实例时具体介绍。212搜索引擎和元搜索引擎的区别搜索引擎与元搜索引擎的主要区别在于搜索引擎拥有独立的网络资源采集标引机制和相应的数据库,而元搜索引擎一般没有自己独立的数据库,却更多地是提供统一联结界面(或进一步地提供统一检索方式和结果整理,形成一个由多个分布的、具有独立功能的搜索引擎构成的虚拟逻辑整体,用户通过元搜索引擎的功能实现对这个虚拟整体中各独立搜索引擎数据库的查询显示等一切操作。元搜索引擎中各独立搜索引擎被称为“成员搜索引擎”,它们各自保持其原来的局部数据模式和自己的检索指令;元搜索引擎给出一个全局外部模式,用以接受用户检索输入和结果输出。不过,有些元
6、搜索引擎给出的全局外部模式不够完善。213元搜索引擎的基本运行过程根据分布式数据库系统的原理,我们可以用图2初步描述元搜索引擎基本运行过程的概念模型6:用户元搜索引擎搜索引擎目录全局 局部指令字典图2全局 局部格式字典全局结果组织局部结果转换局部接收结果局部指令发送全局指令解析选择搜索引擎根据该模型,元搜索引擎的主要功能有: (1搜索引擎的选择:元搜索引擎一般允许用户选择合适的搜索引擎集合具体进行检索,选择方式包括选择一个搜索引擎、选择全部搜索引擎、选择满足一定条件的若干个搜索引擎(例如最快的或最好的三个。有些元搜索引擎只能使用固定的搜索引擎集合。(2检索指令的转换:由于每个搜索引擎都有自己的
7、查询语言,因此元搜索引擎需要将用户通过统一界面以统一形式输入的全局检索指令转换为各个成员搜索引擎的局部指令语言,这可利用“全局 局部指令字典”来实现。但指令语言转换并不是异形指令的简单、机械互换,应做到:对应指令的功能性质一致性;对应指令的功能作用范围一致;对应指令的逻辑结构和构成一致;对应指令的逻辑结果一致。全局指令既要准确地表达所有成员搜索引擎指令语言的共同特点和指令形式,又要能够以一定方式执行有关成员搜索引擎指令的特殊功能。目前,指令转换尚有较多不足之处。(3局部结果转换和全局结果组织:从各搜索引擎返回的结果具有自己的数据格式,元搜索引擎需要依照用户要求或系统设置值将各个局部结果转换为全
8、局结果要求的形式,并构成逻辑上统一的整体结果集合和格式呈交用户。全局格式转换与检索指令转换一样,要在数据项数量、逻辑内容、名称、长度、位置等方面准确地表达所有成员搜索引擎局部格式的共同特点和要求,又要能根据全局模式的要求对数据进行处理,还要协调不同的局部格式可能存在的差异,对某些搜索引擎特有的信息段要适当处理,保证对每一个命中记录具有尽可能详细的描述资料。元搜索引擎还应对全局结果进行剔重、排序等处理。214自动选择的实现方式前面提到,用户可选择满足一定条件的若干搜索引擎同时进行检索。一般地,元搜索引擎将根据一定条件自动实施这种选择7。(1“选择最好”模式:元搜索引擎可能采取以下方式来选择“最好
9、”的搜索引擎,例如它可跟踪一定时期各类检索式检索成员搜索引擎的命中记录数的统计分布,根据该分布来确定相对于一定主题的“最好”搜索引擎。或者,元搜索引擎可对成员搜索引擎的索引数据库进行某种方式的分类统计,建立类目与U RL数量的对应关系,并据此确立“最好”的搜索引擎。例如, P rofu si on和SavvySearch就提供了类似的功能。(2“选择最快”模式:元搜索引擎系统可能采取下列两种方式来选择“最快”的搜索引擎:A1随机产生方式:元搜索引擎以并行方式将检索指令传送给若干搜索引擎,选择最先返回的几个(比如前三个结果集并组织成全局结果集,忽略后面的其它结果集。B1先验式:检索工具研制者在大
10、量测试数据基础上,制定相应的控制字典,明确标明某一类信息与搜索引擎检索速度的映射关系。用户提交检索式后,元搜索引擎首先进91行概念分析,确认它隶属的类别范畴,然后对照控制字典通过一定的算法选择最快的前几个搜索引擎。该方式涉及的技术细节较多,包括词表的建立、维护,词表中用于速度测试的词汇的选定,对成员搜索引擎的定期速度测试等,都将对测试结果的可靠性产生较大影响。3元搜索引擎的分类按功能划分,元搜索引擎包括多线索式搜索引擎和A ll-in-one式搜索引擎;按运行方式的差异可分为在线搜索引擎和桌面搜索引擎。311多线索式元搜索引擎所谓多线索式元搜索引擎指利用唯一的、确定的检索界面,实现对多个独立搜
11、索引擎索引数据库进行检索,并将检索结果以统一格式显示的网络检索工具。如M etacraw ler、Savvysearch、P rofu si on等都是属于多线索式元搜索引擎。在理想状态下,这类元搜索引擎应具有以下特征:(1统一检索界面:元搜索引擎提供统一界面,提供对各搜索引擎特点介绍和选择机制,但所有成员搜索引擎构成一个逻辑整体,元搜索引擎检索界面构成唯一的全局外部检索模式,用户通过这个全局界面实现对多个或任意一个搜索引擎的检索。(2检索指令转换:在具有唯一全局外部检索模式情况下,系统可提供统一的全局指令语言,并自动地实现元搜索引擎指令与其成员搜索引擎指令的转换,用户使用同一指令语言检索不同
12、的搜索引擎的索引数据库。(3统一结果集的组织与显示:元搜索引擎提供全局组织器,对各搜索引擎返回的结果进行处理以形成全局结果集,并以统一格式显示,主要涉及数据格式转换、剔重、统一排序等。312A ll-in-one方式h tm l。这种A ll-in-one方式的元搜索引擎确切地说只是搜索引擎的罗列,它们具有以下特点:(1仅仅提供一个简单的界面来帮助用户选择和使用各搜索引擎。(2只能选择一个搜索引擎进行检索。(3对各独立搜索引擎检索界面的复制可能是部分的或全部的。(4直接利用所选搜索引擎的显示格式呈送给用户。313桌面元搜索引擎4实际元搜索引擎分析下面我们通过对三个著名的元搜索引擎的介绍来进一步
13、分析元搜索引擎的特点。411M etaCrawlerM etaC raw ler9由华盛顿大学的E rik2Selberg等共同研制,1997年初被Go2net收购,目前已发展成为一个优秀的多线索式搜索引擎。它可同时调用6个搜索引擎并行检索,包括L yco s、Info seek、W ebC raw ler、Excite、A ltaV ista和Yahoo!。它可使用简单检索和高级检索。检索式中关键词间用空格分开,允许包括一个或多个短语(短语用“”标志;词前加“+”号或“-”号表示结果中必须包括的词或禁止出现的词;圆括号中的词当作一个整体处理。图形界面提供了相当于布尔操作AND、O R的选项和
14、短语检索,检索范畴可限制在W eb、新闻组、计算机产品或文件中。M etaC raw ler高级检索界面中还能定义等待检索的最大时间(5秒-2分钟和从每个搜索引擎返回的最大结果数(10,20,30。它能整体地集成查询结果,删除重复的U RL,将结果排序以统一的格式显示给用户。而且,M etaC raw ler具有自动核实功能,它将存储各个搜索引擎返回的结果并确认和删除死链。412SavvySearchSavvySearch10是一个并行检索的元搜索引擎,它可调用21个独立的搜索引擎,检索包括W eb、U senet新闻组、软件、参考工具、人、技术报告等信息。每次最多可同时检索5个搜索引擎的数据
15、库。它根据历次检索获取有关统计数据,从而可依据搜索引擎对提问式的可能有用程度,将21个搜索引擎进行分组排序,以确定每次选择的5个搜索引擎。SavvySearch提供布尔逻辑算法和词组检索:all query term (AND,any query term(O R和all query term as a p h rase但不是所有的成员搜索引擎都能正确处理布尔操作符,结果可能不精确。检索可在一定的资源类型中进行,如W eb资源、人、或学术资料等。在SavvySearch中用户可指定每个搜索引擎返回结果的数目,而且如果选择了“in tegrate resu lt”选项,系统将对结果集作删重处理。
16、检索结果包括发现资源的搜索引擎的名称、可链接的网页标题、U RL、文件大小、相关程度和页面开始的十几个单词。413ProFusionP roFu si on11也是一个并行检索的搜索引擎,最多可同时调用9个独立的搜索引擎。搜索引擎的调用方式分为:a.系统自动选择最好的3个;b.系统自动选择最快的3个;c.全部调用;d.用户从中选取任意个搜索引擎。P rofu si on会按每个搜索引擎的语法分析查询,对于真正的布尔查询可以从下拉菜单中选择“Boo lean”,短语检索选择“p h rase”,检索范畴可选则W eb或U senet。在检索式中可直接用圆括号(、AND(或&、O R(或丨、NO T(!和N EA R(,操作符必须大写,且操作符前后都要有空格。P rofu si on能够综合搜索结果并为结果排序,但它不能显示每个结果来自哪个搜索引擎。另外,它还提供个性化的结果页面。在免费注册后,P
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 香山中医医院沈德海
- 眼妆结构法讲解
- 养老机构服务规范解读
- 营销职级评定汇报
- 细胞检测技术介绍
- 安徽省定远炉桥中学2026届化学高二第一学期期末复习检测模拟试题含答案
- 隧道仰拱技术交底
- 先兆早产临床管理指南
- 嫩枝扦插的技术
- 农业筹资政策解读课件
- 旋风分离器效率计算
- 温硝化制硝基苯装置的改进
- 保教知识与能力幼儿园课件
- 财务部半年度述职汇报PPT模板
- 药品种类清单
- 公共基础知识(社区工作者基础知识)试题(附答案)
- GB/T 37915-2019社区商业设施设置与功能要求
- GB/T 31298-2014TC4钛合金厚板
- 《电业安全工作规程》
- 卡西欧gw5600说明书
- 中兴NGN培训教材 MSG9000结构原理介绍课件
评论
0/150
提交评论