分布式检索及相关理论_第1页
分布式检索及相关理论_第2页
分布式检索及相关理论_第3页
分布式检索及相关理论_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、分布式检索及相关理论1 分布式检索概述在信息检索领域,特别是网络信息检索领域,一些采用集中式信息方式的网络信息检索系统当负载增大时,用户的查询请求往往难以得到及时响应。为此,采用分布式信息方式构建分布式信息检索系统,可以在一定程度上解决所面临的问题。同时,由于信息资源建设任务的庞大和繁重,很多检索系统只能独立完成某领域或某方面的资源建设工作,但用户却往往需要全面的资源服务。而分布式检索系统可以提供一种整合不同信息资源,提供集成信息服务的可能,即在信息资源分散建设的环境下,提供集成的、全面的信息服务。1.1 分布式计算所谓分布式计算就是两个或多个软件互相共享信息,这些软件既可以在同一台计算机上运

2、行,也可以在通过网络连接起来的多台计算机上运行。它研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分,然后把这些部分分配给许多计算机进行处理,最后把这些计算结果综合起来得到最终的结果。分布式计算比其它算法具有以下几个优点:(1)稀有资源可以共享。(2)通过分布式计算可以在多台计算机上平衡计算负载。(3)可以把程序放在最适合运行它的计算机上。其中,共享稀有资源和平衡负载是分布式计算的核心思想之1.2分布式检索利用分布式计算进行信息检索称为分布式检索2。与并行检索相比,分布式检索的主要特点是:(1)分布式检索通常处理的是地理位置分散的异构数据,不同地理位置计算机系统间通讯的开销比较

3、大,因此,分布式检索中应该尽量避免不同地理位置计算机系统之间的通讯操作。就通讯本身而言,由于不同系统的异构性,分布式检索系统中通常采用TCP/IP协议来实现通讯,而并行检索中处理器之间的通讯可以通过共享内存来实现。(2)分布式检索的数据规模相对较大,每个节点的处理能力又不尽相同。因此,分布式检索通常只选择某些数据子集进行检索,而不像并行检索那样,需要返回每个数据子集的结果。(3)分布式检索的对象的异构性使得统一描述和访问成为必须要考虑的问题3。2 分布式检索系统结构分布式的总体结构为如何并行的定义和解决问题,提供极大的灵活性。检索系统在分布式计算机网络中实现的最简单的方法是通过多任务处理的使用

4、。分布式系统里的每个处理器都彼此分开了,每个处理器上运行独立的搜索引擎系统。搜索引擎对单个的查询不进行合作,但是他们可以共同拥有代码库和数据。对搜索引擎的查询请求是由检索代理来管理,它接受终端用户的查询要求,并将其分发给所有可利用的搜索引擎。分布式信息检索系统在系统的结构设计中充分考虑了信息搜索的速度、信息服务的质量,以及系统的管理、维护、更新等因素,采取了有选择的协作机制,并且利用用户的反馈调整系统的运行。当系统获得用户的查询请求后,先查询本地信息库并返回结果,如果用户要求更多的信息,系统就会根据用户对已有信息的满意程度选择下一个查询对象,可能是本地信息库,也可能是远程搜索引擎5。3 分布式

5、检索系统的实现框架分布式信息检索系统的建立和实现需要以一个软件结构框架为基础6。目前,有多个标准和产品支持这样的大型信息系统的开发,这些产品主要有以下几种。3.1 基于Z39.50的体系结构基于Z39.50协议的分布式信息检索系统的核心有两个部分:(1)索引数据库:用来存放网上资源索引的数据库,它具备Z39.50协议访问接口。(2)用户访问接口:通过Z39.50网关把信息提供给用户的接口。该体系结构的分布式检索系统可以按照以下方式工作:用户的查询请求由浏览器通过HTTP青求发给Web服务器;Web服务器通过HTTP_Z39.50协议转换网关把HTTP青求转换为Z39.50请求,发给本域的Z39.50服务器,进而访问索引库得到查询结果。如果在本域的Z39.50服务器找不到所需信息或者用户在最初的查询请求中就指定了查询其他域,HTTP_Z39.50协议转换网关会把3950请求发给其他域的Z39.50服务器,并负责收集所有Z39.50服务器返回的查询结果,整合后统一以HTM顷面的形式返回给用户浏览器。3.2 基于Java/CORBA勺架构Java/CORBA勺架构是组件技术的一种类型。组件技术是面向对象技术的最新发展,它具有开放性、集成性、灵活性、模块性、可管理性、安全性、透明性等特点。组件技术为分布式异构环境中的多组织域

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论