(计算机应用技术专业论文)基于移动代理的分布式信息检索的应用研究.pdf_第1页
(计算机应用技术专业论文)基于移动代理的分布式信息检索的应用研究.pdf_第2页
(计算机应用技术专业论文)基于移动代理的分布式信息检索的应用研究.pdf_第3页
(计算机应用技术专业论文)基于移动代理的分布式信息检索的应用研究.pdf_第4页
(计算机应用技术专业论文)基于移动代理的分布式信息检索的应用研究.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机应用技术专业论文)基于移动代理的分布式信息检索的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南京邮屯大学硕士学位论文 中文摘要 中文摘要 移动代理技术是二十世纪九十年代出现的一种新技术,由于移动代理移动性、跨平台 性和自治性的特征,它为分布式信息检索提供了一种新的解决方法。 这篇论文主要研究移动代理技术及其在分布式信息检索中的应用,基于图书馆的集成 多个分布的、异构的数据库,对外提供统一的检索服务的需求,设计了一个基于移动代理 的分布式异构数据库检索系统,并j 拟g r a s s h o p p e r 作为移动代理平台,实现了本系统的一 个演示系统。本系统将传统的w e b 服务器与移动代理系统集成,在客户端与服务器端之间 仍然使用传统的客户机服务器技术,而对各个数据库的检索有移动代理系统来完成。服 务器上的应用程序可以将用户的需求交给移动代理,使用户感觉不到数据的分布和移动代 理的存在。负责检索任务的移动代理在各个数据库服务器之间移动,与数据库服务器上的 本地代理交互,对外界屏蔽掉数据库的异构和分布,提供统一的检索接口。由于移动代理 的移动性和跨平台性,本系统可以检索多种类型的数据库,这些数据库可以分布在网络中 的任何地方,异构的操作系统环境上。系统具有很好的开放性、透明性、便于与遗留系统 的集成。另外,由于移动代理的自治性,在检索过程中的中间结果不用返回客户端,用户 不必参与检索的过程,对带宽要求较低,对客户端的没有另外的软件要求。 关键词:移动代理:信息检索:分布式计算:异构数据库 堕室业皇查兰堡主兰焦丝苎 一一垒垡坚! 苎i 三 a b s t r a c t m o b i l ea g e n tt e c h n o l o g yi sad e wt e c h n o l o g yt h a ta p p e a r e di n1 9 9 0 s o w n i n gt o i t m o b i l i t y , p o r t a b i l i t ya n da u t o n o m y ,i tp r o v i d e san e wr e s o l u t i o nt oi sd i s t r i b u t e di n f o r m a t i o nr e t r i e v i n g t h ew o r ko f t h i st h e s i si sf o c u s e do nr e s e a r c h i n gi nt h em o b i l ea g e n tt e c h n o l o g ya n di t sa p p l i c a t i o ni n d i s t r i b u t e di n f o r m a t i o nr e t r i e v i n g b a s e do nl i b r a r y sr e q u i r e m e n t o fi n t e g r a t i n gs o m ed i s t r i b u t e d , h e t e r o g e n e o u sd a t a b a s es y s t e m st op r o v i d eau n i f i e di n t e r f a c e t oh i su s e r s ,ad i s t r i b u t e d ,h e t e r o g e n e o u s d a t a b a s e sr e t r i e v i n gs y s t e mb a s e do nm o b i l ea g e n tt e c h n o l o g yi sp r o v i d e d ,a n dad e m oi si m p l e m e n t e do n g r a s s h o p p e r ,am o b i l ea g e n tp l a t f o r m t h i ss y s t e mi n t e g r a t e st h et r a d i t i o n a lw e bs e d ? e rw i t ht h em o b i l ea g e n tp l a t f o r m t r a d i t i o n a l c l i e n t s e v e ra r c h i t e c t u r ei ss t i l lu s e db e t w e e nt h ec l i e n ta n dw e bs e r v e r r e t r i e v i n gi sc a r r i e do u tb yt h e m o b i l ea g e n t s t h ew e bs e r v e ra p p l i c a t i o nf o r w a r d st h eu s e r sr e q u i r e m e n tt ot h em o b i l ea g e n t s u s e r sc a l l t r e a l i z et h ee x i s t e n c eo ft h ed a t ad i s t r i b u t i o na n dm o b i l ea g e n t s m o b i l ea g e n t st r a v e la c r o s st h ed a t a b a s e s e r v e r s ,i n t e r a c tw i t ht h el o c a ls t a t i o n a r ya g e n t so nt h ed a t a b a s es e r v e r s t h u s ,t h i ss y s t e mm a s k st h e d i s t r i b u t i o na n dh e t e r o g e n e i t yo ft h ed a t a b a s e sa n dp r o v i d e su n i f i e di n t e r f a c et ot h eo u t s i d e o w n i n gt ot h e m o b i l i t ya n dp o r t a b i l i t yo f m o b i l ea g e n t s ,d a t a b a s e sr e t r i e v e dc a nb ed i s t r i b u t e da n y w h e r ei nt h en e t w o r ka n d o nm a n yk i n d so f o p e r a t i n ge n v i r o n m e n t s t h i ss y s t e mh a sg o o do p e n n e s s ,t r a n s p a r e n c ea n dm a k e si te a s i e rt o i n t e g r a t el e g a c ys y s t e m s ,i na d d i t i o n , o w i n gt ot h ea u t o n o m yo fm o b i l ea g e n t s ,t h ei n t e r m e d i a t er e s u l ti sn o t r e t u r n e dt ou s e r sa n du s e p si n t e r v e n ei sn o tn e e d e d t h i ss y s t e mh a sl o wr e q u i r e m e n to fb a n d w i d t ha n dn o a d d i t i o n a ls o f t w a r er e q u i r e m e n to nt h ec l i e n t - s i d e k e y w o r d s :m o b i l ea g e n t ;i n f o r m a t i o nr e t r i e v a l ;d i s t r i b u t e dc o m p u t i n g ;h e t e r o g e n e o u sd a t a b a s e s - 1 1 - 妻室唑皇奎兰堡_ 上兰垡堡奎 一一一矍二墨! 羔 第一章引言 随着网络技术和分布式计算技术的发展,信息检索的环境和方法发生了深刻的变化a 和传统的信息系统相比,现代信息系统中的数据分布在高度异质和不可靠的网络中,我们 需要一种浏览、搜索和组织分布式信息系统的方法。传统的信息服务系统采用客户机服 务器模式为用户提供各种信息服务,n n 对信息资源的检索系统也是基于客户机服务器 结构。这种基于客户机服务器结构的工作方式尽管在一定程度上解决了信息资源的定位 问题,但它存在以下几个缺点:1 ) 下载的页面中有许多无用的信息,影响了索引速度, 浪费了网络通信资源;2 ) 网络中的站点、网页的内容经常变化,现有的搜索模式很难保 证检索结果的实效性;3 ) 由于客户机服务器结构是基于消息传递和远程过程调用的, 因此在搜索过程中必须保证自动搜索程序和服务器的稳定连接。因此,基于客户机服务 器结构的信息检索系统对网络的有效带宽依赖性较强,不适用于具有低带宽、连接不稳定、 分布式等特点的网络环境中。随着带宽资源的日益紧张,这种传统信息管理方式越来越制 约人们对网络上丰富的信息资源的充分利用。 在信息时代,图书馆可以说是一个典型的信息集散地和信息资源中心。通过图书馆局 域网的信息检索,读者可以获得各种信息服务,尤其是科技文献信息服务( 如:书目信息、 电子图书信息、期刊论文信息、会议录标准信息等) 。图书馆的网络建设和各种数据库的 开通是逐步进行的,它们之间可能会存在数据库类型的不同以及网络环境的异构。因此读 者要查找不同类型或不同语种的文献资料,就要打开不同的数据库检索系统。然而读者希 望在一个检索界面下,就能查找到自己所需要的所有文献信息。这就导致了一种需求 图书馆最好能够对外提供一致的数据库检索服务。这就涉及到分布的异构数据库的集成问 题。用传统的方法存在许多问题,要解决这些问题,我们需要种能够支持分布信息管理 和遗留系统集成的技术。 移动代理( m o b i l ea g e n t ) 技术的出现,给了人们一个与传统的客户机服务器模式 完全不同的一个概念,为信息服务中的网络传输和搜索问题提供了一个新的思路。移动代 理是一段独立的程序,它可以在异构网络中由一台机器迁移至另一台机器,这个程序自己 决定何时,何地进行迁移。它可以在任意地点将自己挂起,传送本身到另一机器再恢复执 行。移动代理将计算数据移动,改变了过去将数据向计算移动的模式,将它应用到网络信 息检索中,代理在用户的请求下可动态移动到服务器端进行搜索,然后将最终的检索结果 传送回来,这样移动代理可以直接访问服务器资源,避免了大量数据在网络中的传输,从 堕塞些生叁兰塑主兰堡堡壅 一一一墨二量! 二量 而降低了系统对带宽的依赖,并且在网络环境不稳定的情况下依然能保持稳定的工作;代 理大多用j a v a 语言编写,基于移动代理的系统具有良好的可移植性,便于与遗留系统的 集成,可伸缩性好;它的移动性使得任务能够被分布执行,适合于解决需要分布式处理的 问题,尤其是在分布式信息管理方面能够提供很好的解决方案。 基于以上对现有图书馆的网络信息检索以及移动代理技术的分析,本论文集中讨论移 动代理技术在分布式信息检索领域中的应用,基于具体的图书馆的分布异构数据库的检索 需求,提出了一个基于移动代理的分布异构数据库检索系统的体系结构,以及组成该系统 的基本模块,并对各个模块的功能进行了分析。根据以上对系统工作流程的描述,该系统 的主要组成部分包括:检索服务器,w e b 服务器,移动代理系统,地址一服务列表,检索代 理,检索移动代理。系统的各个组成部分的部署为:用户计算机上安装w e b 浏览器;检索服 务器上有w e b 服务器、地址一服务列表以及移动代理系统,检索代理在这个移动代理系统 内运行,检索服务器是个逻辑上的概念,、b 服务器、移动代理系统、地址一服务列表可 以位于不同的机器上:地址- - n 务列表可以放在检索服务器上,也可以放在检索代理能够 访问到的网络中的其它的机器上,检索代理必须知道地址一服务列表的地址并对它进行检 索;每台提供服务的数据库服务器上都安装个移动代理系统,本地服务代理在相应的数 据库服务器上的移动代理系统中运行:检索移动代理在这些代理系统之间移动,与本地服 务代理交互,得到数据库中的信息:本地服务代理与数据库系统交互,检索出检索移动代 理需要的信息。 本论文共分六章:第一章是引言;第二章介绍网络信息检索相关知识;第三章介绍移 动代理相关知识;第四章基于移动代理的分布式信息检索系统体系结构设计:第五章基于 移动代理的分布式数据库检索系统的实现;第六章是总结与展望。 塑室业皇查堂堡主堂焦笙苎 篁三兰旦垫堕璺丝室塑苎塑! i 坠 第二章网络信息检索相关知识 信息检索技术主要研究信息的表示、存储、组织和访问,即根据用户的查询要求,从 信息资源库中检索出与之相关的信息资料。从历史上看,信息检索经历了手工检索、计算 机检索到网络化、智能化检索等多个发展阶段。信息检索的对象从相对封闭、稳定一致、 由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的 w e b 内容;信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教 师学生,各专业人士等在内的普通大众,他们对信息检索从结果到方式提出了更高、更多 样化的要求。 互联网正成为人们获取信息的主要媒介,网络上的信息量也以指数级的速度增长,单 纯地靠手工查找或组织所有的信息己不能满足用户的需求,如何在浩如烟海的网络信息资 源中快速准确地查询自己所需要地信息成为一项重要的研究课题,信息检索系统由此应运 而生。本章介绍网络信息检索的特点,结构及关键技术,分析传统的信息检索系统存在的 问题。 2 1 网络信息检索的特点 网络信息检索是最能够体现i n t e r a c t 特色的新型信息检索技术,也是目前环境下的最 高水平的信息服务方式。网络信息检索的主要特点”i 是: ( 1 ) 交互式工作方式。所有的网络信息检索工具都具有交互式作业的特点,良好的信息 反馈功能和瞬间响应功能这两个指标是信息检索系统性能的重要参数。 ( 2 ) 用户透明度。网络信息检索对用户屏蔽了网络的各种物理差异,使用户在使用这些 服务时感觉不到差异的存在。这里所指的物理差异包括主机的硬件平台、操作系统等软件 上的差异、客户程序和服务程序版本上的差异、主机的地理位置、信息的存储方式甚至是 通信协议的差别。 ( 3 ) 信息检索空间的拓宽。信息检索空间是衡量信息检索工具的重要指标之一。网络信 息检索在这方面具有传统信息检索和i n t e m e t 基本信息服务所不具备的优势。以f t p 为例, 它的检索空间看起来似乎包括了i n t e r n e t 上的所有f t p 服务器,其实不然。尽管使用f t p 可以检索所有的f t p 服务器,但是用户必须预先知道这些服务器所在的主机地址,而且在 某一时刻只能使用一个f t p 服务器。网络信息检索工具的工作方式则与此不同,它们可以 塑室塑皇查堂堡主兰堕堡苎 苎三童婴丝生墨垒窭塑羞塑堡 同时使用多个主机甚至是所有主机的某些资源而且用户不必知道它们的具体地址。 2 2 网络信息检索系统的工作原理 网络信息检索系统不等于搜索引擎,但搜索引擎是种最为常见的网络信息检索系 统,。下面我们就以搜索引擎为例,来介绍网络信息检索系统的组成和工作原理。主要由四 部分组成【z j : ( 1 ) 网络机器人( r o b o t ) :是一个功能很强的程序,它会定期根据预先设定的地址 去查看对应的网页,如网页发生变化就重新获取该网页,否则根据该网中的链接继续去 访问。网络机器人访问页面的过程就是对互联网上信息遍历的过程。 ( 2 ) 索引器:网络机器人将遍历得到的页面存放在i | 岛时的数据库中。索引器的作用 就是将文档表示成为一种便于检索的方式并存放在索引数据库中。索引一般按照倒排文件 的格式存放。 ( 3 ) 搜索软件:该软件用来筛选引擎中无数的网页信息,从索引中找出与用户查询 请求相关的文档,挑出符合查询要求的网页并且把它们分级排序,与查询关键字相关性 越大的越排在前,然后将分级排序后的结果显示给查询用户。 ( 4 ) 用户接口:为用户提供可视化的查询输入和结果输出界面。在查询输入界面中, 用户按照搜索引擎的查询语法指定待检索词条及各种简单,高级检索条件。在输出界面中, 搜索引擎将检索结果展现为个线性的文档列表返回给用户。 搜索引擎的工作原理如图2 1 所示: 图2 - 1网络信息检索系统的工作原理 从图2 1 可以看出,网络信息检索系统的工作流程为:网络机器人( r o b o t ) 首先在网 络搜寻所有信息,并将它们带回给索引器;然后将搜寻到的信息( 通常为每一页的文本内 容) 进行分类整理,建立索引数据库,并通过i n t e m e t 服务器软件为用户提供浏览器界面 下的信息查询。用户通过浏览器访问查询界面并提交查询请求,索引器根据用户的输入, 在索引中查找相关词语,并进行必要的逻辑上的运算操作,然后在索引数据库中查找匹配 的网页,并将查询结果以超文本链形式显示给用户;用户最终根据搜索引擎提供的链接去 访问相关信息。 网络索引器是网络信息检索系统的核心部分,我们可以把它看作一个具有双层客户机 服务器结构的体系:当用户访问索引器时,用户端为客户机,向索引器提交检索请求, 此时索引器为服务器,检索自己的索引数据库并将检索结果按照一定的格式提交给用户; 当索引器采集数据时,索引器则可以看作是客户机,它向信息资源所在地( 如w e b 站点) 提出检索请求,资源所在地做为服务器将符合检索请求的信息( 如w e b 页面) 提交给索引 器。 2 3 网络信息检索系统的关键技术 3 1 4 1 2 9 1 ( 1 ) 基于网页名称的检索技术。 第代搜索引擎所使用的搜寻方法是:网页构建人可以将自己网站加入搜索引擎的资 - 5 - 童室业皇查兰堡主兰堡堡塞 苎三兰旦垒焦垦壁室塑茎! ! 竖 料库中,自行命名自己的网站,并用文字描述自己的网站。而在使用者键入搜索条件后, 搜索引擎会找出和搜索条件一样或相近的网站或网页的名字来描述。换句话说,第一代的 检索系统希望网页构建者自行决定可以代表自己的网站的词句。其最大的缺点就是无法针 对网页内容进行检索。 ( 2 ) 基于全文内容的检索技术。 w e b 是一个分布式的、全球性的数字图书馆模型,它的u r l 相当于地址的文件标识 器。而现实中,常因u r l 会变动而导致搜索的返回结果变得无用。另一种代替u r l 来 定位搜索目标的方法是基于内容的方法,它是一个包含关键词的表,可用来作为检索目 标网页的查询条件。这种查询称为基于内容的寻址,或概要查询。它的优点是,当一个目 标网页移动时,基于内容的寻址定位也不会改变,从而仍然可以得出正确的检索结果a 基 于内容的查询是基于以下思想的:经过计算,从网页中抽取5 个独立的关键词便可以大致 确定这一网页。一方面,词与词的关系使它们构成一个较长的查询条件;另一方面,查询 条件可转化为某些短语,从而构成几个较短的查询条件。即一个原始查询条件可根据具体 情况进行简化或扩展。还有,互联网上存在着多种格式的文档,除了文本之外还有图像、 音频、视频。人们使用搜索引擎式基本上都是进行文本搜索,对多媒体内容的检索技术尚 不成熟。就此问题目前提出了基于内容的图像检索技术,其工作原理是,由机器自动提取 包含图像内容的可视特征:颜色、纹理、形状、对象的位置和相互关系等。对数据库中的 对象和查询样本图像在特征空间进行相似匹配,检索与样本相似的图像。 ( 3 ) 自然语言处理技术。 自然语言处理长期以来一直是人工智能的一个核心研究领域。比较基础的技术有自动 分词、人名和机构名的自动识别技术、自动标引技术等,其它像信息抽取、自动文摘、文 档自动分类、中文概念词的自动发现以及概念词之间的语义关系的确定等复杂技术也都必 不可少。应用了这些技术的搜索引擎我们称之为智能搜索引擎。实现智能搜索的过程主要 分三部分:语义理解、知识管理和知识检索。其中,知识库是实现智能搜索的基础和核心。 知识库提供的是语义理解中最终将要提供给用户的结果。在语义理解的整个过程中,智能 分词技术是最初的一个环节,它将组成语句的核心词提炼出来供语义分析模块使用。在分 词的过程中,如何能够恰当地提供足够的词来供分析程序处理,并且过滤掉冗余的信息, 这是后期语义分析的质量和速度的重要前提。加入了知识库处理技术的智能分词能够避免 传统分词技术在拆分时产生的歧义组合,从而为语义理解的处理提供良好的原始材料。知 识检索可以利用语义分析的结果,对知识库进行概念级的检索,对用户提出的问题给出 准确度最高、相关度最强的检索结果。总之自然语言的输入将更加方便用户的使用,自然 6 堕室业皇查兰堡主兰垡笙苎生三兰坐型羔垦丝童塑茎! ! 旦 语言接口的提供可以让用户以自然和熟悉的方式使用搜索引擎,更易于用户与搜索引擎 的交互。因此对自然语言的理解是实现搜索的准确描述、保证搜索相关性和相似性的最终 的、根本的解决途径,同时也是建立基于互联网的知识库的关键技术之一。 ( 4 ) 集成搜索引擎技术。 这种技术是将搜索引擎系统建立在多个现有的搜索引擎之上,提供对这些引擎进行 统一访问的服务。集成搜索引擎自己并不维护对所有文件的索引。但是,为了提供更好的 服务,一个复杂的集成搜索引擎通常会维护一些关于底层搜索引擎内容的信息。当向集成 搜索引擎提出查询以后,它能将该查询分送到适当的底层搜索引擎,再搜集和整理底层 引擎返回的结果。将多个搜索引擎组合在一起,可查询的网络覆盖面将比任何单个搜索引 擎都要大很多。由一个建立在多个专题搜索引擎基础之上的集成搜索引擎代替综合引擎, 可以解决在w e b 上搜索的可扩展性问题。此外,集成搜索引擎还可以方便对多个引擎的查 询,提高检索的有效性。文本检索技术的目的是在尽可能减少代价的同时最大限度的提高 检索的有效性。对一个集中控制式的检索系统而言,可以通过在尽可能少的检索非潜在有 用文件的同时检索尽可能多的潜在有用文件来实现这个目的。在集成搜索引擎环境中则需 要分两个层次来实现,首先需要选择尽可能多的潜在有用的数据库进行搜索,同时尽可 能少的选择搜索非潜在有用的数据库,其次在每个被选的数据库里,在尽可能少地检索 无用文件的同时尽可能多地检索潜在有用文件。集成搜索引擎技术要涉及到数据库选择技 术、文本选择技术、查询分派技术和结果综合技术。 ( 5 ) 数据挖掘技术与检索技术的结合。 数据挖掘技术也称数据库知识发现技术,被广泛的应用于数据仓库、并行分布式数据 库中,以发现数据中隐含的规律和趋势,用来分析经验、解释原因、制定决策、指导改进 和预测趋势,使数据库具有知识库的属性。数据挖掘技术涉及许多学科的技术,包括数据 库技术、统计学、机器学习、模式识别技术以及信息检索技术。现在有一种新技术称为 w e b 挖掘技术,它实现对w e b 存取模式、w e b 结构和规则,以及动态的w e b 内容的查 找。假设要搜索某一给定话题的w e b 页面,我们希望得到与之相关的w e b 页面外,还希 望所检索到的页面具有高质量,或是针对该话题具有权威性的页面。而权威性隐藏在w e b 页面链接中。超链接包含了大量人类潜在的注释,大量的w e b 链接信息提供了丰富的关于 w e b 内容相关性、质量和结构方面的信息,有助于自动推断出权威性概念。w e b 挖掘技术 最大的特点就是从大量数据中发现有趣模式,因此发展面向互联网的知识挖掘技术,并将 其与灵活使用的信息检索技术无缝的结合起来,将会向人们提供一个全新的、方便的、内 容空前丰富的学习知识和问题的求解途径。 7 壹室业皇查堂堕主兰堡丝苎 塑三兰坠堡璺丝室塑羞! ! ! 坠 f 6 ) 信息a g e n t 技术。因为用户的信息兴趣是经常变化的,很难用固定不变的软件来建 立用户的兴趣模型,人们迫切需要一种智能工具以解决薄弱的网上信息驾驭能力和剧增的 网络信息量之间的矛盾,a g e n t 技术就是在这种需求下发展起来的。由于w e b 服务器端有 综合性知识库,因此为智能a g e n t 的活动提供了基础。a g e n t 是由一些智能化的程序组成 的自主性的软件实体,它能够较好地理解人的意愿和实现计算机的功能。a g e n t 能够从用 户日常的检索、浏览等行为中学习用户的兴趣,推理用户的需求,为每个用户建立个性化 的文档集,以配置待搜网站的各种参数并执行搜索、查询等操作。列表显示区可以显示f i s h 算法列表中所有项的排列,可以清楚的看到f i s h 算法的搜索过程。网页浏览区用于显示正 在处理的网页。 2 4 目前网络信息检索系统存在的问题 当前搜索引擎还存在以下几方面的不足口1 ; ( 1 ) 随着信息的增多,索引会变得极为庞大。w e b 信息是动态变化的,旧的页面不断 被更新( 包括内容改变、位置移动等) 和删除,新的页面不断出现。如果不及时更新,索引 信息随时会变地过时,但是随着索引数据库的越来越大,更新过程也就越来越困难。 ( 2 ) 基于关键字的检索方式使得检索结果返回成千上万条符合关键字查询条件的纪录, 而其中绝大部分不满足用户的真正需要,而且查询结果的显示顺序比较混乱,对结果进行 排序时没能区分信息的类型( 如文献、新闻、广告等) ,造成用户不得不自行花费大量时间 进行筛选。 ( 3 ) 基于按u r l 来寻址的传统查询方式,使得如果搜索目标网页被移动到别的目录 结构后,与改变前相同的查询条件输入会导致搜索失败。 ( 4 ) 搜索引擎覆盖面相对减少。搜索引擎的索引能力正在越来越落后于网络的快速增 长速度。自1 9 9 7 年以来,搜索引擎的覆盖面相对于网络上公开的可检索的内容实际上是 减少了。网络中有大约1 5 t b 的信息量。但是没有一个单个的搜索引擎能够涵盖网上可检 索页面的2 0 。另外,查询结果的摘要或简介文字( 大多数是对应全文的开头部分) 的准确 性、对复杂查询的支持上也有待改善。 5 几种分布式计算模式的比较 对于i n t e m e t 这样一个分布式信息空间,进行信息收集一个有效的方法是采用分布式 信息收集技术,也就是将信息的收集工作分布到网络的各个节点,实现信息收集的局部化, - 8 - 塑室! ! ! ! ! 皇苎堂堕主兰堡丝壅 苎三皇翌堑笪皇望童塑羞! 塑 从而减少了对网络带宽的需求。下面介绍几种常用的分布式计算模式嗍。 2 5 1 客户机服务器模式 客户机 远程消息 响应 请求 服务器 网络 图2 2 客户机棚务器模式 如图2 2 ,在这种模式下,服务器把所能提供的资源( 如数据库) 服务进行广播,而 实现服务的代码却驻留在本地服务器上。如果客户对服务器上的某些信息资源感兴趣,它 只需简单地调用一个或多个服务器提供的服务即可。目前,大多数的分布式系统都是基于 这种模式的。这种模式常采用请求响应的应答方法,这种方法有以下两点不足之处: ( 1 ) 网络流量大 当客户机调用服务器提供的服务时,无论是采用r p c 机制或者是基于j a v a 的r v i i 机 制都必须在客户和服务器之间建立一条逻辑信道( 进行会话连接) ,在完成给定任务的过 程中可能会涉及多次交互行为,这很容易导致网络交通拥挤。 ( 2 ) 网络性能差 客户机调用服务器上的服务时所建立的连接,必须一直保持到这次服务完成之后才可 以断开。在这种情况下,系统对于网络可靠性、健壮性等就提出了较高的要求。 南京邮电大学硕士学位论文 第二章网络信息检索相关知识 客户机 下载a p p l e t 一一 采用r m i 机制通信 一- l 卜 服务器 网络 图2 3 代码点用模式 如图2 - 3 ,按照该模式,客户机需要使用服务器提供的服务时,首先必须获得实现该 服务的代码。也就是说,客户机最初由于没有代码而不能执行任务,但服务器提供了所需 要的代码。一旦客户机获得服务器中的代码,它就同时拥有处理器和本地资源,计算就可 以在本地完成。与客户机朋艮务器模式不同的是,这种模式中的客户机无需知道远程服务器 的情况。如j a v a 中的a p p l e t 采用的这种模式,但它也存在不足的地方: ( 1 ) a p p l e t 下载后,还必须通过r m i 机制与服务器进行通信。它们之间的通信建立在 会话的基础上,每次会话要进行多次交互,这带来了一定的网络延时。 ( 2 ) 由于j a v a 虚拟机中采用的是“黑盒子( s a n d b o x ) ”安全模式,它禁止一个j a v a a p p l e t 程序访问任何本地或网络资源,也不允许它与非源宿主机( 所谓源宿主机就是向客户机传 送j a v a a p p l e t 程序的服务器) 上运行的程序通信。这对于复杂的分布式应用是极大的限制。 旦一 南京邮电大学硕士学位论文 第二章网络信息检索相关知识 2 5 3 移动代理模式 客户机 远程消息 + 移动代理 i - - - - 一 代理执行环境( a e e ) 网络 图2 - - 4 基于移动代理的模式 如图2 - 4 ,移动代理模式的关键特征就是网络中的任一主机都拥有系统资源、处理器 和方法。方法以移动代理的形式存在,这些方法不是固定的锁定在某台主机上,而是在整 个网络中共享。 移动代理作为综合网络和人工智能的一项新技术,它的智能性、移动性、跨平台运行 等特性,使得网络在逻辑上可以看作是一个巨大的信息体,而不管其内部的信息是如何组 织的,从而达到了网络信息搜索的智能化和真正信息共享,同时它也符合现在的软件的个 性化的发展趋势和开放性系统的要求。 虽一 堕室塑皇查堂堡主堂垡丝塞j 墨三塑垫垡堡塑差! ! 竖 第三章移动代理相关知识 3 1 代理( a g e n t ) 的概念及特性 代理思想的诞生可归功于j o h nm c c a r t h y 在2 0 世纪5 0 年代提出“t h ea d v i c et a k e r ”系 统。代理的研究是从7 0 年代分布式人工智能的研究开始的。但到目前为止,各个研究机 构和研究者对代理始终没有提出一个统一的概念,下面是几个主要的机构对代理给出的定 义1 2 7 】1 2 8 】: ( 1 ) 美国麻省理工学院软件a g e n t 小组的研究人员p a t t i em a e s 认为:a g e n t 是指那些 驻留于复杂和动态环境中,自治地感知环境中信息并采取行动,实现一系列预先设定的目 标或任务的计算系统。 ( 2 ) f i p a ( f o u n d a t i o nf o ri n t e l l i g e n tp h y s i c a la g e n t ) 组织认为,a g e n t 是驻留于环境 中的实体,它可以解释从环境中获得的反映环境中所发生事件的数据、并执行对环境产生 影响的行为。在这个定义中,代理被看作是一种在环境中生存的实体,它既可以是硬件( 如 机器人) ,也可以是软件。 ( 3 ) i b m 智能a g e n t 战略白皮书:a g e n t 是代表用户或其它程序以一定程度的自主性 完成一组操作的软件实体,同时在完成过程中它们可获得关于用户的目标或愿望的知识及 表示。 ( 4 ) 一些学者从智能软件的角度出发,认为a g e n t 是能够为用户执行特定的任务、具 有一定程度的智能可以自主执行部分任务并以一种合适的方式与环境相互作用的软件程 序。 作为代理的软件实体应具备以下的特性i 【2 6 】: ( 1 ) 自主性:自主性是代理最基本的特性,一个代理应该是一个独立自主的计算实 体,具有不同程度的自治能力,即部分或彻底地不受用户干预而自行工作。它应能在无法 事先建模、动态变化的信息环境中独立规划复杂的操作步骤,解决实际问题。 ( 2 ) 反应性:是指代理能感知和作用于其所处的环境,从而对环境的变化做出及时 的响应。这些环境可以是物理的世界、使用图形接口的用户、其它代理集合或者所有这些 的组合, ( 3 ) 代理性:代理具有代表他人的能力,即它们都代表用户工作而不是代表自身。 另外,代理可以把其它资源包装起来,引导并代替用户对这些资源进行访问,成为便于通 1 2 堕塞些皇查兰堡土兰堡垒苎 达这些资源的枢纽和中介。 第三章移动代理相关知识 ( 4 ) 通信性:通信性是指代理之间的交互。代理之间的接口和联系不是固定不变的, 而是随着任务驱动者的改变而改变。为了协作完成件复杂的任务,一些代理可以形成代 理群,代理之间的接口可以在运行中协商,这样就减少了代理之间的耦合性,意味着代理 可以以最小的代价和较小的冲突加入系统或从系统中删除。 ( 5 ) 移动性:具有移动能力的代理,可以在个网络上随时、随地、自主的从一台 主机迁移到另一台。正在运行中的代理状态可以被存储且传送到新主机上,在那里代理程 序被恢复且继续从暂停的地方开始执行。代理将代码和数据封装在执行的一个线程中,每 个代理独立于其它代理之外。移动性是移动代理最重要的特性之一 ( 6 ) 能动性:为了达到目标,代理不是等着接收指令,而是事先有计划,并做些 初始化。代理能探测到适合用户目标的有利场景,通知用户这个场景出现的时机。也就是 说,代理不仅能对所处环境作出响应,还能主动地展现面向目标的行为。 3 2 移动代理的定义 移动代理起源于代理技术。2 0 世纪9 0 年代初g e n e r a lm a g i c 公司在推出商业系统 t e l e s c r i p t 时提出了移动代理的概念。简单地说,移动代理是一个独立可确认的计算机程序, 它可以自主地在异构的网络上按照一定的规程移动,寻找合适的计算资源、信息资源和软 件资源,利用与这些资源同处一台主机的优势处理或使用这些资源,代表用户完成特定的 任务。其突出的特征就是代理实体的运行不是固定在某一台机器上,而是可以动态地在网 络中的多台主机上运行。因此判断一个代理是否是移动代理,关键是看代理是否可以自主 的从一个节点移动到另一个节点,这是移动代理最基本的特征,也是移动代理区别于其它 代理的标志;同时,由于移动代理是在不同的地址空间运行,因此它必须能够保持运行的 连续性,即是代理在移动到另一个节点上运行时的状态必须是它在上一个节点挂起时的状 态。 移动代理迁移的内容既包括其代码也包括其运作状态。运作状态可分为执行状态和数 据状态;执行状态主要指移动代理当前运行时的状态,如程序计数器、运行栈内容等;数 据状态主要指与移动代理运行有关的数据堆的内容。 按所迁移的运行状态的内容,移动代理的迁移可以分为: 强迁移:同时迁移移动代理的执行状态和数据状态,强移动要求移动代理系统提供捕 塑塞些皇查兰堡主堂垡笙壅羔芝翌羔! 堕型塑里塑茎! ! ! 坠 捉执行状态、恢复执行状态的功能。由于代理的执行状态通常很庞大( 尤其对多线程代理) , 所以强移动是开销很大的操作。 弱迁移:只迁移移动代理的数据状态,根据需要只把移动代理的部分执行状态存入数 据状态中随代理一起移动,传输的数据量有限,其速度较强迁移快,但不能保存移动代理 的完整运行状态。 3 3 移动代理技术的优势 移动代理继承了一般代理的某些特点。与传统的技术( 如消息传递和远程调用、进程 迁移、远程求值等) 相比较,移动代理技术具有以下几个方面优势f 7 】: ( 1 ) 节约网络带宽、减轻网络拥塞 移动代理的本质是将计算移动到数据端,直接在数据端进行本地处理,只返回最终结 果,从而避免了大量中间数据在网络中的传输。如图3 - i 所示,大多数通信协议都要涉及 多次交互行为,尤其当安全措施也考虑进去的时候,这往往会引起网络拥塞。使用移动代 理,我们可以将这些会话进行打包,然后再送到目的主机,让交互操作在目的主机本地进 行,这样可以减轻网络拥塞。 主帆 甚午 c 方 骼动_ t 壤世术 图3 - i 移动代理减轻网络负担 ( 2 ) 封装网络协议 任何网络程序都是建立在特定的协议之上,网络程序的开发要求程序设计者深刻的理 解低层的网络协议;随着i n t e m e t 的发展,新的协议和数据格式不断的产生,随着网络协 议的升级,程序需要重新编写、编译,这些都给网络应用的开发和维护带来困难。移动代 理系统是一种中间件,位于操作系统和应用程序之间,封装了低层网络协议,提供移动、 通信、容错、安全等基本功能,开发人员无须了解低层实现即可开发网络应用。当网络协 议升级时。只需修改移动代理系统中相关的功能实现而无须修改移动代理应用程序。 】4 童塞塑皇奎兰堡主兰堡望苎 兰三兰整垫垡矍塑茎塑望 ( 3 ) 异步自主交互 传统分布式系统中异步通信机制( 如异步消息队列) 可以异步地处理多个请求,但要 求提出请求的客户端必须始终在线等待并响应请求的回答,这对移动客户而言是不可行 的。使用移动代理技术,可以将这种任务嵌入到移动代理中,然后通过网络将其派遣出去。 此后,移动代理就独立于生成它的进程并可异步自主地操作了,移动设备则可在稍后的时 间里再恢复连接将它收回。当代理代表客户在远程站点执行任务时,客户可以做其它的事, 这就增加了客户机和服务器之间的异步性。 ( 4 ) 动态适应性 移动代理和其运行环境进行交互,感知环境的变化,网络感知能力使得代理能够自动 找到宿主机,甚至在宿主机改变了自己的地理位置后也能找到。并自主地、快速地做出反 应,使整个系统始终保持在最优状态。 ( 5 ) 健壮性和容错性高 移动代理技术的使用减少了对网络可用性和客户机朋臣务器连接的依赖性。只要代理到 达了目的系统,客户机的崩溃和网络连接的不稳定不会影响任务的执行;移动代理动态响 应环境变化的能力使它更加容易进行容错行为,尤其在一个高度分布的系统的时候。例如, 在一个网络节点失效之前,在其上工作的移动代理可以立即感知,并完成相应的备份工作, 然后移动到其它节点,继续原来的工作。 ( 6 ) 支持平台无关性 网络环境( 尤其是i n t e r n e t ) 无论从硬件或软件的角度讲都是异构的,要求网络应用程 序具有跨平台、可移植的特性。移动代理的运行只和其运行环境有关,和具体的网络结构、 网络协议、计算机设备、操作系统无关,只要网络节点上装有移动代理运行环境,移动代 理就可以实现跨平台的移动和运行。如果所有的移动代理系统都遵循移动代理系统的互操 作标准,就可以实现移动代理在任意移动代理系统中的移动、交互、通信,真正实现平台 的无关性,即所谓的“编译一次,到处移动”。 ( 7 ) 并行性和实用性 使用移动代理能够将一个大的任务分解成多个子任务,放到不同的机器上执行,从而 实现任务的分解以及并行执行,最后对各个结果进行合并;大多数的分布式应用都适合移 动代理模型,因为一个移动代理可以顺序迁移经过一组机器,或者分派一些子代理并行地 访问这些机器,或者保持静止并且与资源进行远程的交互,或者这三个极端的任意组合。 通过使用移动代理,复杂、高效、健壮的行为可以用很少的代码来实现,并且易于理解、 便于维护。 1 5 堕塞塑皇查兰堡主堂焦笙奎 3 4 移动代理系统的体系结构 第三章移动代理相关知识 不同的移动代理系统的体系结构各不相同,但几乎所有的移动代理系统都包括两部 分:移动代理( 包括静态代理和移动代理) 和移动代理服务器( 或称为移动代理主机、移 动代理服务设施等) 。移动代理服务器基于代理传输协议a t p ( a g e n t t r a n s f e rp r o t o c 0 1 ) 实现 了代理在服务器间的转移,并为其分配执行环境和服务接口;代理在移动代理服务器中执 行,通过代理通信语言a c l ( a g e n tc o m m u n i c a t i o nl a n g u a g e ) 相互通信并访问移动代理服务 器提供的服务【8 】,如图3 2 所示。 移动代理服务器 移动代理服务器 a t p 。jw 应b 镕n 服务与接口 l 7 了1 h f乍c lff 丫t 鹅 通多 代理执行环境代理执行环境 3 4 1 移动代理 图3 - 2 移动代理系统结构图 移动代理的主要作用是完成用户指定的任务,它在移动代理服务器所提供的运行环境 中执行,并且可以从一个代理服务器移动到另一个代理服务器。移动代理通过代理通信语 言( a c l ) 与其它代理通信或访问代理服务器提供的服务。它需要实现移动语义( 即目标 主机或路由的选择) 、安全控制( 保护自身) 、与外界( 移动代理服务器以及其它代理) 的 通信等功能。其结构图川如图3 3 所示。 壹室塑皇查兰堡主兰堡丝苎皇兰翌l 堑垫垡堡塑鲞! ! 生 外部环境( 服务设施或其它代理) 一 图3 - 3 移动代理的结构模型 移动代理结构模型可定义为以下相互关联的模块:安全代理、环境交互模块、任务求 解模块、知识库、内部状态集、约束条件和路由策略。体系结构的最外层为安全代理,它 是代理与外界环境通信的中介,执行代理的安全策略,阻止外界环境对代理的非法访问。 代理通过环境交互模块感知外部环境并作用于外部环境。环境交互模块实现a c l 语义, 保证使用相同a c l 的代理和服务设施之间的正确通信和协调,而通信内容的语义与a c l 无关。代理的任务求解模块包括代理的运行模块及代理任务相关的推理方法和规则。知识 库是代理所感知的世界和自身模型,并保存在移动过程中获取的知识和任务求解结构。内 部状态集是代理执行过程的当前状态,它影响代理的任务求解过程,同时代理的任务求解 又作用于内部状态。约束条件是代理创建者为保证代理的行为和性能而作出的约束,如返 回时间、站点停留时间及任务完成程度等,一般只有创建者拥有对约束条件的修改权限。 路由策略决定代理的移动路径,路由策略可能是静态的服务设施列表( 适用于简单、明确 的任务求解过程) ,或者是基于规则的动态路由以满足复杂和非确定性任务的求解。 服务设施为移动代理提

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论