(图书馆学专业论文)oai集成信息检索系统研究与设计.pdf_第1页
(图书馆学专业论文)oai集成信息检索系统研究与设计.pdf_第2页
(图书馆学专业论文)oai集成信息检索系统研究与设计.pdf_第3页
(图书馆学专业论文)oai集成信息检索系统研究与设计.pdf_第4页
(图书馆学专业论文)oai集成信息检索系统研究与设计.pdf_第5页
已阅读5页,还剩71页未读 继续免费阅读

(图书馆学专业论文)oai集成信息检索系统研究与设计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

o a i 集成信息检索系统研究与设计 图书馆学专业 研究生:李勇丈指导教师:张晓林教授 随着计算机技术、网络技禾以及信息检索技术本身的发展,信息用户的需 求呈现出网络化、集成化、智能化、个性化的特色。在图书情报领域,尤其是 在数字图书馆体系架构里,基于分布式计算技术和各种互操作机制的整合检索 和整合浏览,便成为我们关注和研究的重点内容之一。o a f 元数据搜寻协议通 过元数据搜寻和检索集成这种模式为发布w e b 信息的机构间实现互操作提供了 一个与应用无关的互操作框架,因此,本文选择o a i 作为研究对象,并探讨基 于0 a i p m h 开放元数据搜寻的集成信息检索系统的设计与实现。 分布式计算技术和分布式体系结构是实现互操作的基础。典型的分布式计 算技术包括d c o m 、r m i 、c o r b a 、r e m o t i n g 等,公认的优秀分布式计算平 台包括c o r b a 、j i n i 、w e bs e r v i c e s 、e n t e r p r i s ej a v a b e a n 等,本文对上述分布 计算技术及分布体系结构进行了介绍并对他们各自的功能和特点作了简单比 较。计算环境的互作性建立于网络、数据、应用程序和管理服务四层框架之上, 而数字图书馆领域内实现的互操作模式均源于计算环境互操作性的支持。难于 实现裸数据层次上的整合,因此,我们致力于系统层次上“服务”的整合。目 前,分布异构信息整合检索的热点技术突出表现为:实现深层次的知识挖掘: 满足知识检索的要求;实现异构信息整合检索和全息检索;满足个性化用户需 求等方面。 o a i p m h 是一个低入门级的元数据互操作协议,基于x m l 和h t t p 的 p o s t 或g e t 方法,实现对互联网上数据提供者元数据仓库的开放搜寻。本文 对0 a i 协议的提出背景、o a i 协议的基本特征、o a i p m h 协议规范的内容、 国内外研究及应用现状进行了介绍。 本论文的主要目标是设计一个基于o a i 开放元数据搜寻的集成信息检索系 统。因此,本论文的主要任务体现在实验环境的构造及o a i 各系统模块的逻辑 设计和编程实现。完成的模块包括数据提供者的o a i 接口模块、服务提供者的 搜寻及搜寻调度管理模块、基于搜寻到的元数据的检索服务模块。通过各模块 集成实验验证,程序能基本正常运行:数据提供者能为服务提供者提供搜寻接 口;服务提供者能实现对本地和互联网上的数掘提供者进行开放搜寻,并在此 基础上为用户提供元数据库检索服务。实验环境不等予实现环境,本文也给出 了在实现环境中需解决和继续完善的有关问题。 z 3 9 5 0 通过对编码方式和内容语义的标准化来实现不同系统间的互操作, 本文对o a i 和z 3 9 5 0 的互操作机制和实现功能作了简单比较。为了构建一个 健壮、高性能的o a i 现实运行系统,有必要在理论上对一些关键问题加以探讨, 这些问题可能包括:减少元数据转换匹配差异;查询算法选择及优化:数据仓 库内容同步等。 书馆 关键词:o a i 元数据互操作元数据搜寻集成检索x m l 数字图 r e s e a r c ha n di m p l e m e n to f o a i b a s e di n t e g r a t e d i n f o r m a t i o nr e t r i e v es y s t e m m a j o r :l i b r a r ys c i e n c e p o s t g r a d u a t e tl iy o n g w e n a d v i s o rzp r o f e s s o rz h a n gx i a o l i n w i t ht h ed e v e l o p m e n to fc o m p u t e rt e c h n o l o g y , n e t w o r k t e c h n o l o g ya n d i n f o r m a t i o nr e t r i e v a lt e c h n o l o g y , t h ei n f o r m a t i o nd e m a n do ft h ec u s t o m e rf e a t u r e sa s n e t w o r k i n g ,i n t e g r n n i o n ,i n t e l l i g e n c ea n dp e r s o n a l i t y i nt h ef i e l do fl i b r a r ys c i e n c e a n di n f o r m a t i o ns c i e n c e ,e s p e c i a l l yi nt h ef r a m e w o r ko f d i g i t a ll i b r a r y , t h ei n t e g r a t e d q u e r ya n di n t e g r a t e de x p l o r eb a s e do ud i s t r i b u t e dc o m p u t e rt e c h n o l o g ya n da l lk i n d s o fi n t e r o p e r a b l em e c h a n i s mb e c o m eo u ri m p o r t a n tr e s e a r c hc o n t e n t w i t hm a k i n g u s eo fm e t a d a t ao p e nh a r v e s t i n ga n dq u e r yi n t e g r a t e d ,o a i - p m hp r o v i d e sa n i n d e p e n d e n ti n t e r o p e r a b l ef r a n a e w o r k f o rw e bs i t e u n d e rt h i s b a c k g r o u n d ,t h i s p a p e rp r e s e n t s t h ep o s s i b i l i t yo fp r o v i d i n gd i s t r i b u t e di n t e g r a t i o ni n f o r m a t i o n r e t r i e v eo nt h eb a s i so ft h ei n t e g r a t i o nm e t a d a t ar e p o s i t o r y , w h i c hi sc o n s t i t u t e db y t h eo p e nh a r v e s t i n go ft h eo a i p m h ( o p e na r c h i v e si n i t i a t i v e p r o t o c o lo f m e t a d a t ah a r v e s t e r ) m e t a d a t a f i r s t l y ,i t s u m m a r i z e st h ed i s t r i b u t e d c o m p u t i n gt e c h n o l o g y , d i s t r i b u t e d a r c h i t e c t u r e ,i n t e r o p e r a b i l i t y a n dt h e d e v e l o p m e n t t r e n do ft h e i n t e g r a t i o n i n f o r m a t i o nr e t r i e v e d i s t r i b u t e dc o m p u t e ra n dd i s t r i b u t e da r c h i t e c t u r ei st h eb a s eo f i n t e r o p e r a b i l i t y t h em a i nd i s t r i b u t e dc o m p u t e rt e c h n o l o g yi n c l u d e sd c o m ,r m i , c o r b aa n dr e m o t i n g d i s t r i b u t e do p e r a t i n gp l a t f o r mi n c l u d e sc o r b a ,j i n i ,w e b s e r v i c e sa n de n t e r p r i s ej a v a b e a n i n t e r o p e r a b i l i t yo fc o m p u t e re n v i r o n m e n tb u i l d s u po nt h en e t w o r k ,d a t a ,a p p l i c a t i o na n ds e r v i c e s t h ei n t e r o p e r a b l ep a t t e r n si nt h e r e g i o n o fd i g i t a l l i b r a r y a l l o r i g i n a t e f r o mt h e i n t e r o p e r a b i l i t y o fc o m p u t e r e n v i r o n m e n t w et r yo u rb e s tt or e a l i z et h es e r v i c ei n t e g r a t e di nt h el e v e lo fs y s t e m b e c a u s et h ei n t e g r a t i o ni nt h el e v e lo fd a t ai sv e r yd i f f i c u l t a n dt h e n ,i ti l l u s t r a t e st h eb r i e fc o n d i t i o no fo a id e v e l o p m e n t ,t h e s p e c i f i c a t i o no fo a i - p m hp r o t o c o la n dt h er e s e a r c hp r o g r e s so nt h i st o p i cb o t ha t h o m ea n da b r o a d o a i p m h ,a sl o we n t r ym e t a d a t ai n t e r o p e r a b l ep r o t o c o lb a s e do n x m l t h ep o s to rg e tm e t h o do fh t t p , i sa b l et or e a l i z et h em e t a d a t ao p e n h a r v e s t i n go nt h ei n t e r n e ta n dp r o v i d et h ec u s t o m e r sw i t hm e t a d a t ar e p o s i t o r yq u e r y s e r v i c e t h eh o tt e c h n o l o g yi nt h ei n t e g r a t e di n f o r m a t i o nr e t r i e v er e p r e s e n t sa sw e b m i n i n g k n o w l e d g er e t r i e v e ,d i s t r i b u t e dh e t e r o g e n e o u si n f o r m a t i o nr e s o u r c e sr e t r i e v e a n dp e r s o n a l i t yr e t r i e v e t h em a j o rg o a lf o rt h i sp a p e ri st od e s i g na ni n t e g r a t e di n f o r m a t i o nq u e r y s 3 r s t e mb a s e do nt h eo a io p e nm e t a d a t ah a r v e s t i n g t h e r e f o r e ,i tm a i n l yf o c u s e so n t h ee s t a b l i s h m e n to ft h el a be n v i r o n m e n ta n dt h ei m p l e m e n to fe a c hs y s t e mm o d u l e o fo a io p e nh a r v e s t i n gs y s t e m t h ef i n i s h e dm o d u l e si n c l u d et h eo a ii n t e r f a c e m o d u l eo fd a t ap r o v i d e r , t h eq u e r ym o d u l ea n dq u e r ys c h e d u l em a n a g e m e n tm o d u l e o fs e r v i c ep r o v i d e r , a sw e l la st h eq u e r ys e r v i c em o d u l eb a s e do nt h eh a r v e s t e d m e t a d a t a w i t hag o o dl o g i cd e s i g n ,a l lf u n c t i o n so ft h ea b o v em o d u l e sa r e i m p l e m e n t e dt h r o u g hp r o g r a m m i n g ,a n da l lt h ep r o g r a m sc a nb er u nw e l la f t e rt h e i n t e g r a t i o nt e s t sf o re a c hm o d u l e ,t h e r e b yr e a l i z i n gt h em e t a d a t ao p e nh a r v e s t i n g b e t w e e nt h el o c a la n dt h ei n t e r n e t a n dp r o v i d i n gc u s t o m e r sw i t hm e t a d a t ar e p o s i t o r y q u e r ys e r v i c e t h el a be n v i r o n m e n td o e s n te q u a lt ot h ep r a c t i c a le n v i r o n m e n t ,s o t h i sp a p e rl i s t ss o m ep r o b l e m sn e e dt ob er e s o l v e da n dr e s e a r c h e di nt h ef u t u r e b a s e do nt h es t a n d a r d i z a t i o no fe n c o d ep a t t e r na n dc o n t e n ts e m a n t i c ,z 3 9 5 0 c a nr e a l i z et h ei n t e r o p e r a b i l i t yb e t w e e nd i f f e r e n ti n f o r m a t i o nr e t r i e v es y s t e m s t h i s p a p e rm a k e sab r i e fc o m p a r i s o no ni n t e r o p e r a b l em e c h a n i s ma n df u n c t i o nb e t w e e n o a ia n dz 3 9 5 0 i no r d e rt oi m p r o v et h eq u a l i t yo fo a is y s t e m ,t h ef o l l o w i n gt o p i c s s t i l ln e e dt ob ed i s c u s s e d :t h ed e c r e a s em a t c hd e f a u l ti nm e t a d a t at r a n s f o r m ,t h e c h o i c ea n do p t i m i z a t i o no fq u e r ya l g o r i t h ma n dt h es y n d i c a t i o no f m e t a d a t ai nd a t a p r o v i d e r sr e p o s i t o r y , e t c k e yw o r d s :o a i ,m e t a d a t a ,i n t e r o p e r a b i l i t y , m e t a d a t ah a r v e s t i n g ,i n t e g r a t e d i n f o r m a t i o nr e t r i e v e ,x m l ,d i g i t a ll i b r a r y 综述 o a i 协议的a i 口h a 版于2 0 0 0 年9 月形成,产品版即2 0 版于2 0 0 2 年6 月 发布。o a i 协议的目标定位为支持对具有学术研究价值的多种数字资源的元数 据搜寻。作为低入门级的互操作协议o a f - p m h 通过元数据搜寻和检索集成这 种模式为发布w e b 信息的机构间实现互操作提供了一个与应用无关的互操作框 架。o a i 采用了中间层次的互操作协议,实现成本比较低,有利于用户松散与 动态加入,从而构造一个丌放的、级联的大规模开发团体。 自从o a i 协议提出以来,就引起了国外电子出版界、图书情报领域、政府 部门等的关注,已开发了许多基于o a i 的应用项目,在论文3 3 部分对此进行 了详细的介绍。我国国内也对基于o a i 的应用研究表现出了极大的热情,c a l l s 学位论文提交系统、t r s 学位论文提交系统、中国民族音乐数字图书馆项目 ( c f m d l ) 、知识仓库建库管理系统和知识网络管理系统( k d k w 3 5 ) 等都提 出以o a l p m h 作为互操作机制之一,但它们的实际实现方式及实现结果未见 更进一步的文献报道;国家科学数字图书馆门户网站推出了o a i 科学数据库跨 库搜寻引擎:北京大学古籍数字图书馆拓片元数据库研究项目组在文献中报道 称他们设计和实现了支持o a i p m h 的互操作体系结构,本人通过同项目参与 者之一的j b 京大学信息科学与技术学院网络与信息系统研究所在读硕士研究生 王蜀安联系,获得了他们的数掘提供者u r l ,在浏览器上能通过其o a i 接口实 现o a i 请求,但不能通过本人实现的服务提供者搜寻程序( 经实验验证能搜寻 b ! 垃;纽坠坠q e 签些i 箜:q 篷r g 血! 互韭e 血n 坐:d ! 上提供的数据提供者) 对其元 数据仓库实现开放搜寻,王蜀安也对这个事实作了说明( “数图组现在对外的服 务器不稳定,直接在程序中用s t r e a m 收割也许会出错建议你发出g e t 请求后 把x m l 另存下来再收割转储到本地。”2 0 0 4 4 1 0 ) 。综合国内的o a i 应用研究 项目来看,目前还没有数据提供者在互联网上发布供用户开放搜寻的o a i 接口; 除国家科学数字图书馆门户网站推出的o a i 科学数据库跨库搜索引擎外( 推出 时间迟于我毕业论文定题时间) ,未见文献报道有其它机构作为o a i 服务提供者 在基于搜寻到的元数据基础上为用户提供检索服务。 本文在分析各种分布式计算技术与分布式体系结构以及分布环境下数字图 书馆互操作机制的基础上,选择o a i 作为解决基于开放搜寻的集成系统的基本 技术方法,并指出了具体的技术实现线路。 基于对o a i 协议及国外应用项目的分析,设计出了o a i 系统中数据提供者 和服务提供者的整体功能架构及各模块构成。在对数据提供者接口模块的详细 逻辑设计基础上通过编程实现了数据提供者功能:在对服务提供者搜寻模块、 基于搜寻到的元数据检索服务模块的详细逻辑设计基础上通过编程实现了服务 提供者功能。 对于数据源存放在关系数据库、目录系统文件、关系数据库与目录系统文 件相结合的数据提供者,使用提供者a s p 程序,均能通过o a i 命令接口被服务 提供者搜寻。在服务提供者部分,利用调度任务管理程序、搜寻管理器程序和 搜寻器程序,能把本实验系统所建立的数掘提供者所提供的元数据记录以x m l 文件形式搜寻至某一目录;在h t t p :w w w o p e n a r c h i v e s o r g r e g i s t e r l i s t f r i e n d s p l 网站罗列的数据提供者列表中,选取几个数掘提供者用于实验测试,经验证, 搜寻程序能够实现对互联网上分布式数掘提供者所提供的元数据进行开放搜 寻。把搜寻来的元数据记录导入关系数据库,然后建立一个检索用w e b 服务器, 能为用户提供全部元数据记录的检索服务,实现了本论文要达到的主要目标, 即o a i 集成信息检索系统的设计。 通过对上述三个模块的集成实验,说明基于o a i p m h 的开放元数据搜寻 协议能够在一定程度上实现元数据互操作,同时,基于搜寻结果集,服务提供 者可为用户提供集成信息检索服务。在o a i p m h 协议中,所有请求与应答均 是基于h t l l p 的服务,能穿透防火墙,不需要处理底层的复杂通讯协议,只要 数据提供者能够把自己元数据转换成d c 格式元数据,就能加入o a i 系统。由 于o a i 协议的简单性,因此便于图书情报机构的松散与动态加入。基于o a i 协议,可以构造一个丌放的、级联的、可扩展的开放文档体系,据此方式,可 构建国家联合目录和地区中心目录。基于o a i 协议,可以改变现有的科技文献 及学术期刊数字化传播方式,相应也会改变我们的学术交流方式。 1前言 1 1研究背景 随着信息技术的发展,需要存储和传播的信息量越来越大,信息的种类和 形式越来越丰富,传统的图书馆机制显然不能满足这些需要,于是数字图书馆 应运而生。数字图书馆是高技术的产物,信息技术的集成在数字图书馆的建设 中扮演了非常重要的角色。具体来说,其涉及数字化技术、超大规模数据库技 术、网络技术、多媒体信息处理技术、信息压缩与传送技术、分布式处理技术、 安全保密技术、可靠性技术、数据仓库与联机分析处理技术、信息抽取技术、 数据挖掘技术、基于内容的检索技术、自然语言理解技术等等。数字图书馆的 发展始于2 0 世纪八十年代术的美国和英国,而后向全球扩展。目前,世界各发 达国家都投入了大量的资源,加紧数字图书馆建设。我国也认识到了建设数字 图书馆的重大意义,图书馆和情报机构都投入了大量的人力物力抓紧建设数字 图书馆,并取得了不错的成绩。 我国在建设数字图书馆的过程中,逐步认识到构建数字图书馆应用系统所 需的关键技术与解决方案可能包括:数字图书馆系统体系结构;数字资源加工 编辑相关技术:数字图书馆应用平台和资源管理;数字图书馆用户服务相关技 术;数字图书馆的标准规范。在现实应用中,如何通过统一检索界面,为用户 提供分布环境里同构或异构信息的整合检索和整合浏览,是非常重要也是迫切 需要进行研究并加以解决的问题。目前应用得较成熟的集成技术是跨数据库检 索,即通过同一检索入口,能查找不同数据库的内容,同时检索系统能对检中 结果进行归并整序,然后返回给读者。 为了实现分布异构环境旱信息的集成检索,数字图书馆研究与应用领域探 索和实验了多种途径但为国内信息门户网站成功应用的互操作方案并不多, 有一些数字图书馆通过使用相同的元数掘格式和遵守相同的网络协议来实现一 定程度上的信息共享和集成检索。 o a i 元数据搜寻协议通过元数据搜寻和检索集成这种模式为发布w e b 信息的 机构阳j 实现互操作提供了一个与应用无关的互操作框架。o a i p m h 通过h t t p 协议的g e t 或p o s t 方法传递数据,实现成本比较低,因此本文选择o m 作为研 究对象,并探讨基于o a i p m h 的开放元数据搜寻系统的设计与实现。 1 2 研究内容 本文研究课题是在完成张晓林教授主持的中国科学院数字图书馆研究课题 “基于用户的开放数字信息服务机制”子课题“整合检索与整合浏览机制”的 资料搜集过程中确定下来的。 本文研究工作的目标在于建立一个基于o a i - - p m h 的开放元数据搜寻系统。 该系统能实现对分布式环境下支持o a f - - p m h 协议的数据源进行主动搜寻。构建 元数据仓库,从而为用户提供集成信息检索服务。 本文研究工作的重点在于介绍集成信息检索和理论基础和实现方法、描述 o a f - - p m h 系统逻辑结构、数掘提供端的程序设计与实现、服务提供端的程序设 计与实现、各主要系统模块i 刨的集成实验,以及在此基础上实现的元数据开放 搜寻和检索集成。 具体的研究成果如下: 本文对集成信息检索相关技术及理论基础作了全面的分析与论述。基于信 息检索环境的变迁认为信息检索必须适应网络化、集成化、智能化和个性化的 挑战。 在分析各利t 分布式计算技术与分们式体系结构以及分布环境下数字图书馆 互操作机制的基础上,选择o a f 作为解决基于丌放搜寻的集成系统的基本技术 方法,并指出了具体的技术实现线路。 构造了o a f 实验环境及几个核心系统模块,包括数据提供者模块、元数据 搜寻模块、搜寻调度管理模块和基于搜寻到的元数据的检索服务模块,以及各 模块的集成。 探讨了实验结果及实现意义,并将其与z 3 9 5 0 技术作了简单比较,同时指 出在现实环境中大规模应用尚需进一步研究与改进的问题。 1 3 内容安排 本文第1 章为前言部分,介绍本文的研究背景、研究内容和研究成果。 第2 章对集成信息检索技术及系统作了比较全面的综述,包括分布式计算 技术与分布式体系结构,数字图书馆互操作机制,几种典型集成信息检索平台, 以及集成信息检索技术发展方向等。 第3 章对o a f 元数据搜寻协议进行了介绍,包括o a f 的发展、o a i - - p m h 协 议规范,以及o a i 的国内外应用现状。 第4 章对o a f 系统的逻辑结构进行了简单介绍。 第8 章详细说明了o a i 丌放元数据搜寻系统的设计与实现,包括数据提供 者与服务提供者的程序设计与实现。 第6 章对o a f 开放元数据搜寻系统的实验结果进行了简单分析,并指出在 实际应用与理论上需要进一步研究与完善的问题。 2 集成信息检索概述 2 1分布式环境下信息检索技术面临的挑战 信息检索经历了手工检索、计算机检索直至目前的网络化、智能化检索等 多个发展阶段。在网络未广泛利用以前,文本信息检索是信息检索的核心任务。 由于计算机技术和网络技术以及信息检索自身技术的发展,网络化和智能化的 信息检索已成为检索技术发展热点。目前,信息检索的对象从相对封闭、稳定 一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广 泛、管理松散的w e b 内容及分佃式数据库;信息检索用户也由原来的情报专业 人员扩展到包括商务人员、管理人员、教师、学生、各专业人士等在内的普通 大众:信息用户对信息检索从结果到方式都提出了更高、更多样化的要求。在 此基础上,适应网络化、智能化、集成化以及个性化的需要是分布异构环境下 信息检索技术面临的首要挑战。 信息检索的网络化、智能化、集成化以及个性化是实际工作的需要,也是 信息检索研究与发展的首要重点。所谓网络化,就是能及时地发现分布在整个 互联网上的各种数据源中的信息:智能化,就是能主动发现信息并满足用户知 识检索的需求;集成化,就是能通过一个统一用户界面向用户提供经高度整合 的有序知识:个性化,就是能定制实现用户的多样化需求。随着信息的海量剧 增,以及互联网的广泛使用,信息检索领域在上述几方面作了大量有益的探索, 也取得了巨大的成就。 综观现在的各种检索技术,f 朝两个方向发展,一是不断研究对不同信息 源的专门检索技术,另一方向是对各种分布异质信息源的整合检索研究。这两 种检索技术研究方向都在发展和深化集成化、智能化和个性化的特色。专门信 息源的检索技术,包括对文本、图像、音频、视频等的检索。仅以文本检索为 例,已经历了文摘、超文本、全文本检索等阶段,在深度上提高了管理和组织 信息的能力,与文本检索相关的支撑技术如自动抽词、自动索引、自动检索、 自动文摘、自动分类、自动翻译等也都取得了长足的进步。分粕式异质数据库 的发展,w e b 内容的日益丰富,使信息工作者对各种整合检索方法和技术进行 了探索和实践。作为解决网络信息资源获取整体方案的数字图书馆,更是将整 合检索作为重点研究内容,并将其作为体系架构的主体部分。本论文的主题是 研究整合检索的一种方法,在接下来的部分将对异构信息整合检索的计算环境 作详细的介绍。 2 2 分布式计算技术与分布式体系结构 简单地说,分布式计算是两个或多个软件互相共享信息。这些软件既可以 在同一台机器上运行,也可以在通过网络连接起来的几台不同机器上运行。绝 大多数的分布式计算是基于客户机服务器模型的。在客户机i n 务器模型内, 有两类主要的软件:客户机软件,它提出信息或服务的请求;服务器软件,则 提供这种信息或服务。分斫j 式计算通过稀有资源的共享,在许多不同机器上平 衡负载以及把应用程序放在最符合需要的机器上来使计算资源的使用更有效。 分布式计算的理想技术路线:部署分布式操作系统,全面管理系统中各自 独立的计算机,呈现给用户单一的系统视图;现实技术路线:在网络上部署分 开j 式计算环境,并且提供丌发的工具和公共服务,支持分布式应用,实现资源 的共享和协同工作。分布式计算技术经历了以下几个发展阶段,见表2 - 1 。 表2 1 分布式技术发展阶段 第一代( 8 0 9 0 年代初)第代( 9 0 年代)第二= 代( 2 0 0 0 年以厉) 面向的主要信息共享异构环境r 的应川智能化的协同i i 作 问题且操作 体系架构经典的c s 计算模j 弘而向对象的多层 白土的多a g e n t 模璀 c s 模型 关键技术特动川传统的计算概念和殴将面向对象的技术面向a g e n t 的拟人化的 计( 如过群凋h j 剁文f l :j 麻川丁分布式计算交互环境 享) 成果能够提供丰富的分布式系已经成为建立体系概念验证系统令人鼓 统服务,良女_ f _ 的分布式系统架构和软件架构标舞,尚未达到广泛应刚 管理和典型的分布式府h j准的核心技术丁协同1 :作的成熟程度 目前,公认的优秀分和式计算平台有c o r b a 、j i n i 、w e bs e r v i c e s 、 e n t e r p r i s ej a v a b e a n 等,常用的分布对象计算技术有d c o m 、r m i 、c o r b a 、 r e m o t i n g 等。下面对几种分如对象计算技术进行简单介绍。 c o m d c o m “”( c o m p o n e n to b j e c tm o d e l d i s t r i b u t e dc o m p o n e n to b j e c t m o d e l ) 是微软公司提出的分和式组件对象模型标准,支持在局域网、广域网甚 至i n t e r n e t 上不同计算机的对象之间的通讯。d c o m 基于c o m 的应用程序、组 件、工具等的基础之上不必关心太多的网络协议细节问题,从而使系统能够 集中精力解决用户所要求的问题。d c o m 位于应用程序的组件之问,将组件以不 可见的方式结合在一起组成具有完整功能的应用程序。d c o m 具有以下属性:位 置透明性;可伸缩性;可配冒性;安全性:协议无关性;平台无关性。 r m i “”( r e m o t em e t h o dl n v o c a t j o n ) 是一个分布式对象系统,它使你能够 轻松地丌发出分布式j a v a 应用程序。在r m i 中丌发分布式应用程序比用套接字 丌发要简单,因为不需要做设计协议这种很容易出错的工作。r m l 支持存储于 不同地址空间的程序级对象之问彼此进行通信,实现远程对象之问的无缝远程 调用。r m i 使用j a v a 远程消息交换协议j r m p 进行通信。r m i 应用程序通常包括 两个独立的程序:服务器程序和客户机程序。典型的服务器应用程序将创建多 个远程对象,使这些远程对象能够被引用,然后等待客户机调用这些远程对象 的方法。而典型的客户机程序则从服务器中得到一个或多个远程对象的引用, 然后调用远程对象的方法。r m i 包括三层:端头框架层、运程引用层和传送层。 r m i 为服务器和客户机进行通信和信息传递提供了一种机制。 c o r b a ( c o m m o no b j e c tr e q u e s tb r o k e ra r c h i t e c t u r e ) 公共对象请求代 理架构是为可重用和可移植的应用程序间实现互操作提供基础和应用开发框架 的工业标准。c o r b a 提供了分币i 对象体系,从而使对象之涮可以跨语言、网络、 体系结构及操作系统进行通信。c o r b a 既能解决集成遗留应用程序和系统时所 遇到的问题,也能为动态变化的企业环境提供适应性。对分布式计算来说,c o r b a 是通过多层结构、加入代理器、允许服务有多个进程以及支持同步异步( 延迟 通信,轮询实现) 通信来增强其性能的。 r e m o t i n g “”是微软n e t 体系的公共语言运行时对象,是d c o m 的替代品。 r e m o t i n g 提供了一种允许对象通过应用程序域与另对象进行交互的框架。 r e m o t i n g 是基于进程问通信的机制,进程l 刈通信需要一个向其进程外的调用方 提供功能的服务器对象、一个在服务器对象上进行调用的客户端以及一个将调 用从一端运送另一端的传输机制”。1 。这利t 框架提供了多种服务,包括激活和生 存期支持,以及负责与远程应用程序进行消息传输的通讯通道。格式化程序用 于在消息通过通道传输之前,列其进行编码和解码。应用程序可以在注重性能 的场合使用二进制编码,在需要与其它远程处理框架进行交互的场合使用x m l 编码。在从一个应用程序域向另一个应用程序域传输消息时,所有的x m l 编码 都使用s o a p 协议。出于安全性方面的考虑,远程处理提供了大量挂钩 ( h o o k i n g ) ,使得在消息通过通道进行传输之前,安全接收器能够访问消息和序 列化流。r e m o t i n g 体系结构如图2 - 1 所示。 黾 7l事竺!竺兰 图2 1r e m o t i n g 体系结构 就上面的四种分布式对象计算技术,可以作出如下的比较结果:c o r b a 技 术提供了异种系统异类环境下的分桁式技术,特点是大而全,互操作性和开放 性非常好,主要用于企业级的应用中:d c o m 则提供了w i n d o w s 系统下的分布式 技术和组件,其具有广泛的平台和众多已有控件,c o m d c o m 最大优势是它的运 行效率,同时还有一系列相应的丌发工具支持;r m i 则是一种纯j a v a 的分布式 解决方案,与传统的r p c 类似,只能支持初级的分布对象互操作,应用领域是 中小企业的分布式系统:基于n e q lr e m o tj n g 技术创建的w e b 服务,能够与前3 者的技术解决方案相互交互,这种操作的灵活性非常强大,允许丌发人员容易 和高效地创建定制的、健壮的分布式系统。 分布式计算平台c o r b a 与w e bs e r v i c e s 稍后会作进一步介绍,这里对j i n i 和e n t e r p r i s ej a v a b e a n 作简单介绍。 j i n i ”是一种全新的构建分币i 式系统的技术,具有动态的、自形成的和自 管理的特性,它是一种真正的基于服务的分布式体系结构。基于j a v a 的j i n i 技术提高了分布式系统编程的抽象级别,使得用户只需在高层的对象接口上进 行编程,而不必处理低层的通信协议,简化了分布式系统的开发。在构建分布 式嵌入系统的过程中利用j i n i 互联技术,不但可以降低系统开发难度,实现嵌 入式环境中基于服务的互操作,而且还可提高整个系统的灵活性和可靠性。在 j i n i 系统中有3 个主要的角色:服务s e r v i c e ( 但如打印机服务) 、客户c l i e n t ( 使用服务的人或程序等) 、查找服务l o o k u ps e r v i c e ( 它在c l l e n t 和 s e r v i c e 之间扮演代理、中介、定位的角色) 。还有一部分就是连接这3 部分的 网络,该网络将运行t c p t p 和r m i 协议”。j i n i 的体系结构如图2 - 2 所示。 f 成州 代删 通j = i :代胖对豫拜j - 和服务 上f j 十h 可_ 通信 图2 - 2j i n i 的体系结构 j i n l 可以把分布嵌入式系统变成动态的、灵活的易管理的系统。j i n i 的白 形成特性提供了一种自动相1 王发现和加入j i n i 网络来组成服务联盟的能力,可 以使各种嵌入式设备以一种简捷的方式实现集成和互操作。j i n i 的动态性使得 每个嵌入式设备可以灵活地加入和离丌j i n i 服务联盟这样,当一些嵌入式设 备( 如移动设备、p d a 等) 在需要使用服务时,可以建立暂时的连接加入j i n i 联 盟;服务完成时,离开。在不需要人为参与管理的情况下,整个系统具有良好 的可伸缩性。另外,j i n i 是基于j a v a 的,j a v a 虚拟机屏蔽了不同机器平台和 操作系统的异构性,简化了嵌入式系统的编程:而且j i n i 将j a v a 应用环境由 单独的j a v a 虚拟机扩展到个j a v a 虚拟机网络,为实现分布式计算提供了一 个良好的平台。 e n t e r p r is ej a v a b e a n ”“( e j b ) 技术是s u n 用分布式体系结构丌发事务应用 程序的基础。l i b 分御式对象放在b e aw e b l o g i c 之类的的应用程序服务器e j b 容器中,提供网络上客户机的远程服务,与r m i 和c o r b a 有一定相似之处,因 为r m i 是其基本通信协议。目6 u 的e j b 2 0 公共草案规范包含对e j b 容器服务 器供应商的要求,允许在企业b e a n 的调用上进行互操作。这些要求使得j 2 e e 客户端同其它e j b 容器中的e j b 之间能够通信,这些j 2 e e 客户端包括j a v a 服 务器页面、s e r v l e t 和应用客户端。这些功能使部署在不同供应商提供的j 2 e e 0 产品中的e j b 调用能够正常工作。对不同组件之间互操作的支持包括事务传播、 命名服务和安全性服务。e j b 包括了以下一些主要优点:e j b 组件使服务器端组 件完全使用j a v a 程序设计语言编写,因此,基于e j b 组件的应用不仅仅是平台 无关,还是中间件无关,它们能够运行在任何操作系统和任何支持e j b 的中间 件上;e j b 组件只包含业务逻辑,使丌发人员不必维护将会集成到业务逻辑中 的系统级代码,e j b 服务器自动管理e j b 组件的诸如事务、安全性、生命周期、 线程和持久性等系统级服务;e j b 结构本身就具备了事务、分布、移植、升级 和安全性;组件可以通过声i 蜡来定制,可定制的特性包括事务行为、安全性特 性、生命周期、状态管理和持久性等。 2 3 两种分布式计算平台简介 信息门户采用了不同的分加式计算平台和互操作模式来实现信息资源的集 成检索。这里对c o r b a 和w e bs e r v i c e s 德种分柿式计算平台进行简单介绍。 2 3 1o o r b a 体系结构 c o r b a 是o m g 组织在1 9 9 】年提出的公用对象请求代理程序结构的技术规范, 现版本为3 1 。c o r b a 的底层结构是基于面向对象模型的,由o m g 接口描述语言 ( ( n gi n t e r f a c ed e i n it i ( ) nl a n g u a g e ,o m gi d l ) 、对象请求代理( o b j e c t r e q u e s tb r o k e r o r b ) 、两个标准协议i i o p ( i n t e r n e ti n t e r o r bp r o t o c 0 1 ) 与g i o p ( g e n e r a li n t e r o r bp f o t o c 0 1 ) 等3 个关键模块组成

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论