(计算机应用技术专业论文)基于web+services和元数据的信息集成技术研究.pdf_第1页
(计算机应用技术专业论文)基于web+services和元数据的信息集成技术研究.pdf_第2页
(计算机应用技术专业论文)基于web+services和元数据的信息集成技术研究.pdf_第3页
(计算机应用技术专业论文)基于web+services和元数据的信息集成技术研究.pdf_第4页
(计算机应用技术专业论文)基于web+services和元数据的信息集成技术研究.pdf_第5页
已阅读5页,还剩73页未读 继续免费阅读

(计算机应用技术专业论文)基于web+services和元数据的信息集成技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西南交通大学硕士研究生学位论文第1 页 摘要 随着市场竞争的加剧及经济全球化的发展,虚拟企业、协同设计、网络化 制造,企业动态联盟等虚拟系统将是未来企业的主要组织形式。信息集成是这 些虚拟系统有效运作的前提和基础,构建适用于虚拟系统的信息集成平台是企 业信息化建设研究的热点。 本论文围绕虚拟系统信息集成的体系架构及其查询处理和优化设计进行了 研究,论文的主要工作如下: 1 、在分析国内外研究现状及研究方法的基础上,研究了基于w e bs e r v i c e s 和元数据的虚拟系统信息集成框架,分析了该框架的层次结构及共享信息的服 务发布方案。该框架不仅能满足虚拟系统动态、松耦合及可扩展性的要求,而 且克服了传统基于c o r b a 的信息集成方法的局限,具有跨平台、跨防火墙及 不同组件互操作的能力。 2 、对传统的异构数据源封装方法m e d i a t o r w r a p p e r 进行改进,以w e b s e r v i c e s 服务注册机制代替虚拟视图法,对包装器的设计增加w e bs e r v i c e s 服务 封装及服务发布功能,在此基础上构建了适用于虚拟系统信息集成的异构数据 源透明访问体系架构,实现了信息集成系统中共享服务的灵活调用。 3 、对信息集成系统中的关键结构查询处理器、数据源包装器、查询优 化器进行了详细的设计,研究了基于w e bs e r v i c e s 的查询分解算法及查询优化 策略,进一步完善了基于w e bs e r v i c e s 和元数据的信息集成系统架构。 4 、设计了一个基于w e bs e r v i c e s 的供应商实时查询原型系统,包括系统总 体设计、元数据标准的制定、服务描述文档的生成、服务注册中心的数据结构 设计,并具体分析了前文提出的查询分解算法及结果整合方法。 关键词:虚拟系统;信息集成;w e bs e r v i c e s ;元数据;查询处理;查询优化 西南交通大学顼士研究生学位论文 第1 j 页 a b s t r a c t w i t ht h ee x a s p e r a t i o no fb u s i n e s sc o m p e t i t i o na n dt h ed e v e l o p m e n t o fg l o b a le c o n o m y ,v i r t u a ls y s t e m so fv i r t u a le n t e r p r i s e ,c o o p e r a t i v e d e s i g n ,m a n u f a c t u r eb a s e do nn e t w o r kd y n a m i ce n t e r p r i s ea l l i a n c ee t c 订1 1b et h em a i ne n t e r p r i s es c h e m ai nf u t u r e i n f o r m a t i o ni n t e g r a t i o n i st h ef o u n d a t i o na n dp r e m i s eo fv i r t u a ls y s t e me f f e c t i v eo p e r a t i o n a n d t h ee s t a b li s h m e n to fi n f o r m a t i o ni n t e g r a t i o np l a t f o r mf o rv i r t u a ls y s t e m i sb e c o m i n gt h er e s e a r c hh o t s p o to fe n t e r p r i s ei n f o r m a t i z a t i o nc o n s t r u e t i o n i nt h i sp a p e r ,m a n yr e s e a r c h e sa r ef o c u s e do nt h ev i r t u a ls y s t e m i n f o r m a t i o ni n t e g r a t i o n sa r c h i t e c t u r ea n di t sq u e r yp r o c e s s i n ga n d o p t i m i z a t i o nd e s i g n t h em a i nr e s e a r c h e sa c c o m p l i s h e di nt h i st h e s i sa r e a sf o l l o w s : 1 a f t e rh a v i n ga n a l y z e dt h ei n t e r i o ra n df o r e i g np r e s e n tr e s e a r c h s t a t u sa n da p p r o a c h e s ,av i r t u a ls y s t e mi n f o r m a t i o ni n t e g r a t i o n f r a m e w o r kb a s e do dw e bs e r v i c e si ss t u d i e d ,g i v i n gt h ef r a m e w o r k h i e r a r c h i c a ls t r u c t u r ea n dt h es c h e m e so fw e bs e r v i c e sp u b l i s h i n g t h i s f r a m e w o r kc a ns a tis f yt h ev i r t u a ls y s t e mr e q u i r e m e n to fd y n a m is m , l o o s e c 。o u p l e a n d e x p a n d a b i i i t y a n dw i t h t h e q u a l i t i e s o f p l a t f o r m - i n d e p e n d e n t , a c r o s s f i r e w a l1c o m m u n i c a t i o nm e c h a n i s m a n d i n t e r o p o r a t i o n b e t w e e nd i f f e r e 缸tc o m p o n e n t s ,i tc a l lo v e r c o m et h el i m i t so f t r a d i t i o n a li n f o r m a t i o ni n t e g r a t i o na p p r o a c hb a s e do nc o r b at e c h n o l o g y 2 t h et r a d i t i o n a lm e d i a t o r w r a p p e ra p p r o a c ho fd i s t r i b u t e di s o m e r i c d a t as o u r c e se n c a p s u l a t i o ni si m p r o v e db yr e p l a c i n gt h ev i r t u a lv i e ww i t h w e bs e r v i c e sr e g i s t r a t i o nm e c h a n i s m ,a n da d d i n gf u n c t i o no fw e bs e r v i c e s d e s c r i p t i o na n dp u b l i s h i n gt ow r a p p e r b a s e do nt h i sh n p r o v e m c n t ,a ni s o m e r i c d a t as o u r c e st r a n s p a r e n ta c c c s ss y s t e mc o n f i g u r a t i o nf o rv i r t u a ls y s t e mi sb u i l tl l p , w h i c hh a sr e a l i z e dt h ef l e x i b l ei n v o k i n go fs h a r i n gs e r v i c e si ni n f o r m a t i o n i n t e 霉* a t i o ns y s t e m 3 t h ek e yc o m p o n e n t s q u e r yp r o c e s s o r ,d a t as o u r c ew r a p p e ra n dq u e r y o p t i m i z a t i o np r o c e s s o ro fi n f o r m a t i o ni n t e g r a t i o ns y s t e ma r ed e s i g n e d 蓖南交通大学硕士研究生学位论文第1 ii 页 i nd e t a i l ,a n dad e c o m p o s i t i o nq u e r ya l g o r i t h mb a s e do nw e bs e r v i c e sa n d t h e q u e r yo p t i m i z a t i o ns t r a t e g y a r ed i s c u s s e di nd e t a i l w h i c hp e f f e c t st h e i n f o r m a t i o ni n t e g r a t i o nf r a m e w o r kb a s e d0 1 1w e bs e r v i c e sa n dr a r t a d a t a 4 as u p p l i e r sr e a lt i m eq u e r yp r o t o t y p es y s t e mb a s e do nw e bs e r v i c e si s d e s i g n e d ,i n c l u d i n gt h es y s t e ma r c h i t e c t u r ed e s i g n , m e t a d a t as t a n d a r de s t a b l i s h m e n t , s e r v i c e sd e s c r i p t i o nf i l e sg e n e r a t i o n ,t h ed a t as t r u c t u r eo fs e r v i c e sr e g i s t r a f i o nc e n t e r , a n dc o n c r e t e l ya n a l y z i n gt h ed e c o m p o s i t i o nq u e r ya l g o r i t h ma n dr e s u l t s i n t e g r a t i o nm e t h o d k e yw o r d s :v i r t u a ls y s t e m ;i n f o r m a t i o ni n t e g r a t i o n ;w e bs e r v i c e s ;m e t a d a t a ;q u e r y p r o c e s s ;q u e r yo p t i m i z a t i o n 西南交通大学硕士研究生学位论文 第1 页 1 i 引言 1 1 1 虚拟系统概述 第一章绪论 2 1 世纪,人类将迈向一个以高科技为特征的知识资源的生产、占有、配置 和消费的知识经济时代。市场需求瞬息万变、生产技术日新月异、竞争对手与 日俱增,而且产品的生命周期越来越短,这些方面使得企业不得不作出决策, 调整自身的发展战略、组织形式和业务生产过程,以增强企业的适应能力,求 得生存与发展。各大公司正在创建可支持集成产品、过程、协议开发的分布式 设计和制造环境,通过信息资源的交换和管理来达到核心技术、企业资源、管 理方案等的共享,从而降低成本,提高效率,增强市场竞争力。在这种趋势下, 虚拟企业、敏捷制造、网络化制造、协同设计等各种各样的企业组织形式及电 子商务应运而生。 所谓虚拟系统【岫】是指:由具有资源优势互补的两个或更多的企业建立在公 共信息网络基础上的,没有固定组织边界的企业组织形式,组成该虚拟系统的 企业的目的是降低成本和体现产品的独特性,而不需要考虑组织规模、地理位 置、计算环境、技术配备和实现过程等困难。虚拟系统中的成员企业可以共享 成本、技能、核心技术,可以用最佳的解决方案进入全球市场,而这是单个企 业无法完成的。为实现上述目的,联盟通过构建信息管理平台,使得错综复杂 的通信网络对用户透明,从而使地理上分散的、任何规模的组织可以很容易地 共享信息,共同高效地实施企业计划。 1 1 2 信息集成的发展 信息共享是这些虚拟系统组织有效运作的基础,如果没有信息共享,它们 就是一盘数沙,无法优势互补、强强联手。因此,信息集成为虚拟系统中的各 盟员企业的产品开发人员之间、产品开发人员与用户之间、开发人员与合作伙 伴之间的通信,及信息、知识和数据交换与共享提供了具有企业逻辑和语义的 西南交通大学硕士研究生学位论文第2 页 集成基础结构。 对信息集成的传统解决主要停留在数据集中这种模式上咖,但是将各类数据 全盘复制到一个数据库中进行合并的模式不能满足业务对实时信息及架构灵活 性的需求。随后从应用层面进行集成成为了另一种解决途径,但信息集成的复 杂性使得应用层逻辑日益庞大而难以管理。人们逐渐认识到需要在数据层面来 应对信息集成需求的挑战。在考虑信息集成整体架构时,如何对来自多种异构 数据源( 包括结构化和非结构化的数据源) 的信息进行方便有效的集成,成为 考虑的重点。 在这种玖数据层面进行信息集成的解决方案中,由传统数据库技术发震而 来的信息集成技术成为核心技术。从过去几十年的经验来看,信息管理技术的 每一步发展都对业界产生极大的影响,数据与应用的层次划分从来就没有个 绝对的分水岭。从主机模式到c s 模式,应用由直接管理数据到由关系型数据 库进行数据管理,完成了第一步数据独立性,使单一数据源的应用逻辑与底层 的数据操纵分离成为现实。但因特网及电子商务技术的发展,分布式的数据实 现模糊了电子商务模式下应用逻辑与数据处理的界限。信息集成技术的出现在 新的层次上实现了数据的独立,再一次使数据处理与应用逻辑的层次分离,成 为应对电子商务随需应变的新一带的信息管理技术。这一技术将建立一个数据 层面的集成层次,实现对传统数据源的统一、实时访阔,同时提供相应的信息 转换能力。其中涉及数据的分布管理、性能、实时性和可用性等多个方面的内 容。目的是提供面向用户的电子商务解决方案的快速、持续、轻松的信息访问。 1 1 3 信息集成的特点和要求 面向虚拟系统的信息集成必然具备一般系统中信息集成的共性,即“信息 集成不是简单地从技术上实现各部门之间的信息共享,而是要从系统运行的角 度,保证系统中每个部分、在运行的每个阶段,都能将正确的信息、在正确的 时间、正确的地点、以正确的方式、传送给需要该信息的人。”同时,针对虚 拟系统的特性和异构数据的异构特质,信息集成平台还应具备以下特点: 1 ) 全局统一的数据视图:必须建立全局统一的数据视图,使应用对数据的 访问不受数据格式、数据位置和访问接口差异的限制。 2 ) 动态的数据管理;必须对数据实旌动态管理,以便在满足可用性、实时 性等性能要求的同时,不仅实现对单一数据库中存储的信息进行管理,而且还 要提供对所有形式数据的增值性集成。 西南交通大学颂士研究生学位论文第3 页 3 ) 灵活的访问方式:无论数据是分布在何种数据库、文件或消息队列中, 应用对数据的访问都如同是在对一个逻辑的数据库进行。同时,无论采用何种 客户访问方式和查询语言,应用程序都应能够访问通过集成服务器连接的所有 数据。 4 ) 统一的行业标准:企业信息集成是业务集成基础架构的一部分,为支持 业务集成的需要,必须采用统一的行业标准,为应用层提供统一的服务,有效 简化全面业务集成。 5 ) 可扩展性:最大程度降低集成新数据源的工作量,同时灵活地为优化查 询访问提供必要的信息。 6 ) 应用系统间互操作性:不同企业可能采用不同的软件系统,当企业需要 共享技术时,有必要互相调用对方的应用软件。信息集成平台需要采用相关标 准,如c o r b a ,w e bs e r v i c e s 等对此提供支持。 7 ) 安全访问控制:不同企业实体之间既有协作又有竞争,在有效地共享信 息的同时还有必要对私有信息进行安全保护。因此,系统必须对企业信息在数 据视图的基础上提供基于权限的安全访问。 8 ) 保留原有系统的自治性:由于各个盟员企业都已具有自己的信息系统, 因此信息集成必须是在企业原有系统上的集成。考虑到其临时性,必须保留原 有系统的自治性,以便在虚拟系统解体后不影响原有企业系统的正常运行。 1 。2 国内外相关研究现状及研究方法 1 2 1 国内外相关研究现状 近年来,许多国家都开展了针对信息集成技术的研究,研究主要集中在异 构数据库共享的问题上,并开发出了许多异构数据库共享系统。下面就介绍几 种具有代表性的异构数据源共享系统。 ( 1 ) a d d s ( a m o c od i s t r i b u t e dd a t a b a s es y s t e m ) 伽 a d d s 具有访问异构分布式数据库的功能,支持a n s is q l 的个子集。a d d s 全局数据库模式是通过定义合成c d b ( c o m p o s i t ed a t a b a s e ) 建立的,即将局部 数据库模式映射到联邦模式上。c d b 支持的d b m s 有i m s ,s q l d s ,d b 2 ,r i m i n g r e s 及f o c u s 矗d 嬲的工作环境主要是疆和疆v s 系统及运行濂i x 操作系统的 s u n 工作站。 西南变通大学硕士研究生学位论文 第4 页 ( 2 ) d a t a p l e x ( g e n e r a lm o t o r s ) ” d a t a p l e x 能对分布式管理的数据进行检索和更新。具有数据位置透明性、 支持异质网络。它以关系模式为其全局数据模式,支持的d b 赆有m r s 操作系统 下的i m s 和i n g r e s ,查询语言为s q l 的子集。 ( 3 ) i n g r e s s t a r 哪 i n g r e s s t a r 属于联邦数据库系统,它是依靠i n g r e s d b m s 和 i n g r e s g a t e w a y 来工作的,支持v a x v m s 操作系统上的f a s 文件系统和r d b 数据 库系统,及i 跚大型机上m r s 操作系统下的d b 2 。 ( 4 ) | r s i 獭i s 捌 和上述的系统不同,t s i m m i s 系统不仅可以实现结构化的数据的共享( 如数 据库中存储的数据) ,还能够实现与其他类型数据( 半结构化数据、非结构化数 据) 的共享。t s i m i s 定义了一个基于对象的信息交换模型以及相应的查询语言, 解决了对动态变化的多个异构数据源的共享问题。t s i m m i s 主要由分类抽取器、 转换器、本地约束管理器、中介、信息浏览器等基本部件组成。 国内研究机构也开展了对异构数据源共享问趣的研究嘲,并已经取得了一定 的成绩。如东大阿尔派股份有限公司研制的、我国第一个具有自主版权的、具 有互联性的关系数据库管理软件r d b m so p e n b a s e :东南大学研制的联邦式异构 分布数据库系统;东北大学、中国科学院沈阳自动化研究所和东南大学联合研 制的异构环境下面向c i m s 的信息集成系统;北京理工大学研制的基于c s 结构 的异构数据库联合使用系统一u 嘞;河北工业大学研制的基于三层体系结构的 异构数据库系统集成系统;上海倍多科技有限公司研制的、基于x m l 的异构数 据源共享系统一i p e d o3 埘li n f o r m a t i o nh u b 等。 1 2 2 国内外相关研究方法 目前有很多种集成异构数据源的体系结构,文献 1 0 3 把其分成两类:一类是 物化的( m a t e r i a l i z e d ) 方法,即数据仓库法,另一类就是虚拟视图( v i r t u a lv i e w ) 法,其比较可参考1 1 1 ,1 2 。 ( 1 ) 物化法 物化方法也就是数据仓库法o ”,该方法需要建立一个存储数据的仓库,由 e t l ( e x t r a c t ,t r a n s f o r m ,a n dl o a d ) 工具定期从数据源过滤数据,然后装载 到数据仓库,供用户查询。所有的查询都针对数据仓库中的数据,数据仓库登 须随数据的变化而随时更新。其最大优点是能保证查询的性能的快速高效,缺 西南交通大学硕士研究生学位论文第5 页 点是数据缺乏时效性,所有的数据都需要冗余,且实现数据同步非常困难。当 增添或删除信息时,集成形成的信息源中的数据和模式要进行相应的修改,会 出现信息更新不及对、重复存储等馕况,难以维护,所以这种方法的实用性不 高。 ( 2 ) 虚拟视图法 使用该方法时数据仍保存分布存储,仅增加了一个虚拟的集成视图以及这 个视图与数据的映射关系;用户可以通过虚拟视图了解到数据的存储位置、存 储方式等情况,然后直接从数据源获取数据。 采用虚拟视图法集成数据源主要有两种体系结构,一种是联邦数据库系统, 另一种是m e d i a t e d 系统。联邦数据库系统( f e d r a t e dd a t a b a s es y s t e m ,f d b s ) 是由参与联邦的半自治的数据库系统组成,目的是实现数据库系统间部分数据 的共享。联邦中的每个数据库的操作是独立于其它数据库和联邦的。之所以叫 “半自治”是因为联邦中的所有数据库都添加了彼此访问的接口。m e d i a t e d 系 统通过提供所有异构数据源的虚拟视图来集成它们,这里的数据源可以是数据 库、遗产系统、w e b 数据源等等。该系统提供给用户一个全局模式( 也叫m e d i a t e d 模式) ,用户提交的查询是针对该模式的。所以用户不必知道数据的位置、模式 及访问方法。 虚拟视图法不需要重复存储大量数据,并能保证共享的是最新信息,适合 高度自治且数据变化快的异构数据源共享。但是当信息源发生频繁变化时( 增加 或减少数据源) ,虚拟视图也需要进行相应改变。由于创建和修改虚拟视图是很 复杂的操作,数据源的频繁变化会导致虚拟视图交得难以维护。 1 3 本课题研究的意义 众所周知,在企业信息化实旌的初期,信息交互集中在企业内部,应用程 序都是直接建立在信息存储层之上的。现代企业为了加强竞争力,越来越多的 企业希望组成某种形式的联盟,以便优势互补、技术共享,在市场的竞争中立 于不败之地。 随着网络技术的发展,使得网络中必然存在不同的硬件、多种操作系统、 多种编程语言以及多种通信协议,这就导致了数据源在硬件设备、运行平台、 实现语言、通信协议等方面的异构问题。同时,各个数据源系统没有统一的标 准,导致了系统开发人员和最终用户面对的往往是多个分布的异构系统,即异 构数据源。这些异构数据源都各自支持相应的应用。对于信息系统的使用人员 西南交通大学硕士研究生学位论文第6 页 来说,需要用不同的方法从不同的数据源中获取信息,这个信息获取过程过于 繁琐,使用人员希望能够将多个数据源看作一个数据源,用单一标准方法访问 多个数据源的数据。对于信息系统的开发人员来说,在开发新的应用时需要访 问现有的多个数据源,开发人员希望通过单一的标准接口访问这些数据源。这 样。既可以减少软件开发的复杂程度,提高效率,又可以简化系统的使用。 同时,i t 环境始终处于一种变化的状态之中,新应用程序层出不穷,套装 应用程序版本级别的变化就会在基础构架各环节引发连锁反应,企业始终存在 着尝试下一个新工具或下一项新技术的机会,企业的信息集成必须着眼未来。 因此,如何构造一个适应于未来企业发展的信息基础设旌,使处于不同地域、 不同操作平台、不同数据格式、不同商业运作模式、不同组织形式的企业实现 核心技术的共享,是当前企业信息化建设中的研究热点。 1 4 本论文的研究思路 面向虚拟系统的信息集成的主要目标是实现对虚拟系统中分散、异质、异 构信息源( 又称数据源) 的有效组织和集成,方便而准确的信息查询和发布。 从而做到位置透明性,即用户无须知道对象是在本地或是远程以及哪个服务器 实现了哪些对象;实现透明性,即用户无需知道实现用何种语言编写、运行在 什么硬件平台和操作系统上以及是否采用了对象技术等;通信透明性,即用户 无需知道消息采用什么通信协议以及通过什么样网络等。 在不同企业的相互沟通和协作过程中,不同成员用于描述产品或技术的信 息结构、内容会有区别。同时各企业不但要访问企业内外的关系数据库等传统 应用数据源,还必须能够访问可扩展标记语言( 儿) 文档、文本文件、扫描图 像、视频剪辑、新闻供给、网络内容、电子邮件、分析多维表和专业存储器等 数据源。而外部用户希望通过一致的方式来访问所有这些信息,因此虚拟系统 中成员的数据库必须要有一致的格式向外发布信息。因此需要建立一个异构数 据源共享系统,对输入系统的来自于不同数据源的各种类型、各种格式的数据 进行统一处理,为用户提供统一和透明的界面,从而达到信息共享的目标。 为了构建满足上述要求的信息集成系统,本论文借鉴m e d i a t o r w r a p p e r 异 构数据源封装技术,提出了基于w e bs e r v i c e s 的面向虚拟系统的信息集成框架, 实现了跨企业服务发布及企业内遗留系统的封装,为系统的数据交换确定了统 一元数据交换标准。并进一步讨论了系统框架中关键的查询处理及查询优化问 题,设计了查询处理器、数据源包装器及查询优化器,给出了一种查询分解算 西南交通大学硕士研究生学位论文第7 页 法及针对信息集成特性的查询优化簧略。最后以供应商实时查询系统为例,应 用前面的技术具体介绍了信息集成原型系统的设计。 1 5 本论文各章节主要内容和论文组织结构 本论文共分为五章,各章主要内容如下: 第二章信息集成关键技术介绍了x m u s o a p 、m a 2 i a t o r w r a p p e v 、w e b s e r v i c e s 和元数据等信息集成中所采用的关键技术,分析了技术的特点及在信息 集成系统框架中的应用优势。 第三章基于w e bs e r v i c e s 和元数据的信息集成框架给出了基于w e b s e r v i c e s 的信息集成层次结构,讨论了跨企业信息发布及企业内遗留系统的封装 方案,设计了异构数据源透明访问的系统架构,并描述了w e bs e r v i c e s 服务的 发布及注册方法。 第四章信息集成中的查询处理和优化设计了查询处理器、数据源包装 器及查询优化器,给出了一种查询分解算法,并分析了查询优化策略。 第五章供应商实时查询原型系统设计以基于w e bs e r v i c e s 的供应商实 时查询系统为例,给出了前文中所介绍的技术和方案的实际应用方法,具体分 析了查询分解算法和结果整合方法。 西南交通大学硕士研究生学位论文 第8 页 第二章信息集成关键技术 2 1 删s o a p 技术 2 1 1x m l 技术的应用 蕊l “”8 是一种简单、开放、通用、可扩展的、可控的技术。实际上,作为 w 3 c 标准的x m l ,对于许多商业集成案例来说是一个可按受的、可行的接口选择。 捌l 是基于符合和标识信息的简单文本,可以实现向应用发送和接收信息的松耦 合。 x m l 文本中一对包含数据段的标签是一个元素。属性可以和元素关联在一 起。通常属性和相关的元素是一对一的关系。但元素和y $ t l 文本是多对一的关 系。 可控制表现在x m l 有用户定义标志的套嵌规则,同时也考虑到文档形式的 完整性。另外还表现在x m l 分析器使用x m ls c h e m a 或d t d ( 文档类型定义) 检 查) 呲文档。 x 札也是定义标识的语言符号。能允许x m l 广泛使用并可扩展。用户可以自 定义词汇表以便和其它的商业伙伴或客户通信。本质上,用户之间的通信语言 是唯一的。这是由于x m l 与设备和平台无关的特性使异构的系统之间共享的信 息和通信更方便。 传统的企业信息集成系统,由于信息不是用一种标准化的数据形式来表现 的,而是采用一种系统自定义的数据格式,因此很难得到推广应用,更为严重 的是影响了企业间的信息交互。可扩展标识语言( e x t e n s i b l em a r k u pl a n g u a g e , x m l ) 技术的出现使得对各种规则与不规则信息的标准化描述成为可能。因此, 建立基于】( m l 的企业信息集成平台是企业信息化发展过程中必然的选择。 信息集成中对x m l 的支持可分为两个方面。一方面信息集成支持用s q l 直 接访问x v l l 文件中的数据。其机制是动态地将x m l 的层次型结构映射为一张或 多张关系型的表来实现,数据的层次关系转化为虚拟表之间的主外键关系。这 样对本地或远端x m l 的访问就转化为对虚拟表的访问。在应用x m l 作为标准信 息接口规范的同时,大大简化了访问的复杂性。另一方面,信息集成系统提供 了一组用于生产删l 的函数,可以直接将数据库中的内容动态地转换为y , m l 格 西南交通大学硕士研究生学位论文第9 页 式输出,并在此基础上提供删l 元素分类及排序等能力。) 强几和信息集成技术的 结合更能有效地发挥x 札的价值,满足不同层面的集成要求。 2 1 2s o a p 消息格式 由x m l 表示的简单对象访闯协议 1 4 , 1 6 1 ( s i m p l eo b j e c ta c c e s sp r o t o c o l , s o a p ) 是一种轻量级的对象访问协议,与i i o p 不同,s o a p 是基于h t r p 、s m t p 等网络协议,它可以轻松地穿越防火墙。它为在松散的分散或分布式环境中对 等地交换结构化和类型化的信息提供了一个简单的轻量级机制;并且由于采用 基于x m l 的消息通信模式,具有平台无关性之外,还是自我描述的和可扩展的。 s o a p 是一个基于x m l 的协议,共包括三个部分:封装结构( e n v e l o p e ) 、编 码规则和r p c 机制“”。其中,s o a p 封装结构定义了一个整体框架,用来表示消 息中包含什么内容,谁来处理这些内容以及这些内容的属性( 可选的或是必需 的) ;s o a p 编码规则定义了用以交换应用程序数据类型的实例的一系列机制; s o a pr p c 机制定义了一个用来表示远程过程调用和应答的协定。虽然这三个部 分都作为s o a f 的一部分一起描述,但它们在功能上是相交的。 s o a p 的设计主要目标是简单性和可扩充性,因此s o a p 本身并未定义任何应 用语义( 如编程模型或特定语义实现) ,而且一些传统的消息信息系统和分布对 象系统的某些性质没有包括进来( 如分布式碎片收集、成批传送消息、对象引用、 激活机制等) 。s o a p 只是定义了一种简单的机制,通过一个模块化的封装模型和 对模块中特定格式数据的编码规则来表达具体应用语义;而系统的实现还需依 赖传输协议等其他机制。 和许多标准的协议一样,s o a f 采用客户端服务器模型的请求一响应机制。 由客户程序发出请求、送出参数,而服务器程序作 出相应的响应,两种消息均为x m l 格式。消息的基 本结构如图2 1 所示。无论用什么通讯协议做载 体,s o a f 消息的结构框架都是不变的。从图2 1 中可以看到,这是典型的一种x 池描述,e n v e l o p e 为根元素,一个可选的h e a d e r 和一个必须有的 b o d y 为子元素“”。 s o a p 消息中只有一个封装( e n v e l o p e ) 。这个封 装包括了两个子元素:h e a d e r 和b o d y h e a d e r 是能 够被s o a p 消息传输路径中任意的s o a p 接收者处理 s o a pe n v e l o l o c 8 0 a ph d 吖 ls o a p 条目l l s o a p 条目 s o a pb o d y s o a p 条目 i i s o a p 毒目 i 图2 1s o a p 消息结构 西南交通大学硕士研究生学位论文第10 页 的一组s o a p 条目( 0 个或多个) ,这些条目都是用户自定义的,内容取决于要做 的事情;b o d y 是能够被s o a p 消息路径中的最终s o a p 接收者处理的一组s o a p 条目( ( 0 个或多个) 。b o d y 中包含了一系列对要调用的方法描述的标签,这些标 签定义了该方法要做什么。 根据规范的定义,s o a p 消息分为两种:d o c u m e n t 类型的s o a p ,r p c 类型的 s o a p 唑 ( 1 ) d o c u m e n t 类型的s o a p d o c u m e n t 类型的s o a p 是将b o d y 元素划分成一个或多个消息片段。没有s o a p 规则来限制b o d y 中包含什么( 只要是x m l 格式的文挡即可) 。它可以包含任何内 容,只要发送方和接收方认可就可以了。 ( 2 ) r p c 类型的s o a p r p c 类型的s o a p 是按照s o a p 规范中的r p c 方式来组织b o d y 元素。采用这 种方法的s o a pb o d y 中包含了要调用的方法名( 或是远程过程名) 以及一些元素 ( 每个元素对应方法中的一个参数,并且与该参数同名) 。 s o a p 中包含了两种x m l 数据编码格式,这两种编码格式确定如何将数据序 列化到b o d y 和h e a d e r 元素中。 ( 1 ) l i t e r a l 方式 l i t e r a l 编码方式对符合序列化数据没有指定特别的编码规则,它会根据一 个预定义的x m ls c h e m a 模式定义将参数映射成为x m l 元素。在这种方式中客户 和服务之间以x m l 文档( x s d 文件) 的方式处理数据。 ( 2 ) e n c o d e d 方式 e n c o d e d 编码方式根据s o a p 规范中定义的s o a p 编序方法将参数映射为x m l 元素,它定义了如何将对象、结构、数组等序列化。根据这种规则,客户和服 务之间按照对象和结构的方式处理数据。 s o a p 类型的选择和编码方式的选择是独立的,共有四种组合方式。但是在 实现过程中经常用到的组合方式只有两种:s o a pr p c 与e n c o d e d 组合、d o c u m e n t 类型的s o a p 与l i t e r a l 组合。其中,d o c u m e n t l i t e r a l 的s o a p 消息主要用于 b 2 b 集成应用程序;r p c e n c o d e d 的s o a p 消息主要用于进行远程过程调用的应 用程序。 西南交通大学硕士研究生学位论文第11 页 2 2m e d i a t o r w r a p p e r 异构数据源封装技术 2 2 1m e d i a t o r w r a p p e r 系统架构 随着i n t e r n e t 和w 1 】i w 的迅速发展,信息集成系统除了集成存储在数据库中 的结构化信息,还要集成w e b 数据源中的半结构和非结构化信息,基于传统模 式集成的多数据库系统己不适用于这种新的要求。目前的大多数w e b 信息集成 系统一般遵从w i e d e r h o l d 提出的m q s ( m e d i a t o rq u e r ys y s t e m ) 体系结构“,在 此基础上通过对异构信息源封装,形成了m e d i a t o r w r a p p e r 信息集成系统 ( m w i s ) ”“”1 ,参见图2 2 。 m e d i a t o r 是一种软件组件,它 支持虚拟数据库,用户可以查询这 个虚拟数据库,就像它己物化,但 其机制与数据仓库机制大相径庭, m e d i t a t i e r 不储存任何自己的数 据,而是将用户的查询翻译成一个 或多个数据源的查询。然后, m e d i t a t i o r 将那些数据源对用户查 询的回答进行综合处理,将结果返 回给用户。 如图2 2 所示,m e d i a t o r 向每 一个包装器发送查询,包装器再依 次向相应数据源发送查询。事实上, m e d i a t o r 可向一个包装器发送几个 图2 2m e d i a t o r w r a p p e r 体系结构 查询,还可不查询所有包装器。查询结果返回m e d i a t o r 进行组合。图中没有像 数据仓库那样画出一个显示的合成器。因为使用m e d i a t o r 时,将来自数据源中 的结果进行组合由m e d i a t o r 来完成。 2 2 2m e da t o r w r a p p e r 技术的发展现状 目前的大多数w e b 信息集成系统均采用了m e d i a t o r w r a p p e r 体系结构,国 内外研制开发的基于m e d i a t o r w r a p p e r 信息集成系统有很多,例如:斯坦福大 西南交通大学硕士研究生学位论文第12 页 学开发的t s d m t i s 系统。1 和i n f o m a s t e r 系统,a t & t 实验研究所研制出的 i n f o r m a t i o nm a n i f o l d ( i m ) 系统渊,南加利福尼亚大学的s i m s 信息系统及在 s i m s 基础上面向i n t e r n e t 扩展形成的w e b 信息集成系统a r i a d n e 。”,微电子和 计算机技术协会( m c c ) 开发的基于a g e n t 的开放信息集成系统i n f o s l e u t h 嘲。 国内的有东南大学研制的v e r s a t i l e 系统以及g a l a x y 系统。等。 2 3w e bs e r v i c e s 技术 2 4 1w e bs e r v i c e s 的特点 w e bs e r v i c e s l 3 0 - 3 3 】是封装成单个实体并发布到网络上,提供了a p i 以供其它 程序使用的功能集合。w e bs e r v i c e s 的一个更精确的解释是:一种用于应用程序 集成的新技术,一个建立互操作分布式应用程序的新平台。它具备以下特征 1 3 0 - 3 3 1 ( 1 ) 完好的封装性:w e bs e r v i c e s 是一种部署在w e b 上的对象,自然具备对 象的良好封装性,对于使用者而言,他能且只能看到该对象提供的功能列表。 ( 2 ) 松散耦合性:w e bs e r v i c e s 的实现发生变更时对调用者是透明的,对于调 用者来说,只要w e bs e r v i c e s 的调用界面不变,甚至是当w e bs e r v i c e s 的实现 平台从j 2 e e 迁移到了n e t 或者是相反的迁移流程,用户都可以对此一无所知。 ( 3 ) 标准协议规范性:作为w e bs e r v i c e s ,其所有公共的协约完全需要使用开 放的标准协议进行描述、传输和交换。 ( 4 ) 高度可集成能力:由于w e bs e r v i c e s 采取简单的、易理解的标准w e b 协 议作为组件界面描述和协同描述规范,完全屏蔽了不同软件平台的差异,无论 是c o r b a 。,d c o m 还是e j b 都可以通过这一种标准的协议进行互操作,实现了 在当前环境下最高的可集成性。 w e bs e r v i c e 可以集合其它w e bs e r v i c e s 以提供一套更高级的功能。应用程 序可通过使用多个不同来源的w e bs e r v i c e s 构造而成的,这些服务相互协同工 作,而不管它们位于何处或者如何实现。 2 4 2w e bs e r v i c e s 的模型 w e bs e r v i c e s 卣服务请求者、服务提供者和注册中心三部分组成,它们之间 西南交通大学硕士研究生学位论文第13 页 的相互关系为发布、发现和绑定,其结构如图2 3 。 图2 , 3w e bs e r v i c e s 的基本框架 ( 1 ) 服务提供者主要是定义提供给他人访问的服务,生成w s d l 接口文件, 并把这个服务接口和自己相关的一些信息( 都是x m l 的格式) 通过s o a p 注册到 u d d i 上,也就是服务的发布。总的来说,服务提供方主要执行了新服务的生成 和新服务的注册两方面的操作; ( 2 ) 服务请求者就是通过u d d i 查询服务地址再调用服务的客体。首先服务 请求者把查询条件通过s o a p 消息发送给u d d i 注册中心,然后u d d i 将查询 结果

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论