(计算机应用技术专业论文)异构数据源集成技术研究.pdf_第1页
(计算机应用技术专业论文)异构数据源集成技术研究.pdf_第2页
(计算机应用技术专业论文)异构数据源集成技术研究.pdf_第3页
(计算机应用技术专业论文)异构数据源集成技术研究.pdf_第4页
(计算机应用技术专业论文)异构数据源集成技术研究.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(计算机应用技术专业论文)异构数据源集成技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

异构数据源集成技术研究 张江龙( 计算机应用技术) 指导教师:张文东高工 摘要 随着计算机技术的发展和数据库的广泛应用,企业信息系统中的 “信息孤岛”问题越来越严重。异构数据源集成技术就是为了解决异构 数据源间方便、灵活的互访问题。在研究异构数据源集成的过程中,比 较了传统的集成技术一联邦数据库、m e d i a t i o n 年n 数据仓库等方法的优劣, 并研究了近年来流行的w e bs e r v i c e 技术。 由于w e bs e r v i c e 有着良好的互操作性、封装性、松耦合性和协议规 范的标准性等特点,因而基于w e bs e r v i c e 的集成方案已经成为目前e a i 领域的主流。通过对w e bs e r v i c e 技术的研究,构建了一个异构数据源集 成的模型。在对遗留服务包装为w e bs e r v i c e 的过程中,为了解决程序返 回的数据格式与用户需求的格式不一致的问题,提出了基于x q u e r y 查 询的思想。同时,探讨了在语义w e b 支持下,如何进行w e b 服务动态组 合的问题,给出了一个w e b 服务动态组合的流程,并结合语义w e b 技术 和本体论知识,重点讨论了基于图算法的w e bs e r v i c e 动态组合算法。 最后,给出了集成系统的实现,并重点讨论了业务流程的设计和w e b s e r v i c e 的调用。这些研究可以为以后的异构数据源的集成等应用提供 新的思路和借鉴。 关键词:数据集成,w e b 服务,语义w e b ,w e b 服务组合 t h er e s e a r c ho fh e t e r o g e n e o u sd a t ar e s o u r c e s i n t e g r a t i o n z h a n gj i a n g - l o n g ( c o m p u t e ra p p l i c a t i o nt e c h n o l o g y ) d i r e c t e db ys e n i o re n g i n e e rz h a n gw e n - d o n g a b s t r a c t b e c a u s eo f t h ed e v e l o p m e n to fc o m p u t e ra n dw i d eu s i n go fd a t a b a s e ,t h e “i n f o r m a t i o ni s l a n d ”p r o b l e mo ft h ee n t e r p r i s e si n f o r m a t i o ns y s t e mg e t s w o r s e t h et e c h n o l o g yo fh e t e r o g e n e o u sd a t ar e s o u r c e si n t e g r a t i o ni sf o r r e s o l v i n gt h ep r o b l e mo ff a c i l i t y , f l e x i b l ea c c e s s i n gb e t w e e nh e t e r o g e n e o u s d a t ar e s o u r c e s i nt h ep r o c e s so fr e s e a r c h i n gh e t e r o g e n e o u sd a t ar e s o u r c e s i n t e g r a t i o n ,w eh a v ec o m p a r e dt h et r a d i t i o n a li n t e g r a t i o nt e c h n o l o g y f e d e r a l d a t a b a s e ,m e d i a t i o na n dd a t aw a r e h o u s e a n dw da l s or e s e a r c hw e bs e r v i c e t e c h n o l o g yw h i c hi sp o p u l a ri nr e c e n ty e a r s w e bs e r v i c eh a st h ep r e d o m i n a n tf e a t u r e so fg o o di n t e r o p e r a b i l i t y , e n c a p s u l a t i o n ,l o o s ec o u p l i n g s t r u c t u r ea n ds t a n d a r do fp r o t o c 0 1 s o , c u r r e n t l yi n t e g r a t i o ns c h e m eb a s e do nw c bs e r v i c e sh a sb e c o m et h el e a d e r o f e a if i e l d w ep r o p o s eam o d e lo f h e t e r o g e n e o u sd a t ar e s o u r c e si n t e g r a t i o n w i t ht e c h n o l o g yo f w e bs e r v i c e i nt h ep r o c e s so f w r a p p i n g “l e a v i n gs y s t e m i n t ow e bs e r v i c e ,w ep r o p o s e dt h em e t h o db a s e do nx q u e r yt or e s o l v et h e d i f f e r e n to ft h ef o r m a tb e t w e e nr e s u l to fp r o g r a ma n du s e r sr e q u i r e m e n t i n t h es a l n et i m e ,w eh a v er e s e a r c h e dt h ep r o b l e m6 fh o wt oc o m p o s ee x i s t i n g w e bs e r v i c ed y n a m i c a l l yb a s e do nt h es e m a n t i cw e b w ep r o p o s eam o d e lo f w e bs e r v i c e sc o m p o s i t i o n w eh a v er e s e a r c h e dd y i l a m i cw e bs e r v i c e c o m p o s i t i o na l g o r i t h m sb a s e do ns e m a n t i cw e ba n do n t o l o g y f i n e l yw e a c c o m p l i s ht h ei n t e g r a t i o ns y s t e m i nt h i sp r o c e s sw ee m p h a s i so n t h ed e s i g n o fb u s i n e s sp r o c e s sa n dt h er e c a l lo fw e bs e r v i c e t h e s er e s e a r c h e sc a l l p r o v i d en e w i d e ao nt h er e s e a r c ho f h e t e r o g e n e o u sd a t ar e s o u r c e si n t e g r a t i o n - k e y w o r d s :d a t ai n t e g r a t i o n ,w e bs e r v i c e ,s e m a n t i cw e b ,w e bs e r v i c ec o m p o s i t i o n 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取 得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论 文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得中国 石油大学或其它教育机构的学位或证书而使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了 谢意。 签名: 关于论文使用授权的说明 日 本人完全了解中国石油大学有关保留、使用学位论文的规定,即: 学校有权保留送交论文的复印件及电子版,允许论文被查阅和借阅;学 校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手 段保存论文。 ( 保密论文在解密后应遵守此规定) 学生签名:苴:三筮扣7 年牛月fe l 导师签名:二弛0 之扯工叼年中 月 1 日 i 中国瑚大学( 华东) 硕士论文第1 章前言 1 1 研究背景及意义 第1 章前言 计算机网络化趋势的加速和网络性能的提高,使信息系统得到了很 快发展。为了充分利用各信息系统已有的数据资源,常需要实现不同信 息系统间数据的互访。然而系统实现技术以及实现时问上的差异,造成 了在不同的信息系统中存有大量异构数捌源。从数掘的存储方式上看, 这些数掘源中有结构化( s t r u c t u r e d ) 数掘源,如d b m s ,有半结构化 ( s e m i s t r u c t u r e d ) 数掘源,如x m l 、h t m l 文件,也有非结构化( n o n s t r u c t u r e d ) 数据源,如文本文件等:从数据的存储格式上看,在本质上表示相同信 息的数据,在不同的数据源中被定义为不同的存储格式,如字段名称定 义、字段类型定义的差异等。异构数掘源的存在给实现不同信息系统i 甘j 数据的互访带来了很大的不便。为此,解决异构数掘源方便、灵活的互 访问题成为一个很有意义的研究课题。 就领域应用而吉,各行业各部门应用系统的开发和建设大多是各自 完成的,每个部门都有自己的数据库服务器或者数据库文件以及采用了 不同时期体系结构的应用程序。在用传统的基于c o r b a 、d c o m 或j a v a a p i 等技术的企业应用集成( e n t e r p r i s e a p p l i c a t i o n i n t e g r a t i o n ,e a i ) 技术 来处理多个厂商跨不同平台的产品的时候,存在很大的难度。而w e b s e r v i c e 作为一种新生的技术、基于w e bs e r v i c e 的集成技术作为种新的 面向函数和方法的集成应用技术,在很大程度上解决了这些问题。因此, 基于w e bs e r v i c e 的企业集成应用成为目前研究的热点。 中国i i 油大学( 华东) 硕士论文第1 章前言 1 2 国内外研究现状 目 j i f 有很多种异构数据源集成的体系结构,主要的也是最常见的有 三种:联邦数据库、m e d i a t i o n 和数据仓库。文献 1 】把这三种体系结构 分成两类:一类是虚拟视图( v i r t u a lv i e w ) 方法,另类就是物化的 ( m a t e r i a l i z e d ) 方法,即数据仓库法,其比较可参考 2 ,3 。而w e bs e r v i c e 作为近年来流行的技术,成为解决企业应用集成( e n t e r p r i s e a p p l i c a t i o n i n t e g r a t i o n e a i ) 的首选方案。 ( 1 ) 虚拟视图法 虚拟视图法通过构造一个或多个“中问模式”( m e d i a t e ds c h e m a ) 来实现数据的集成。所谓模式就是用给定数据模型对具体数据的描述, 反映一个单位的各种事物的结构、属性、联系和约束。用户的查询基于 中问模式,不必知道各个数据源的特点,而数据仍保存在局部数据源。 系统将基于中自j 模式的查询转换为针对各局部数据源模式的查询,将用 户的查询分解成对各个数据源的子查询,并将各子查询返回的数据综合 起来得到查询结果。其优点是数据不需冗余,并能保证是最新的。虚拟 视图法适用于数据源数目多,局部数据源自治性很高,集成系统对数据 源没有控制且数据更新频繁的i n t e r n e t 环境中。在虚拟视图方法中数掘 集成系统可能基于不同的数据模型来构造,早期的大多数系统都基于关 系数据模型来构造。随着w e b 的不断发展,越来越多的研究是基于半结 构化数据模型来构造数据集成系统“1 。 采用虚拟视图法集成数据源主要有两种体系结构,一种是联邦数据 库系统,另一种是m e d i a t e d 系统。 ( 2 ) 物化方法 2 中国l ,油人学( 华尔) 硕十论文第1 章前言 物化方法也就是数掘仓库法,该方法需要建立一个存储数据的仓库, 山e t l ( e x t r a c t ,t r a n s f o r m ,a n dl o a d ) 工具定期从数掘源过滤数据, 然后装载到数据仓库,供用户查询。所有的查询都针对数掘仓库中的数 掘。因此,数据仓库必须随数据的变化而随时更新。其最大优点是能保 证查询性能的快速高效,缺点是数掘缺乏时效性、所有的数据都需要冗 余,且实现数据同步非常困难。 与虚拟视图法相似的是用数据仓库集成异构数据源也需要统一的数 掘视图,但不同的是用e t l _ t 具过滤得到的数掘存储到仓库中。而弓传 统的数掘库不同的是数掘仓库中主要存储的是历史和汇总数掘,用于决 策支持,主要供分析或执行等人员使用,而且为避免数掘仓库与数掘源 中数据出现不一致,通常不允许用户对数据仓库进行更新1 7 】。 ( 3 ) w e bs e r v i c e 技术 w e bs e r v i c e 作为一种新兴的分布式计算技术,通过扩展有限的可互 操作性而改进了分布式计算的能力,耳i j i 已经成为构建和集成应用系统 的一种主流模式。相对传统的e a i 解决方案,基于w e bs e r v i c e 的e a i 解决方案具有更好的跨平台性、可扩展性和松散耦合性等,因此成为了 目前研究的主要方向。 1 2 1 国外研究现状 异构多数据库系统集成技术国外早在8 0 年代中期就己丌始,国内 随后也丌始了相应的研究。早期的解决方案多采取多数掘库 ( m u l t i d a t a b a s e ) 或联邦数据库( f e d e r a t e dd a t a b a s e s ) 的方式,并研发了多 个实验性的系统。著名的有h p 公司数掘库技术部丌发的p e g a s u s 、 中国i 油人学( 华尔) 硕十论文第1 章前吉 u m s q l 公司开发的u n i s q l m 、美国南加州大学丌发的s i m s 等。由于 多数据库或联邦数据库的解决方案是将所有的局部模式次集成为一个 单一静态的全局模式,具有难以加入新的数据源、难以满足集成用户的 多视角要求等缺陷,从9 0 年代起,国际上提出了异构数掘源集成系统的 1 3 解决方案( i n t e l l i g e n ti n f o r m a t i o ni n t e g r a t i o n ) 。这种解决方案采取三层软 件结构,最上层是应用,中j 白j 层称为“协调器”,用以冲突消解和执行查 询,下层称为”包装器”,用以封装和转化局部数据源。从9 0 年代起,国 际上的多数据源集成系统多采取1 3 框架,著名的有s t a n f o r d 大学的 t s i m m i s ,i b m 公司的g a r l i c ( 尚在研制中) ,法国i n r i a 研究所的d i s c o 等。由于异构数据源集成系统还有一些难题尚未完全解决( 如语义冲突 的消解,查询优化等) ,国外研发的系统基本上都带有实验性质或是针对 具体的项目和应用,商业化的产品虽然也有少数几个( 如i b m 的 d a t a j o i n e r ) ,但都不是很成功。从发展趋势来看,除了研究基本的语义 冲突消解等问题外,异构数据源系统还将研究网络环境下对半结构化信 息的集成和查询以及广域动态数据传输环境下查询优化等一系列新问 题。 国外对于w e bs e r v i c e s 应用集成的研究成果显著。b e aw e b l o g i c i n t e g r a t i o ns e r v e r 可以使所部署的复杂w e b 服务具有完整性、安全性 和可靠性:i b m 的d b 2i n f o r m a t i o ni n t e g r a t i o n 是实现数据层的集成m q i n t e ,g r a t i o n :m i c r o s o f t 的b i z t a l k 是以x m l 为核心的集成技术,并 辅之以f r a m e w o r k 、a d a p t e r 以及特定行业的a c c e l e r a n t o r ,构成一个 功能强大的应用集成平台;此外还有s e e b e y o n dt e c h n o l o g y 、v i t r i a t e c h n o l o g y 、s y b a s e 、o r a c l e 、s u n 等各家的产品,它们都各有优势, 但对于实际应用来讲,开发成本昂贵,而且很难根据现场的应用需求做 4 中国_ i 油人学( 华尔) 硕十论文第1 章前言 出有效的构架扩展。 1 2 2 国内研究现状 相比之下,国内这方面的研究起步较晚,还未有成熟的系统提出来。 目i j ,国内有东北大学数掘库研究室开发的p o l y b a s e 和s c o p e 系统和 北京理工大学的u u h d b 系统等,这些系统多采用对象模型作为数掘集 成模型。中国人民大学的孟小峰教授领导的丌发小组正致力于研制基于 w e bs e r v i c e 技术和虚拟视图方法的原型系统。目前已有相关的成果发 表,包括原型系统的体系结构,包装器的生成、实现及维护等问题,但 系统尚未实现。s e w s i p 项目是出清华大学计算机系知识工程研究室 ( k e g ) t f 在致力研究与丌发的一个基于语义的w e b 服务集成平台 ( s e m a n t i c b a s e dw e bs e r v i c ei n t e g r a t i o np l a t f o r m ) 。s e w s i p 项目 借鉴与集成了k e g 研究室在语义w e b 和w e b 服务两个方面的研究成果, 在p e e r - t o p e e r 的网络模式之上,借助于本体概念的表示与推理,希 望能够实现w e b 服务的语义标注、服务分类、服务发现、服务评价、服 务选取以及服务组合的半自动化。 1 3 本文的组织结构 全文根掘内容共分六章。 第一章是前言,介绍了本课题的研究背景和意义,详细介绍了异构 数据源集成的国内外研究现状。 第二章介绍了异构数据源集成的相关技术和知识,包括基本概念的 介绍、传统的企业应用集成技术和w e bs e r v i c e 技术介绍,重点论述t w e b e 中国i 融人学( 华东) 硕十论文第l 章前言 s e r v i c e 的体系架构、运行机制及其核心技术。 第三章提出了基于w e bs e r v i c e 的异构数据源集成模型,并对模型中 各个模块的设计和集成的流程进行了详细的既明。 第四章讨论了w e bs e r v i c e 的动态发现和组合技术以及遗留服务的 w e b 包装问题。针对w e b 服务的动态组合问题,提出了一个w e bs e r v i c e 组 合的流程,并重点介绍了基于图算法的w e b 服务动态组合算法:给出了一 个w e b n 务包装的模型并讨论了包装的流程。 第五章给出了集成系统的实现,并重点讨论了业务流程的设计和w e b s e r v i c e 的调用。 第六章对完成的工作进行了回顾和总结,并给出t w e bs e r v i c e 的研 究热点和下一步的研究方向。 6 中国4 融人学( 华尔) 硕十论文第2 章异构数据源集成的相笑技术 第2 章异构数据源集成的相关技术 2 。1 基本概念 异构数据是一个含义丰富的概念,不仅指不同的数掘库系统之问的 数据是异构的,如o r a c l e 和i b md b 2 数据库;而且还包括不同结构的数 掘之f 日j 的异构,如结构化的i b md b 2 数据库数据和半结构化的x m l 数 掘。 信息集成、模式集成、数掘集成这三个概念相互联系,不同的概念 所研究的侧重点不同。 信息集成是一个广义的概念,它包含很多分支,例如信息抽取,数 据清洗,模式集成和数掘集成等。 模式集成就是把两个或者多个模式集成为一个模式,主要用于数据 模式设计。有待集成的模式可能是由不同的数掘模型表示的,集成过程 中,一般先把它们用公共模型表示,然后识别它们之间存在的各种冲突 并加以处理,最后合并成新的模式。这一过程既可手动完成,也可机器 辅助完成。 数据集成,屏蔽各种异构数据| 珏j 的差异,对各种异构数据提供统一 的操作,使集成后的异构数据对用户来说是统一的和无差异的。狭义上 来说,在讨论数据集成中,并不考虑模式集成等其它问题并假设全局模 式已经存在( 可能出模式集成而来,可能根据特定的应用需求设计,可能 根掘数掘视图定义推导) 。本篇论文主要研究数掘集成的相关问题,对于 目前的数掘集成系统,绝大部分数据源的数掘属于异构数掘,因此通常 中国i 油人学( 华尔) 硕十论文第2 章异构数据源集成的相笑技术 我们所说的数据集成就指异构数据集成。 企业应用集成( e n t e r p r i s e a p p l i c a t i o n i n t e g r a t i o n ,e a i ) 提出之仞仅指 企业内部不同应用系统之间的互连,以期通过应用整合实现数据在多个 系统之白j 的同步和共享。伴随着e a i 技术的不断发展,它具有了更为广义 的内涵,它已经被扩展到业务整合( b u s i n e s si n t e g r a t i o n ) 的范畴,业务整 合相对e a i 束说是一个更宽泛的概念,它将应用整合进一步拓展到业务流 程整合的级别。业务整合不仅要提供底层应用支撑系统之问的互连,同 时要实现存在于企业内部应用与应用之间,本企业和其他合作伙伴之间 的端到端的业务流程的管理,它包括应用整合,b 2 b 整合,自动化业务 流程管理,人工流程管理,企业门户以及对所有应用系统和流程的管理 和监控等方方面面。 2 2 传统的企业应用集成技术 e a i 的核心是使用中间件连接企业应用,面向对象的分布式对象计 算中问件技术的发展,为e a i 的实现提供了有力的支持。目f i l l 主流的面 向对象的分布式计算技术有:o m g 的c o r b a 、m i c r o s o f t 的 c o m ,d c o m 、s u n 的e j b ,下面简单阐述下。 2 2 1c o r b a c o r b a ( c o m m o no b j e c tr e q u e s tb r o k e ra r c h i t e c t u r e ,公共对象请求 代理体系结构) 是由o m g ( o b j e c t m a n a g e m e n tg r o u p ,对象管理组织) 提 出的应用软件体系结构和对象技术规范,其核心是一套标准的语言、接 口和协议,以支持异构分布应用程序问的互操作性及独立于平台和编程 语言的对象重用。c o r b a 体系的主要内容包括以下几个部分: 8 中国4 i 油人学( 华尔) 硕十论文第2 章异构数据源集成的相笑技术 ( 1 ) 对象请求代l ! l ! o r b ( o b j e c tr e q u e s tb r o k e o :负责对象在分布环境 中透明地收发请求和响应,它是构建分布对象应用、在异构或同构环境 下实现应用问互操作的基础; ( 2 ) 对象服务( o b j e c ts e r v i c e s ) :为使用和实现对象而提供的基本对象 集合,这些服务应独立于应用领域; ( 3 ) 公共设施( c o m m o nf a c i l i t i e s ) :向终端用户提供一组共享服务接 口: ( 4 ) 应用接e l ( a p p l i c a t i o ni n t e r f a c e s ) :由销售商提供的可控制其接口 的产品。 ( 5 ) 领域接1 2 1 ( d o m a i ni n t e r f a c e s ) :为应用领域服务而提供的接口。 c o r b a 技术将面向对象的概念融合到分布计算中,使得c o r b a 规范 成为丌放的、基于客户服务器模式的、面向对象的分御计算的工业标准。 c o r b a 的优点是大而全,互操作性和丌放性非常好,缺点是庞大而复杂。 2 2 2c o n d c o m d c o m ( d i s t r i b u t e dc o m p o n e n to b j e c tm o d e l ,分布式对象组件模型) 是由c o m ( 组件对象模型) 发展而柬,c o m 源于o l e ,定义了对象实 现的二进制标准,采用注册表的对象组织机制,用于单机上应用之问的 通信。d c o m 是c o m 的分布式扩展,在o s f d c er p c 之上构造对象 的远程过程调用层,支持对远程对象的访问,一个d c o m 对象是支持一 个或多个接口的组件。类似于c o r b a 体系结构,d c o m 应用了骨架和 占位程序的方法,可以通过网络远程调用已发布c o m 对象方法的已定 义接1 2 1 。d c o m 相当成功地实现了在w i n d o w s 平台上的分布式计算,与 操作系统紧密结合,通过系统服务为应用程序提供全面的服务。 9 中国釉人学( 华尔) 硕十论文第2 章异构数据源集成的相关技术 z 2 3f j b e j b ( e n t e r p r i s ej a v a b e a n s ) 是j 2 e e 平台基于构件的集中式服务器 多级应用体系的基础,为开发和部署可重用的j a v a 服务器构件定义了一 个模型,为j a v a 应用服务器定义了一个标准编程接口。e j b 技术定义了 一组可重用的、基于分布式事务处理的e j b 组件,可以利用这些组件搭 建分布式应用程序,其上层的分布式应用基于对象组建模型,底层的事 务服务则采用a p i 技术。客户能够通过b e a n s 的h o m e 接口,定位并产生 对应b e a n s 的实例,进而调用b e a n s 的应用方法和远程接口。所有e j b 实例都运行在e j b 容器中,容器提供了系统缴的服务,控制e j b 的生命 周期。 2 3w e b s e r v i c e 技术 w e bs e r v i c e 是描述一些操作( 利用标准的x m l 消息传递机制可以 通过网络访问这些操作) 的接口。w e bs e r v i c e 是用标准的、规范的x m l 概念描述的,称为w e bs e r v i c e 的服务描述。这一描述囊括了与服务交互 需要的全部细节,包括消息格式、传输协议和位簧。该接口隐藏了实现 服务的细节,允许服务的调用独立于实现服务所基于的软硬件平台和编 写服务所用的编程语言。这使得基于w e bs e r v i c e 的应用程序成为松散耦 合、面向组件和跨技术实现的。w e bs e r v i c e 履行一项特定的任务或一组 任务。w e bs e r v i c e 可以单独或同其他w e bs e r v i c e 一起用于实现复杂的 集成或商业交易。 w e bs e r v i c e 主要用到的技术有: x m l :定义了一种表示数据和集中数据的通用的简单方法。 1 0 中国4 m 人学( 华尔) 硕十论文第2 章异构数据源集成的相关技术 s o a p :使用x m l 作为消息去定义一个通用的w e bs e r v i c e 请求,使 应用程序简单地继承起来。 w s d l :指定了集成必需的全部消息,使这种通用的应用集成工具成 为可能。 u d d i :是允许用户和应用去查找所需w e bs e r v i c e 的一种特殊的w e b 服务。 我们将在2 3 3 中详细介绍这四种技术。 2 31w e bs e r v i c e 的体系架构 w e bs e r v i c e 的体系架构如图2 1 所示 图2 - 1w e bs e r v i c e 体系架构 上圈从分层的角度描述了w e bs e r v i c e 的整体架构,其中包括了w e b 中国t m 人学( 华尔) 硕十论文第2 章异构数据源集成的相关技术 s e r v i c e 协议栈。与网络的分层结构相同,上一层需要下一层的支持。而 安全性、可管理性、服务质量则需要在各个层次都有所体现。 网络层处于w 曲服务协议栈的最底层。w e bs e r v i c e 要被服务请求者调 用,就必须是可以通过网络访问的。因此,i n t e m e t 上可以公用的w e b s e r v i c e 使用普遍部署的网络协议。h t t p 凭借其普遍性,成为i n t e m e t 上可 用w e bs e r v i c e 真正的标准网络协议。w e bs e r v i c e 还可以支持其他的网络 传输协议:h r r p ,f 1 1 p ,s m t p 、消息队列( m e s s a g eq u e u i n g ) ,i i o p ,j a v a r m i 等。 s o a p 是一种简单的、轻量级的基于x m l 的机制,用于在网络应用程 序之| 日j 进行结构化数据交换。s o a p 以x m l 标准封装调用远程服务的格 式,有别于其它分布式对象模型调用特定的调用格式,例如c o r b a 的 g i o p 以及d c o m 的o r p c 。s o a p 的设计目标是简单性和可扩展性,s o a p 协议本身并不提供编程模型或具体实现相关的消息定义机制,而是定义 了用于分布式应用程序间传递结构化信息的封装、处理机制和信息的编 码规则,以及与网络传输协议的绑定机制。因此,s o a p 是编程语言、对 象模型以及传输协议无关的,可以和各种网络协议( 如h t f p ,s m t p ,f t p 和i i o p 或j a v ar m i ) 相结合使用,或者用这些协议重新封装后使用。 w s d l 定义了服务交互的接接口和结构,是基于x m l 的服务描述的 标准。w s d l 使用x m ls c h e m a 来描述w e bs e r v i c e 的结构。 u d d i 注册和发稚w e bs e r v i c e s 。u d d i 使用x m l 计划定义注册表的结 构,使用s o a p 与注册表的通信。 中国i i 油人学( 华东) 硕十论文第2 章异构数据源集成的相关技术 2 3 2w e bs e r v i c e 的运行机制 w e bs e r v i c e 的运行机制基于三种角色( 服务提供者、服务注册中心和 服务请求者) 之间的交互。交互涉及发布、查找和绑定操作。这些角色和 操作一起作用于w e bs e r v i c e 构件、w e bs e r v i c e 软件模块及其描述。图2 2 表示了这些操作、提供这些操作的组件及它们之l 日j 的交互。 发现( s o a p , u d d i )发布( s o a p , u d d i ) 图2 2w e bs e r v i c e 的运行机制 服务提供者:w e bs e r v i c e 中的服务提供者,从企业的角度看,这是 服务的所有者。从体系结构的角度看,这是托管访问服务的平台。服务 提供者是提供最终w e b 服务的供应商,它实现了一个w e bs e r v i c e ,并放 置在在线服务器上供服务请求者使用。 服务请求者:从企业的角度看,这是要求满足特定功能的企业。从 体系结构的角度看,这是寻找并调用服务、或启动与服务的交互的应用 程序。服务请求者角色可以由浏览器来担当,由人或无用户界而的程序 ( 例如,另外一个w e b j r 务) 束控制它。 服务注册中心:这是可搜索的服务描述注册中心,服务提供者在此 发柿他们的服务描述。在静念绑定丌发或动态绑定执行期间,服务请求 中国4 i 油人学( 华尔) 硕十论文第2 章异构数据源集成的相关技术 者查找服务并获得服务的绑定信息( 在服务描述中) 。对于静态绑定的服 务请求者,服务注册中心是体系结构中的可选角色,因为服务提供者可 以把描述直接发送给服务请求者。同样,服务请求者可以从服务注册中 心以外的其它来源得到服务描述,例如本地文件、f t p 站点、w e b 站点、 广告和服务发现( a d v e r t i s e m e n ta n dd i s c o v e r yo f s e r v i c e s ,a d s ) 或发现 w e b n 臣务( d i s c o v e r yo f w e bs e r v i c e s ) 。 服务提供者、服务请求者和服务注册中心这三个角色中任意两者的 交互,都是使用w e bs e r v i c e 的交互方式( 服务注册中心也是以w e bs e r v i c e 的形式运行) ,一般使用基于x m l 的s o a p 技术,它既可以满足跨平台通 信的需要,又可以利用x l d l 灵活丰富的表达能力传递信息。而被调用的 w e bs e r v i c e 的调用界面都是使用w s d l 描述的。 w e bs e r v i c e 有三种基本操作,这些操作具体为: ( 1 ) 发布。为了使服务可访问,需要将服务描述信息发布到注册中心 ( u d d i 服务器) ,以使服务请求者可以查找它。为了完成这个操作,服务 提供者需要通过u d d i 访问接口和u d d i 服务器通信,其中还可能牵涉到 身份认证等行为。 ( 2 ) 查找。就是指服务注册中心中的服务如何能够被服务请求者发 现。服务注册中心需要提供规范接口来接受服务请求者的查询请求。在 奄找操作中,服务请求者直接检索服务描述或在服务注册中心中查询所 要求的服务类型。对于服务请求者,可能会在两个不同的生命周期阶段 中牵涉到查找操作:在设计时为了程序丌发而检索服务的接口描述,而 在运行时为了调用而检索服务的绑定和位置描述。 ( 3 ) 绑定。服务请求端在运行时,根据绑定信息将自己与某个特定的 网络w e b 服务联系起来,以调用这个服务,这个动作称为绑定。在绑定操 1 4 中国4 i 油人学( 华尔) 硕十论文第2 章异构数据源集成的相天技术 作中,服务请求者使用服务描述中的绑定细节来定位、联系和调用服务, 从而在运行时调用或启动与服务的交互。 w e bs e r v i c e 的运行过程具体如下:首先,在服务器端,服务提供者 提供一个w e bs e r v i c e ,并使用w s d l 语言描述其接口。然后在服务注册中 心中对该服务进行注册并发布服务描述。然后,服务请求者直接检索服 务描述或在服务注册中心中查询所要求的服务类型,并在服务描述中获 得服务的接口描述,服务的绑定和位蔑描述。服务的接口描述在客户端 应用程序丌发时使用。在客户端应用程序运行时,服务请求者使用服务 揣述中的服务的绑定和位置描述信息来定位、联系和调用服务,从而在 运行时调用或启动与服务的交互。 在请求远端服务,与服务的交互的过程中,服务请求者根掘绑定和 位置描述信息将请求数据传送给在客户端的请求者代理( r e q u e s t e r a g e n t ) ,出请求者代理将请求数据序列化为x m l 格式,通过s o a p 发送给服 务器端。服务器端的提供者代理( p r o v i d e ra g e n t ) 将x m l 格式的数掘反序 列化为服务器端的数掘格式。最后,当w e bs e r v i c e 对数据的处理完成后, 结果按照请求的传递路径逆向返回给服务请求者。 2 3 3w e bs e r v i c e 主要的相关技术 w e bs e r v i c e 技术是一种优秀的分布式计算技术,它解决了在使用其 它分布式计算技术时所遇到的问题,比如:通过防火墙,异构平台集成, 协议复杂性等。w e bs e r v i c e 主要用到的技术有:x m l 、s o a p 、w s d l 和u d d i ,下面我们将详细介绍一下这几种技术。 ( 1 ) x m l 技术 中国i i 油人学( 华东) 硕十论文第2 章异构数据源集成的相关技术 x m l ( e x t e n s i b l e m a r k u p l a n g 岫g e ) ,是万维网协会( w 3 c ) 创建的一 组规范,它是s g m l 的子集并集s g m l 和h t m l 的优势于一身。总体来 说,x m l 是一种元标记语言( m e t a - m a r k u pl a n g u a g e ) ,可提供描述结构 化数据的格式,具体来说,x m l 是一种类似于h t m l ,被设计用来描述 数据的语言。x m l 文档由成为实体的存储单元组成,实体可以包含解析 数据或未解析数据。解析数据出字符组成,其中一些字符组成字符数据, 另一些字符组成标记,标记中包含对文档存储格式和逻辑结构的描述。 x m l 主要包含3 个元素:d t d ( d o c u m e n tt y p ed e f i n i t i o n ) s c h e m a ( 模式) 、x s l ( e x t e n s i b l e s t y l e s h e e t l a n g u a g e 日- j 扩展样式语言) 和 x l i n k ( e x t e n s i b l el i n kl a n g u a g e 可扩展链接语言) 。 d t d 规定了x m l 文件的逻辑结构,定义了x m l 文件中的元素、元素的 属性以及元素和元素的属性之间的关系。d t d 是一套关于标记符的语法 规则,它可以是x m l 文档的一部分,但是它通常是一份单独的文档或者 一系列文档。x m l 本身并没有一个通用的d t d ,想使用x m l 进行数据交 换的行业或组织可以自行定义它们自己的d t d ,d t d 规定了一个语法分 析器用于解释一个“有效的”x m l 文档所需要知道的所有规则的细节。 d t d 标记声明可以是元素类型声明,属性表声明,实体声明,或符号声 明。 x m ls c h e m a 给x m l j i 入了描述数据类型的能力。虽然d t d 是近几年 来x m l 技术领域所使用的最广泛的一种模式。但是,它也有一些缺点, 如:采用非x m l 的语法规则、支持数据类型有限、扩展性较差等。因此 w 3 c 于2 0 0 1 年5 月j 下式推荐x m ls c h e m a 为x m l 的标准模式。s c h e m a 具有 以下的优点:1 ) 一致性。s c h e m a 本身就是x m l 文档,使得对x m l 的定 义不必再利用一种特定的形式化语言,而是直接借助x m l 自身的特性, 1 6 中国4 i 油人学( 华尔) 硕十论文第2 章异构数据源集成的相关技术 使x m l 达到从内到外的完美统一;2 ) 扩展性。s c h e m a 对d t d 进行了扩充, 从而使其具各较强的可扩展性;3 ) 互换性。用户可以根掘需要设计适合 自己应用的s c h e m a ,并且可以同其他人交换彼此的s c h e m a ,通过映射机 制,可以将不同的s c h e m a 进行转换,实现更高层次的数掘交换;4 ) 规范 性。同d t d 一样,s c h e m a 也提供了一套完整的机制以约束x m l 文档中标 记的使用,相比之下,s c h e m a 更具规范性,它定义了x m l 文档的整体结 构,元素日j 的关系等;s ) 易用性。处理x m l 时,我们经常使用d o m 和s a x , 它们只对x m l 文档有效而对d t d 无能为力。因此,x m ls c h e m a k e d t d 具有更强的表现力,能够更好地满足不同领域应用的需求。但是d t d 仍 然有它的适用范围和优势,短期内不可能被x m ls c h e m a 完全替代,这是 因为d t d 具有广泛的工具支持和广泛的应用。 x s l 是描述x m l 文档样式信息的一种语言,是x m l 的一种具体应用。 x s l 定义了x m l 的表现方式,使得数掘的内容与数掘的表示方式相互独 立。它由两部分组成:第一部分描述如何将一个x m l 文档进行转换;第二 部分定义了格式对象f 0 ( f o r m a t t i n go b j e c t ) 。在输出时,首先根据x m l 文档构建源树,然后根据给定的x s l 将这棵源树转换为可以显示的结点 树,这个过程称为树转换,然后再按照f o 分析结果树,产生一个可在屏 幕或其它媒体中输出的结果,这个过程称为格式化。x s l 与c s s ( c a s c a d i n gs t y l es h e e t s ) 都属于样式表的一种。其中c s s 是种

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论