(计算机应用技术专业论文)基于服务数据对象的异构数据集成研究.pdf_第1页
(计算机应用技术专业论文)基于服务数据对象的异构数据集成研究.pdf_第2页
(计算机应用技术专业论文)基于服务数据对象的异构数据集成研究.pdf_第3页
(计算机应用技术专业论文)基于服务数据对象的异构数据集成研究.pdf_第4页
(计算机应用技术专业论文)基于服务数据对象的异构数据集成研究.pdf_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基丁服务数据对象的异构数据集成研究 摘要 随着网络的发展和信息化的逐步深入,企业对数据共享和交换的需求不断增加,迫切 需要将其信息化过程中产生的各种异构数据进行整合,从而解决“信息孤岛 问题。建立 异构数据集成系统是一种行之有效的办法,但由于这些数据源具有明显的自治性、分行性 和异构性,以及原有的数据集成方案均有不足之处,已经不能很好地满足当今数据集成的 需要,为此本文提出了一种新的异构数据集成解决方案,来对各种数据资源进行有效的集 成。 本文的研究内容和贡献主要体现在以下几个方面: 首先对数据集成的理论基础进行了综述,分析和总结了数掘集成过程中需要解决的问 题;接着对目前比较常用的数据集成解决方案进行了分析比较,指出了现有解决方案中存 在的问题;在对新型数据编程规范s d o ( s e r v i c ed a t ao b j e c t s ,服务数据对象) 及其相 关技术进行研究的基础上,提出了一种基于服务数据对象的异构数据集成解决方案,给出 了系统的体系结构,并对每个模块的功能和实现进行了详细描述。 利用数据访问服务( d a s ) 封装各种异构数据源,并将结果以同一种格式暴露给集成 系统,实现了对数据源中数据访问、操作方式的统一,将对数据源的操作和连接提升到了 d a s ,增加了程序的复用性,同时解决了以往数据集成方法中只能对数据进行读操作而不 能进行写操作的问题。 设计实现了一个统一的数据访问界面,屏蔽了各种数据资源的差异,实现了对各种数 据资源的实时访问。 查询处理是异构数据集成系统的关键问题之一,它直接关系到数据集成系统的可用性 和正确性。本文在查询分解方面,给出了基于数据源配置文件的查询分解方法,集成系统 根据配置文件就可以与相应的数据源取得连接,而且只要修改相应的数据源配置文件,就 可以实现数据源的灵活修改。 最后将集成方案在基于w e b 的p l m 系统的设计与实现项目上进行了应用,验证了方 案的可行性,并总结了本文的工作及创新之处,指出了未来的研究重点和方向。 关键词:异构数据;数据集成;服务数据对象;数据访问服务;x m l 基丁服务数据对象的异构数据集成研究 a b s t r a c t w i t ht h ed e v e l o p m e n to fi n t e m e ta n dt h eg r a d u a ld e e p e n i n go fi n f o r m a t i o n i z a t i o n ,t h e d e m a n df o rd a t as h a r i n ga n dd a t ae x c h a n g ec o n s t a n t l yi n c r e a s e ,s oi ti sm o r ea n dm o r ep r e s s i n g t o i n t e g r a t em u l t i p l e d a t at h a t g e n e r a t ef r o mt h ep r o c e s s o fi m p l e m e n t i n g e n t e r p r i s e i n f o r m a t i z a t i o nt or e s o l v et h ep r o b l e mo f “i n f o r m a t i o ni s o l a t e d i s l a n d s ”d e v e l o p i n ga h e t e r o g e n e o u sd a t ai n t e g r a t i o ns y s t e mi sav a l i dw a y , h o w e v e r , t h e s ed a t as o u r c e sh a v eo b v i o u s a u t o n o m y , d i s t r i b u t i o na n dh e t e r o g e n e i t y , a sw e l la se v e r yo r i g i n a li n t e g r a t i o ns o l u t i o nh a si t s l i m i t a t i o n s ,t h et r a d i t i o n a ls o l u t i o n sh a v eb e e nu n a b l et om e e tt o d a y sd a t ai n t e g r a t i o nn e e d s s o i n t h i sp a p e ran e ws o l u t i o no fh e t e r o g e n e o u sd a t ai n t e g r a t i o nh a sb e e np r o p o s e d ,w h i c hc a n e f f e c t i v e l yi n t e g r a t em u l t i p l ed a t as o u r c e s t h em a i nr e s e a r c hw o r ka n dc o n t e n tc o n t r i b u t i o n so ft h ep a p e ra r ed e s c r i b e da sf o l l o w i n g : a tf i r s tt h et h e o r e t i c a lf o u n d a t i o no fd a t ai n t e g r a t i o ni sr e v i e w e d t h i sp a p e ra l s oa n a l y s i s a n ds u m m a r i z e st h ep r o b l e m sw h i c hn e e dt ob er e s o l v e di nt h ei n t e g r a t e dp r o c e s s t h e ni t a n a l y s i sa n dc o m p a r e st h et r a d i t i o n a ls o l u t i o n s ,a n dp o i n t so u tt h ep r o b l e m so ft h ee x i s t i n g s o l u t i o n s b yt h er e s e a r c ho ft h el a t e s tp r o g r a m m i n gs p e c i f i c a t i o n - - s d o ( s e r v i c ed a t ao b j e c t s ) a n dt e c h n o l o g i e sr e l a t e dt oi t ,t h ep a p e rp r o p o s e sas o l u t i o no fh e t e r o g e n e o u sd a t ai n t e g r a t i o n b a s e do ns e r v i c ed a t ao b je c t s t h e nt h ep a p e ri n t r o d u c e st h ed a t ai n t e g r a t i o ns y s t e ma r c h i t e c t u r e , a n dd e s c r i b e se v e r ys u b m o d u l e sf e a t u r ea n di m p l e m e n t a t i o n d a t aa c c e s ss e r v i c e ( d a s ) i su s e dt oe n c a p s u l a t em u l t i p l ed a t ar e s o u r c e s i tr e t u r n sr e s u l t s b yt h es a m ef o r m a t ,w h i c hu n i f i e st h em e t h o d so fd a t aa c c e s sa n dd a t am a n i p u l a t i o n t h e o p e r a t i o na n dc o n n e c t i o no ft h ed a t as o u r c e sa r ep r o m o t e dt od a s ,w h i c hi n c r e a s e st h e r e u s a b i l i t yo ft h ep r o c e d u r e t h ep r o b l e mt h a tt h et r a d i t i o n a ls o l u t i o n sc a nn o tw r i t ed a t ab u t o n l yr e a dd a t aa l s oi sr e s o l v e di nt h i sp a p e r i ta l s od e s i g n sa n da c h i e v e sau n i f i e dd a t aa c c e s si n t e r f a c e ,w h i c hh i d e st h ed i f f e r e n c e so f d a t as o u r c e sa n di m p l e m e n t st h ed a t aa c c e s si nr e a lt i m e q u e r yp r o c e s s i n gi so n eo fk e yi s s u e so fh e t e r o g e n e o u sd a t ai n t e g r a t i o ns y s t e m i ti s d i r e c t l yr e l a t e dt ot h ec o r r e c t n e s sa n da v a i l a b i l i t yo fd a t ai n t e g r a t i o ns y s t e m i nt h i sp a p e r , a q u e r yd e c o m p o s i t i o nm e t h o db a s e do nc o n f i g u r a t i o nf i l e so fd a t as o u r c e si sg i v e ni nq u e r y d e c o m p o s i t i o nr e s p e c t b yt h ec o n f i g u r a t i o nf i l e s ,t h ei n t e g r a t i o ns y s t e mc a n o b t a i nc o n n e c t i o n s w i t ht h ec o r r e s p o n d i n gd a t as o u r c e s a n da sl o n ga st h ec o n f i g u r a t i o nf i l ei sm o d i f i e d ,t h es y s t e m c a ni m p l e m e n tt h ef l e x i b l em o d i f i c a t i o no fd a t as o u r c e s f i n a l l y , t h ei n t e g r a t e ds o l u t i o ni sa p p l i e dt ot h ep l ms y s t e mb a s e do nw e b ,a n di t s f e a s i b i l i t yi sv e r i f i e d i nt h ee n do ft h i st h e s i s i ts u m m a r i z e st h ew o r ka n dt h ei n n o v a t i o n so ft h i s i l 基丁服务数据对象的异构数据集成研究 p a p e r i ta l s op o i n t so u tt h ef u t u r er e s e a r c hd i r e c t i o n sa n dt h ea s p e c t sw h i c h n e e dt ob ei m p r o v e d k e yw o r d s :h e t e r o g e n e o u sd a t as o u r c e ;d a t ai n t e g r a t i o n ;s e r v i c e d a t a o b je c t s ;d a t aa c c e s ss e r v i c e ;x m l i l l 曲阜师范大学博士硕士学位论文原刽性说明 ( 在口划“ ) 本人郑重声明:此处所提交的博士口硕士曰论文基于服务数据对 象的异构数据集成研究,是本人在导师指导下,在曲阜师范大学攻读博士 口 硕士囤学位期间独立进行研究工作所取得的成果。论文中除注明部分外 不包含他人已经发表或撰写的研究成果。对本文的研究工作做出重要贡献的 个人和集体,均已在文中己明确的方式注明。本声明的法律结果将完全由本 人承担。 作者签名:神丝吼砂恪6 目弓日 曲阜师范大学博士硕士学位论文使用授权书 ( 在口划“) 基于服务数据对象的异构数据集成研究系本人在曲阜师范大学攻读 博士口硕士曰学位期间,在导师指导下完成的博士口硕士囱学位论文。 本论文的研究成果归曲阜师范大学所有,本论文的研究内容不得以其他单位 的名义发表。本人完全了解曲阜师范大学关于保存、使用学位论文的规定, 同意学校保留并向有关部门送交论文的复印件和电子版本,允许论文被查阅 和借阅。本人授权曲阜师范大学,可以采用影印或其他复制手段保存论文, 可以公开发表论文的全部或部分内容。 作者签名:浆丫乳日期:叼辱占月弓日 导师签名:专怠二日期:伊7 乡 基丁服务数据对象的异构数据集成研究 1 1 研究背景 第一章绪论 随着网络的发展和信息化的逐步深入,在许多单位或机构、部门内部都逐步实现了信 息的计算机化管理,大多数企业在引入信息化管理的过程中,针对不同阶段业务处理过程 对信息化的需求,分别建立了各种不同的局部应用系统,这些系统往往各自独立、封闭运 行,相互之间不存在信息的交互,多个系统之间往往存在数据的冗余以及功能的重叠,形 成了所谓的“信息孤岛”。毋庸置疑,数摒是企业最重要的信息资产,在大多数企业中, 数据大都以不同的格式分布在不同的系统中,这些数据受数据模型及存储方式的差异,具 有明显的异构性、分布性和自治性,难以实现资源的共享,形成了所谓的“数据孤岛”,“数 据孤岛”的产生,势必给企业应用带来了信息需要重复多次输入、信息存在很大的冗余、 大量的垃圾信息和信息交流的一致性无法保证等问题验3 。然而在实际的应用中,不同的应 用系统之问常常需要进行数据的共享和交换,如何将这些不同来源、格式和质量的数据进 行有效的集成,消除“孤岛”,实现企业级数据的全面共享,同益成为研究的热点。 异构数据集成系统就是把不同来源、格式、特点性质的数据在逻辑上或物理上进行有 效的集中口1 ,同时还需要保持数据在不同系统上的完整性和一致性,屏蔽各种异构数据之 间的差异,从而为用户提供全面的数据共享。据i n f o r m a t i c a 的林杨介绍h 3 ,目前实施数据 集成项目主要有三个角度:一是数据集成平台,由独立于数据库平台的软件供应商提供, 能够实现跨数据库平台、多种应用系统的数据集成,其过程中用户不会受到数据库类别的 限制,集成操作最为灵活和自由;二是e r p 或数据库厂商提供的数据集成技术,主要是从 数据库集成的角度出发,包含报表、查询等功能,其优点是在同品牌的应用系统( 例如s a p 、 甲骨文) 中具有一定的整合优势,但弱点是外部集成能力不强,兼容性差;三是基于手工 编程的数据集成,也被称为“非企业级集成”,这种集成操作往往以项目为单位进行,标 准化和规范性均较差。从这三个角度可以看出,异构数掘集成平台可以将来自不同数据资 源的数据进行有效的整合,屏蔽数据资源的多种差异,对外提供一个统一的数据访问接口, 具有更好的灵活性、重用性和扩展性。因此,异构数据集成平台的构建也成为了研究的又 一热点。 目前企业为消除“信息孤岛”实施集成的技术障碍主要有以下几个方面嫡3 :服务的非 标准化;接口和服务的紧密耦合和各种应用的紧密耦合;各种应用接口的粒度过细,不能 反映业务的真实需求;服务的位置和传输协议的非透明化,一旦服务的位置和传输协议发 生变化,所有客户端的调用程序都需要修改。而面向服务的体系架构胁( s e r v i c eo r i e n t e d a r c h i t e c t u r e ,s o a ) 就可以很好的解决以上问题,s o a 采用松散耦合的服务、反映业务真 实需求的粗粒度的服务、以及位置和传输协议透明的服务,来消除信息集成的障碍,它能 基了:服务数据对象的异构数据集成研究 使企业随市场的需求而变,并且能够在不改变现有系统的基础上,使其能够和其它系统进 行轻松的集成。s o a 已经成为目f ; i t 业内一个大的发展趋势,最初i b m 和b e a 是该理 念的主要推动者,后来有越来越多的企业加入,开始宣称支持s o a ,并制定了一系列的规 范,其中s o a 数据编程规范s d o ( s e r v i c ed a t ao b j e c t s ,服务数据对象) ,为数据集成提 供了新的解决方案。 本文研究开发的基于服务数据对象的异构数据集成平台就是在这些背景下产生的,该 平台在一定程度上解决了异构数据集成系统构建【! l ! 难、建成后难以修改的问题,能够提供 对相关数据源的透明访问,使用户好像在操作一个数据源一样,如图1 1 所示。该平台利 用s d o 提供的统一数据应用丌发框架进行开发,简化和统一了应用程序处理数据的方式, 使编程人员可以一致地访问和操作来自异构数据源的数据;解决了以往集成系统中只能查 询数据不能对数据进行操作的问题;该平台还实现了异构数据集成系统的半自动化构建及 数据源的灵活修改,具有良好的扩展性。总而言之,该平台能够帮助企业完成对现有信息 的统一管理,能很好地满足企业将来发展的需要。 1 2 国内外研究现状 图1 1 数据集成平台 随着网络、人工智能等相关领域的发展,数据集成的范围和作用也在不断扩大,从早 期的多数据库集成到现在的多种异构数据资源的集成,数据集成技术的研究从二十世纪七 十年代中期开始,至今已经有三十多年了。 在数据集成领域中,最早出现的技术有多数据库系统碑3 和联邦数据库系统阳j 训,其重点 在于使具有不同软硬件设备的计算机系统进行互连和通信,在一定程度上解决了语法异构 和结构异构,实现了地理位置、数据模式等的透明性。 随着网络的出现和发展以及多种类型数据资源( 包括结构化数据,半结构化数据和非 结构化数据) 的广泛使用,出现了分布式数据库系统和支持多种数据源类型的异构数据 基了:服务数据对象的异构数据集成研究 集成技术。分布式数据库系统主要实现了各种分佰式数据库的统一管理和访问,提高了数 据的访问速度、存储容量以及安全性;而异构数据集成技术的主要目标是屏蔽各种数据资 源的差异性,提供一个可以透明访问这些异构数据资源的统一访问接口,其中比较具有代 表性的技术有:w r a p p e r m e d i a t o r 体系结构、中间件等。 9 0 年代中期到现在,随着企业越来越多的采用交互系统、面向服务的架构以及明确语 义网络,数据集成技术正在发生巨大变化,语义使得信息呵以更加有效的发现和连接,运 用知识领域的有关技术如本体n 2 j 叫等解决数据集成过程中的语义异构成为现在数据集成领 域比较关注的问题。 在异构数据集成领域,已经有了很多成熟的框架可以使用,很多计算机厂商也都给出 了自己的解决方案,但这些解决方案缺乏统一的、通用的方法,所以至今还没有一个公认 的最佳异构数据集成解决方案。针对服务、数据源的封装、访问接口方面,b e a ,i b m 等 厂商提出了服务数据对象( s e r v i c ed a t ao b j e c t s ,s d o ) 规范,服务数据对象的设计n 耵是为 了简化和统一应用程序处理数据的方式,利用s d o ,应用程序编程人员可以一致地访问和 操纵来自各种异构数据源的数据,包括关系数据库、x m l 数据源、w e b 服务和企业遗留 系统等等,通过服务数据的部分虚拟化工作,为各种数据资源建立规范的数据访问模型, 其主要目的是为数据集成开发人员提供适合各类数据资源的统一的数据访问接口。 1 3 研究内容和研究意义 1 3 1 研究内容 为了集成各种异构数据资源,并实现对这些资源的透明访问,本文在阅读大量文献资 料的基础上对现在异构数据集成过程中所面临的问题、集成策略及集成方法进行了分析, 对几种常用的数据集成方案进行了分析比较,指出了现有数据集成方案的不足之处,在对 s o a 及其数据编程规范s d o 进行了深入研究后,利用s d o 在简化数据编程及对异构数据 处理上的优势,提出了一种基于s d o 的异构数据集成解决方案,给出了系统框架,对各 功能模块进行了详细介绍,并在山东省教育厅科技计划项目基于w e b 的p l m 系统的 设计与实现的背景下进行了应用,验证了方案的可行性。 1 3 2 研究意义 本文提出的基于服务数据对象的异构数据集成方案实现了使用一种统一的方法来对 各种异构数据源进行访问和操作,可以方便地进行数据源的添加、删除和修改,具有良好 的扩展性、实用性等,并且s d o 有丰富的丌源实现础( 如a p a c h e 的t u s c a n y 项目、e c l i p s e 项目下的e m f 项目等) 可以使用,利用s d o 进行数据集成能够很好的满足异构环境下数 基于服务数据对象的异构数据集成研究 据共享及交换的需求,尽可能做到组件重用,这样不仅可以缩短集成系统的开发周期,还 可以降低系统的丌发成本,从而为企业内部的数据共享和交换提供有力的支持。 1 4 本文组织结构 第一章绪论。阐述论文的研究背景、国内外研究现状及本文的研究内容和研究意义。 第二章异构数据集成方法概述。介绍了异构数据源及异构数据集成系统的基本概念 和理论,并对目前三种常用的集成方法进行了详细的分析和比较,提出了一种新的异构数 据集成解决方案。 第三章服务数据对象。介绍了什么是s d o ,接着对s d o 的目标、框架、关键组件及 其运行过程进行了阐述,并对s d 0 2 1j a v aa p i 中的主要接口进行了详细介绍,最后介绍 了实现s d o 所需的技术。 第四章基于s d o 的异构数据集成解决方案。给出了系统的架构,详细介绍了系统的 关键部分,最后介绍了系统的数据访问流程。 第五章基于s d o 的异构数据集成解决方案在p l m 系统中的应用。具体说明了如何 进行查询的分解、如何与数据源建立连接及如何利用d a s 对数据源中的数据进行增、删、 改、查操作。 第六章对本文的研究进行了总结并展望了未来的研究方向。 4 基丁服务数据对象的异构数据集成研究 2 1 异构数据集成 第二章异构数据集成方法概述 异构数据集成系统的主要任务是屏蔽数据源数据模型的差异,将相互关联的异构数据 源集成到一起,对外提供一个统一的访问接口,使用户可以对这些异构的数据源进行统一、 全局、高效的访问和管理。 2 1 1 异构数据源( h e t e r o g e n e o u sd a t as o u r c e s ) 从广义上讲,结构或者形式不一样的多个数据源就构成了异构数掘源。比如 兑,在一 个系统中,同时具有关系数据库( 如s q ls e r v e r 、m y s q l 等) ,简单数据库( 如a c c e s s 、 e x c e l 等) ,还有t x t 文本数据、x m l 数据等等不同的数据源,由这些不同数据源组成 的一个整体就是一个异构的数据源。 根据数据内容的结构不同,我们可以把数据资源分为三类n 引: 1 结构化数据 结构化数据以严格的格式进行表示,一般存储在数据库中,所有的数据都遵循数据库 模式中所指定的结构和约束,如关系数据库表中的每条记录、面向对象数据库中的数据都 是结构化数据。对于结构化数据,为了创建数据库模式,一般需要使用某些技术进行数据 库的详细设计,如使用实体一联系( e r ) 模型、增强的实体一联系( e e r ) 模型进行数据建 模,使用e r 到关系的映射和e e r 到关系的映射进行关系数据库的设计n 引,然后使用d b m s ( d a t a b a s em a n a g e m e n ts y s t e m ,数据库管理系统) 进行检查以确保所有的数据都遵循模 式中所指定的结构和约束。 2 非结构化数据 相对于结构化数据而言,不方便使用数据库来表现的数据即为非结构化数据,该类数 据没有统一的数据模式,只用某种格式来存储数据的内容,很难直接对数据的内容进行查 询、修改等操作,如所有格式的办公文档、文本、图片、各类报表、图像和音频视频信 息等都是非结构化数据。 3 半结构化数据 半结构化数据,是种介于完全结构化数据( 如关系型数据库、面向对象数据库中的 数据) 和完全无结构数据( 如声音、图像文件等) 之间的数据。这种类型的数据有时也被 称为自描述数据,因为在半结构化数据中,模式信息与数据值混合在一起,虽然有一定的 结构,但却是不严格的而且多变的,不需要数据对象遵循预先定义好的模式,如h t m l 文 档、x m l 文档中的数据都属于半结构化数据。为了表示半结构化数据,已经引入了大量的 基y - i 艮务数据对象的异构数据集成研究 数据模型,这些模型一般都是基于树或图数据结构,而不是基于平面关系模型结构,如x m l 文档就是一种树形结构。 异构数据集成系统就是将这三类异构数据资源进行有效的集中,屏蔽各种数据资源的 差异,实现数据资源的共享,使用户可以透明的对这些数据资源进行访问和操作,而不必 关心数据资源的结构、类型等信息。 2 1 2 异构数据集成研究需要解决的问题 在构建异构数据集成系统时,如何解决数据源的分布、异构,同时保持局部系统的自 治性,实现对数据资源的统一的透明访问,并且使构建的系统具有良好的扩展性,都是需 要解决的问题。 - 1 异构性 异构性是企业进行异构数据集成面临的首要问题,数据源的异构性主要表现在以下三 个方面n 引: 1 ) 系统异构,数据源所依赖的业务应用系统、数据库管理系统乃至操作系统之间的 不同构成了系统异构。 2 ) 模式异构,即数据源在存储模式上的不同。一般的存储模式主要包括关系模式、对 象模式、对象关系模式和文档嵌套模式等几种,其中关系模式( 关系数据库) 为主流存储 模式。同时,即便是同一类存储模式,它们的模式结构也可能存在着差异,例如o r a c l e 所 采用的数据类型与s q ls e r v e r 所采用的数据类型就不是完全一致的。 3 ) 语义异构,原有的数据涉及不同的应用领域,具有各自的语义范畴,不同的数据 源内部定义了不同的规则和约束来表述数据本身和数据| 、日j 的语义。语义异构主要包括以下 几个方面n 引:不同的数据源使用不同的术语表示同一概念;同一概念在不同的数据源中所 表达的含义不同;不同的数据源使用不同的结构来表示相同或相似的信息;各数据源中的 概念之间存在着各种联系,但这种隐含联系不能体现出来。 2 分布性 各数据源是异地分布的,依赖网络进行数据传输,因此,需要解决分布性问题,实现 数据的集中和汇总,同时还要考虑网络传输的性能和安全性等问题。 3 自治性 自治性是指每个数据源都是独立的,不受其它系统的限制,同时能够决定是否提供和 提供多少它的功能和资源为其它成员系统服务,在对原有系统中的数据进行集成时,不影 响原有系统的正常使用。 4 透明性 透明性与系统解决异构的程度相关,解决的异构程度越高对透明性的要求也就越高。 透明性主要包括平台透明性、系统透明性、数据源透明性等。 6 基y - i 艮务数据对象的异构数据集成研究 平台透明性是指隐减数据源所基于的平台之间的差异,如软硬件平台、操作系统、通 讯协议等。对用户来说,每个数据源就像运行在同一个软硬件平台上,没有平台的差异。 系统透明性是指隐藏数据源的数据管理系统、数据模型和数据语言间的差异。对用户 来说,每个数据源就像是用同一个数据模型来描述的、由同一个数据管理系统和数据语言 来管理和维护的。 数据源透明性是指隐藏数据源的描述信息,如数据的存储位置、数据如何被查询等问 题。用户不必关心底层数据源的细节,看到的只是一个逻辑数据源。 5 扩展性 异构数据集成系统应该具有良好的扩展性,能够很好地适应数据源的数目、内容以及 格式等的不断变化。 2 2 异构数据集成方法概述 数据集成技术发展至今,已经有三十多年了,目前,有很多成熟的集成异构数据源的 体系结构可供使用,最典型的数据集成方法主要有三种:联邦数据库、数据仓库和m e d i a t o r ( 中介法) ,其中联邦数据库和m e d i a t o r 属于虚拟视图法,数据仓库又被称为物化法3 。 虚拟视图法也被称为模式集成法,它的框架如图2 1 所示。其基本思想是,在进行集成系 统的构建时将各数据源的数据视图集成为全局模式,使用户能够按照全局模式透明地访问 异构数据源中的数据呤,全局模式描述了共享数据的结构、语义及操作等信息,用户直接 在全局模式的基础上向数据集成系统提交数据访问请求,然后由数据集成系统将请求信息 转换成各个数据源在本地数据视图基础上能够执行的请求。下面分别对这三种数据集成方 法进行详细的介绍。 图2 1 虚拟视图法架构图 基丁服务数据对象的异构数据集成研究 2 2 1 联邦数据库系统 联邦数据库系统是早期普遍采用的一种数据集成方案,它是多数据库系统的一种特殊 形式,由多个相互协作的半自治数据库构成,这些数据库之间相互分享数据,联邦各数据 库之间相互提供访问接口,每个数据库都与其它的数据库进行一对一的连接,每个数据库 的操作都独立于联邦中的其它数据库及联邦,之所以称其为“半自治”数据库,是因为各 数据库问都添加了彼此访问的接口。联邦数据库系统的体系结构如图2 2 所示: 图2 2 联邦数据厍体系结构 联邦数据库系统根据集成度可分为两类:紧耦合联邦数据库系统和松耦合联邦数据库 系统。 紧耦合联邦数据库系统有一个统一的数据模式,将各数据源的数据模式映射到全局模 式上,全局数据模式的创建和维护由全局数据库管理员负责,并对外提供统一的数据操作 接口,屏蔽了数据源的异构性,这种方法集成度比较高,用户的参与少,但全局数据模式 的构建算法比较复杂,而且联邦数据库系统中数据库的添加、删除也比较困难,不易扩展。 松耦合联邦数据库系统没有全局模式,提供了统一的查询语言,将很多异构性问题交 给用户自己解决,各数据源保持了高度的自治性,动态性能好,集成系统不需要维护一个 全局模式,但每个数据库都需要创建一个自己的“联邦模式”。 由联邦数据库系统的体系结构可以看出,这种方式的数据集成是一个n 维问题,如果 联邦中有n 个数据库,每个数据库就要与n 1 个数据库进行互操作,如果联邦的数据源各 不相同,就需要建立n m 1 ) 个不同的数据交互接口,当参与联邦的数据库很多( 即n 很大) 时,实现各个数据源的互操作就变得不可能了,所以,联邦数据库系统比较适合于数据库 数量比较少的情况,对于网络上越来越多的、不断变化的、不同结构的数据源,这种集成 8 基丁服务数据对象的异构数据集成研究 方式显然不是一种理想的解决方案。 2 2 2 数据仓库法 数掘仓库法是把各个数据源中的数据副本都存储在一个单一的数据库中,所有数据源 中的数据由e t l 乜剁( e x t r a c t ,t r a n s f o r m ,a n dl o a d ) 工具定期过滤、抽取出来,合成一个全 局模式,并装载到数据仓库中,这在用户看来与一般的数据库系统无异。数据仓库体系结 构如图2 3 所示。 图2 3 数据仓厍体系结构 业界公认的数据仓库概念是由w h i n m o n 在( ( b u i l d i n gt h ed a t aw a r e h o u s e ) ) 一书中提 出的,他认为:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的、 用于支持管理决策的数据集合。数据仓库最根本的特点是物理的存放数据,而且这些数据 并不是最新的、专有的,而是来源于其它的数据库,数据在进入数据仓库前,必须经过数 据的加工和集成,数据仓库反映的是历史数据,而不是日常事务处理中产生的数据。另一 方面,数据仓库也可能会禁止用户更新数据,因为,用户对数据的更新不会反应到原来的 数据源中,这就会造成数据源和数据仓库中数据不一致的问题。总之,用数据仓库法对数 据进行集成的缺点一是数据的重复存储,二是难以做到数据的及时更新,再就是当有新的 数据源加入或者已有数据源发生变化时,对数据仓库修改的代价也比较高。由此可见数据 9 基丁服务数据对象的异构数据集成研究 仓库法也不是一种理想的数据集成解决方案。 2 2 3m e d i a t o r ( 中介法) g w i d e r h o l d 最早给出了基于m e d i a t o r 的集成方法的构架心4 | ,m e d i a t o r 法瞳引是目自订比较 流行的数据集成方法,它通过在中间层提供一个统一的全局模型束访问各种异构数据源, 这罩的数据源可以是数据库、遗留系统、各种w e b 数据源等。中问层位于各种数据源和应 用程序之问,向下对各数据源起协调作用,向上为访问集成数据的应用提供统一的数据模 式和数据访问的通用接口。各数据源的应用仍然完成他们的任务,中间层则集中为各种数 据源提供一个高层次的检索服务。这种方案适应于数据源数目多、各局部数据源的自治性 很高且局部数据经常变化的w e b 环境。 图2 4 展示了一个典型的m e d i a t o r 异构数据集成系统的体系结构。在这个体系结构中, 最重要的部件是中介器( m e d i a t o r ) 和包装器( w r a p p e r ) 。中介器接受用户针对全局模式 生成的查询,然后根据数据源的描述信息及映射规则将接收到的查询分解成对每个数据源 的子查询,再根据数据源描述的信息优化查询计划,将子查询发送到每个数据源的包装器, 包装器将对应的子查询翻泽成符合每个数据源模型和模式的查询,并把结果返回给中介 器,最后,由中介器将接收到的来自每个数据源的结果合并成一个结果返回给用户,完成 一次查询。这种模式中的数据源可以是任意形式的数据源,而不局限于数据库,并且每个 数据源都是完全自治的,可以非常容易的动态添加和删除数据源。 中介器( m e d i a t o r ) 声、 查询7 结果查询、譬果 、l 、 包装器包装器 图2 4m e d i a t o r 系统体系结构 l o 累 基丁服务数据对象的异构数据集成研究 2 3 三种集成方法的比较 在上一节中主要介绍了目前比较流行的三种数掘集成方法:联邦数据库、数据仓库和 m e d i a t o r ( 中介法) ,这三种集成方案相比各有自己的特点和不足。 首先,m e d i a t o r 法与联邦数据库法相比具有以下不同出6 1 : 1 m e d i a t o r 系统中数据源的类型不像联邦数据库一样单一,可以是数据库,也可以是 x m l 数据、遗留系统、w e b 资源等等,而联邦数据库系统中的数据源只能是数据库。 2 在m e d i a t o r 系统中,数据源只和包装器打交道,因此可以很方便的对数据源进行 动态的添加、删除和修改操作。 3 m e d i a t o r 系统与联邦数据库系统相比,其不足在于系统中的数据源具有高度的自治 性,只允许对其进行读操作,而不允许对数据源中的数据进行修改、删除、添加操作。而 联邦数据库支持对数据源进行读写操作。 4 联邦数据库法和m e d i a t o r 法都适用于被集成系统规模大、数据更新频繁、数据实 时性、一致性要求高的情况。但在实际应用中,由予联邦数据库在集成时需要为每个数据 源单独编写大量彼此访问的接口,并且联邦数据库系统只支持对数据库的集成,对于现在 出现的大量半结构化数据、非结构化数据的集成需求,单纯的联邦数据库方法已不再适用。 其次,m e d i a t o r 法与数据仓库法相比具有以下不同: 1 数据仓库技术简单的说,就是将企业内外部的数据进行全面的集成、清洗和整理, 去掉一些纯事务性的数据,将企业数据按主题放置到一个“仓库”中。数据仓库中的数据 是面向主题的、集成的、历史的和不可修改的,一般所存放的是5 年左右的历史数据。在 数据仓库系统中,用户可以像访问普通数据库一样直接访问数据仓库,而与传统数据库不 同的是数据仓库中主要存储的是历史和汇总的数据,用于决策支持,供分析和执行人员进 行决策分析使用,而且为避免数据仓库与数据源中的数据出现不一致,通常不允许用户对 数据仓库进行更新。其最大的优点是保证了查询性能的快速高效,缺点是数据缺乏实时性, 查询到的数据不能保证是最新的,所有的数据都需要冗余存储,并且实现数据的同步非常 困难,当有新的数据源需要加入或者已有的数据源发生变化时,对数据仓库进行修改的代 价极高。 2 m e d i a t o r 法通过系统中的中介器将用户基于全局模式的查询请求分解成针对一个或 者多个数据源的查询,中介器通过包装器从数据源中得到结果,然后将查询结果进行综合 处理,把最终结果返回给用户,因此保证了查询的结果都是最新的。同时,由于m e d i a t o r 法中用户只和中介器交互、数掘源只和包装器交互,因此数据源可以进行方便的动态添加、 修改和删除。此外,m e d i a t o r 法不存储任何数据,这与数据仓库方式有本质的不同。但 m e d i a t o r 方法不能够对历史数据进行有效的分析和利用。 根据以上分析可以看出每种集成方法都有其特点和局限性,但基于m e d i a t o r 的数据集 基丁服务数据对象的异构数据集成研究 成方法与其它方法相比,具有明显的优势,目前大多数企业都采用这种方式进行数据集成, 这种方式的不足之处在于只z 一匕e , - - 寸数据源中的数据进行访问操作,而不能对数据源中的数据 进行增加、删除和修改操作,为了解决这一问题,本文在借鉴m e d i a t o r 思想的基础上,结 合服务数据对象( s d o ) 在数据处理上的优势,提出了一种基于服务数据对象的异构数据 集成解决方案。利用服务数据对象对各种数据源进行统一的访问和操作,同时以同一种格 式( 数据图) 返回查询结果,简化了数据编程,也解决了以往数据集成方法中只能查询数 据而不能操作数据的问题。我们将在下面的章节对服务数据对象( s d o ) 进行详细的介绍。 2 4 小结 本章首先介绍了异构数据源及异构数据集成系统的基本概念和理论,阐明了异构数据 集成系统需要解决的问题,并对目f j 三种常用的集成方法进行了分析比较,最后在借鉴 m e d i a t o r 方法思想的基础上,提出了一种基于服务数据对象的异构数据集成解决方案。 基丁服务数据对象的异构数据集成研究 第三章服务数据对象 3 1s d o ( s e r v i c ed a t ao b j e c t s ,服务数据对象) 概述 3 1 1 为什么使用s d o s o a ( s e r v i c e o r i e n t e da r c h i t e c t u r e ,面向服务的架构) 作为一种i t 架构和组织i t 基 础结构及业务功能的方法,已经被视为下一代w e b 服务的基础架构,几乎所有的大厂商都 加入了有关s o a 的开发中。s o a 将应用程序的不同功能单元( 称为服务) 通过这些服务 之间定义良好的接口和以及约束这个接口的契约联系起来,接口和契约独立于实现服务的 硬件平台、操作系统和编程语言,使得构建在各种这样的系统中的服务可以用一种统一和 通用的方式进行交互。s o a 旨在推广一种可互换的、适应性强的和灵活的行业标准框架, 这就要求提供随需应变的业务,但是目前s o a 还不成熟。业界已经采用了w e b 服务标准 来实现s o a 的应用程序,w e b 服务展示了一种独立的自描述功能,这样其它应用程序可 以通过开放的标准来寻找和访问它。但到目前为止,在应用程序内进行消息传递还没有标 准的方式,而通过s d o ( s e r v i c ed a t ao b j e c t s ,服务数据对象) 可以很好的解决这一问题。 2 0 0 5 年,i b m 联合b e a 、甲骨文、s a p 等公司共同发布了针对s o a 的重要编程规范 s c a ( s e r v i c ec o m p o n e n t a r c h i t e c t u r e ,服务构件架构) 和s d o 。它们和b p e l ( b u s i n e s s p r o c e s se x e c u t i o nl a n g u a g e ,业务流程执行语言) 一起被称为“s o a 编程模式的铁三角 , 因为它们从根本上解决了以下问题:如何暴露服务接口并屏蔽具体的实现技术和平台;如 何用统一的数据模型在服务间交换数据并整合服务和应用的数据编程模型;如何进行服务 的组装和编排。解决了这些问题,也就实现了一个s o a 架构。s c a 和s d o 提供了一种统 一服务而不受编程语言和部署平台限制的方法,能够帮助企业更轻松的完成新的i t 资产的 创建,改造现有的i t 资产,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论