(计算机应用技术专业论文)基于中间件技术的分布式数据集成的研究与实现.pdf_第1页
(计算机应用技术专业论文)基于中间件技术的分布式数据集成的研究与实现.pdf_第2页
(计算机应用技术专业论文)基于中间件技术的分布式数据集成的研究与实现.pdf_第3页
(计算机应用技术专业论文)基于中间件技术的分布式数据集成的研究与实现.pdf_第4页
(计算机应用技术专业论文)基于中间件技术的分布式数据集成的研究与实现.pdf_第5页
已阅读5页,还剩65页未读 继续免费阅读

(计算机应用技术专业论文)基于中间件技术的分布式数据集成的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

湖北工业大学硕士学位论文 摘要 随着社会的发展,大型企业往往在地域上比较分散,而在管理上,既要求各 部门具有独立的局部控制和分散管理的能力,同时,又要在整个企业内实现对所 有部门、子公司的全局控制和统一管理。企业结构的逐步分散化,导致集中式数 据库系统已经难以满足企业信息管理的需要,而分布式异构数据库系统越来越多 的出现在信息领域。 网络技术的发展、i n t e r n e t 的普及使得信息化的要求不断提高,各信息系统 之间的数据需要进行交换、整合、共享,数据传输的速度更是会直接关系到企业 的经济效益,这就使分布式数据集成成为数据库应用领域的一个重要研究课题。 中间件正是这些实际需求的产物,它是在软件架构的层次提出来的,位于操作 系统或数据库等系统软件和应用软件之间的,屏蔽系统软件的差异,为上层应用 软件提供统一的接口或协议。中间件技术在数据库系统中的应用,将传统的两层 c s ( 客户端朋匣务器) 结构扩展为三层,甚至更多层。目前,中问件技术在软件领 域得到了愈来愈广泛的应用,各大软件提供商( 如s u n ,m i c r o s o f t ,o r a c l e ,b e a 等) 对中问件技术的广泛支持和相关产品的问世标志着中间件技术己经得到认可并走 向了成熟。 本文首先分析了数据集成的现状和现有技术,介绍了中间件技术的应用发展 及现有产品特点。然后对原有的二层c s 数据集成模型进行改进,将中间件技术引 入模型的中间层,实现了三层c s 数据集成模型。最后,通过对车站管理信息系统 为研究实例,对改进后的数据集成模型的数据传输效率进行分析比较,验证了中 间件技术是进行分布式数据集成的有效手段。 关键词:异构,数据集成,分布式,中间件,客户端服务器 湖北工业大学硕士学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n to fs o c i e t y , a n dl a r g e s i z e de n t e r p r i s e sa r eo f t e ng e o g r a p h i c a l l y s c a t t e r e d ,a n di nm a n a g e m e n t ,r e q u i r i n ga l ld e p a r t m e n t sw i t hi n d e p e n d e n tl o c a lc o n t r o l a n dd e c e n t r a l i z e dm a n a g e m e n tc a p a b i l i t i e s ,a n da tt h es a m et i m ew i t h i nt h ee n t i r e e n t e r p r i s et oa i ld e p a r t m e n t sa n ds u b s i d i a r i e so fg l o b a lc o n t r o la n du n i f i e dm a n a g e m e n t e n t e r p r i s es t r u c t u r eg r a d u a l l yd e c e n t r a l i z e d ,l e a d i n gt ot h ec e n t r a l i z e dd a t a b a s es y s t e m h a sb e e nd i f f i c u l tt om e e tt h ee n t e r p r i s ei n f o r m a t i o nm a n a g e m e n tn e e d s ,h e t e r o g e n e o u s d a t a b a s es y s t e mm o r e a n dm o r ea p p e a r si nt h ei n f o r m a t i o nf i e l d d e v e l o p m e n t si nn e t w o r kt e c h n o l o g y ,t h ep o p u l a r i t yo ft h ei n t e r a c th a sm a d e i n f o r m a t i o no ft h er i s i n gt h ei n f o r m a t i o ns y s t e mb e t w e e nt h en e e df o rd a t ae x c h a n g e , i n t e g r a t i o n , s h a r i n g , t h ed a t at r a n s m i s s i o ns p e e di sd i r e c t l yr e l a t e dt ot h ee c o n o m i c e f f i c i e n c yo fe n t e r p r i s e s t h i sm a k e sd a t ai n t e g r a t i o nd i s t r i b u t e dd a t a b a s ea p p l i c a t i o n s b e c o m ea ni m p o r t a n tr e s e a r c ht o p i c m i d d l e w a r ei st h ea c t u a ld e m a n df o rt h e s ep r o d u c t s ,i ti st h es o f t w a r ea r c h i t e c t u r e l e v e la r er a i s e d i nt h eo p e r a t i n gs y s t e mo rd a t a b a s es y s t e m sa n da p p l i c a t i o ns o f t w a r e b e t w e e nt h es h i e l d i n g s y s t e ms o f t w a r ed i f f e r e n c e s ,f o rt h eu p p e ra p p l i c a t i o ns o f t w a r et o p r o v i d eau n i f i e di n t e r f a c eo ra g r e e m e n t m i d d l e w a r et e c h n o l o g yi nt h ed a t a b a s es y s t e m , t h ea p p l i c a t i o nt r a d i t i o n a lt w o t i r e ( c l i e n t s e r v e r ) f o rt h ee x p a n s i o no ft h et h r e e - t i e r s t r u c t u r e ,o re v e nm o r el a y e r s a tp r e s e n t ,t h em i d d l e w a r et e c h n o l o g yi nt h ef i e l do f s o f t w a r eh a sb e e nw i d e l yu s e d ,t h em a j o rs o f t w a r ep r o v i d e r s ( s u c ha ss u n , m i c r o s o f t , o r a c l e ,b e a ) o i lt h ee x t e n s i v em i d d l e w a r et e c h n o l o g ys u p p o r ta n dr e l a t e dp r o d u c t s m a r k e dt h ea d v e n to fm i d d l e w a r et e c h n o l o g yh a sb e e nr e c o g n i z e da n dh ew a l k e dt o m a t u r e t h i sp a p e ra n a l y z e st h ed a t a i n t e g r a t i o na n dt h es t a t u so fe x i s t i n gt e c h n o l o g i e s , i n t r o d u c e dt h em i d d l e w a r et e c h n o l o g ya n da p p l i c a t i o nd e v e l o p m e n tf e a t u r e so fe x i s t i n g p r o d u c t s ,a sw e l la st h eo r i g i n a lt w o - s t o r yc l i e n td a t ai n t e g r a t i o nm o d e li m p r o v e m e n t s w i l lm i d d l e w a r et e c h n o l o g yi n t ot h em i d d l el a y e r m o d e l ,i m p l e m e n t a t i o no ft h e t h r e e t i e rc l i e n td a t ai n t e g r a t i o nm o d e l ,f i n a l l y , t h es t a t i o nm a n a g e m e n ti n f o r m a t i o n s y s t e ma sa ne x a m p l e ,t oi m p r o v et h ed a t ai n t e g r a t i o nm o d e ld a t at r a n s m i s s i o n e f f i c i e n c ya n a l y s i s ,v e r i f i c a t i o ni s am i d d l e w a r et e c h n o l o g yf o rd i s t r i b u t e dd a t a 湖北工业大学硕士学位论文 i n t e g r a t i o ne f f e c t i v em e a n s k e y w o r d s :h e t e r o g e n e o u s ,d a t ai n t e g r a t i o n ,d i s t r i b u t e d , m i d d l e w a r e ,c l i e n t s e r v e r i n 诹 | i 亡工繁火婆 学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作所取 得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或集体己经 发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方 式标明。本声明的法律结果由本人承担。 学位论文作者签名:弓膨;= ,锋日期:矽7 年二月f 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留 并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授 权湖北工业大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采 用影印、缩印或扫描等复制手段保存和汇编本学位论文。 学位论文作者签名:张粕备 日期:切许翻j 日 组日馋 :,口 名 鲥净 秘刀, 教 导 期 指 日 湖北工业大学硕士学位论文 1 1 概述 第1 章引言 随着社会的发展,各种大集团、国际性公司、跨国公司纷纷出现,这类企业 往往在地域上比较分散,而在管理上。既要求各部门具有独立的局部控制,分散 管理的能力,同时,又要在整个企业内实现对所有部门、子公司全局控制,统一 管理。这种协同管理“1 要求各部门之间的信息既能灵活交流和共享,又能统一管理 和使用。信息的传递则是面临的最大问题,获取信息的速度会直接关系到企业的 经济效益。企业结构的逐步分散化,集中式的数据库系统己经越来越难以满足企 业信息管理的需要,迫切需要将各部门、子公司的数据通过网络连接在一起实现 共享,新思想的提出都是实际需求的产物,分布式数据库系统( d i s t r i b u t e d d a t a b a s es y s t e m ,简称d d b s ) 正是在这种现实需求的促使下提出发展的。 分布式数据库系统能将同一物理位置上的异构数据源用分布式数据管理进行 数据处理,使得存储方式不同数据库在运用上能统一调用。不仅如此,分布式数 据库系统还能将物理位置分布于不同地点的数据应用网络连接起来,并应用统一 的数据库管理系统对不同位置的数据进行统一管理,使得数据在逻辑上又是一个 整体。 为解决分布异构问题,提出了中间件佃i d d l e w a r e ) 的概念。中间件是构建分布 式数据库系统的重要支撑工具,它能够解决分布数据环境中多种异构数据资源的互 联共享和数据交换问题,实现多种应用软件的协同工作。中间件是处于应用软件 和系统软件之间的一类软件,是独立于硬件或数据库厂商( 处于其产品的中间,实 现其r 聪) n - 类软件,是客户方与服务方之间的连接件,是需要进行二次开发的 中间产品。 1 。1 。1 中间件技术的发展 8 0 年代中期,随着网络的出现,产生了c l i e n t s e r v e r 计算模式。在这种应 用模式下,客户端的应用需要频繁地调用服务器端的远程过程。因此,s u n m i c r o s y s t e m s 开发了一种最早的中间件,作为其开放网络体系结构的一部分, 使得客户端应用可以平滑地调用服务器端的远程过程,而不需要考虑其使用平 台等底层细节问题。这种中间件是基于远程调用协议( r p c ) 的。随着 湖北工业大学硕士学位论文 c l i e n t s e r v e r 计算模式的进一步发展,应用交易、网络通信的可靠性要求越来越 高。到8 0 年代末期,相应出现了交易中间件、消息中间件、数据库中间件等一 批独立功能中间件。它们有一个共同的特点,即解决单方面的应用问题 9 0 年代中期,随着企业应用的环境逐步由局域网转向广域网以及面向对象 技术、分布式技术的应用,出现了对象请求代理( o r b ) 中间件,并且逐步形 成了两个比较著名的标准:c o r b a 和d c o m l 2 4 l 。对象请求代理中间件是一种 和编程语言无关的面向对象的远程调用,被视为从面向对象过渡到分布式计算 的强大推动力量。从管理和封装的模式上看,对象请求代理和远程过程调用有 些类似,不过对象请求代理可以包含比过程调用和消息中间件更复杂的信息, 并且可以适用于非结构化的或者非关系型的数据。 9 0 年代后期,互联网的迅猛发展使得企业的应用越来越多地构筑在一个分 布式的环境下,而业务的复杂性和多变性要求企业应用能够更加安全、高效和 富于弹性。也就是说企业应用需要一个统一的运行平台来简化开发、简便维护、 集成其他应用系统。在这种情况下,独立中间件技术、对象中间件技术以及分 布式技术出现了融合,产生了应用服务器中间件。基于j 2 e e 标准的应用服务器 成为这一时期的主流产品。 2 1 世纪初期,互联网分布式应用的更加普及,应用的有效集成、信息的交 换与共享成为关注的焦点。在这种情况下,基于x m l 、w e bs e r v i c e 等技术的新 一代中间件成为发展的趋势,它在应用服务器的基础上叠加了e a i 、门户等构 件,形成了完整的企业级运行的基础平台,能够帮助企业快速构建复杂应用, 简化管理和维护,降低成本与风险,无缝集成其他信息系统、高效、安全地进 行信息交换和共享。因此,国际最大的中间件厂商b e a 已经将其中间件产品家 族称为应用基础架构,国际第二大的中间件厂商m m 更是提出了n 中间件就是 i b m 软件”和”整合从i b m 软件开始”的口号,这充分体现了中间件在计算机信息 系统中的地位,意味着中间件已经成为提供用户互动、应用连接、流程整合、 数据集成和应用集成的全方位基础支撑软件。 2 1 世纪中后期更是信息的世纪,信息获取与处理的准确性和及时性直接关系 到企业能否生存和发展。传统的依靠电话、信件等方式来获取信息的手段己经越 来越无法满足企业的需要。以信息为基础的新的管理理念也逐渐被建立起来。随 着m r p 、s c m 、e r p 等系统的应用,几乎从根本上改变了企业的运营方式,极大的 提高了企业的生产效率,拓宽了企业的销售市场,打破了以往的地域限制。企业 的信息管理系统,随着企业的全球化也呈现出分布式的特点,因此,分布式的数 据库系统能够很好的满足企业的分布式环境的需要。 2 湖北工业大学硕士学位论文 1 1 2 中问件技术在数据集成中的应用 中间件技术是在软件架构的层次提出来的,通常认为中间件是位于操作系统 或数据库等系统软件和应用软件之间的,屏蔽系统软件的差异,为上层应用软件 提供统一的接口或协议。中间件技术在数据库系统中的应用,将传统的两层c s ( 客 户端服务器) 结构扩展为三层,甚至更多层。目前,中间件技术在软件领域得到 了愈来愈广泛的应用,各大软件提供商( 如s u n ,m i c r o s o f t ,o r a c l e b e a 等) 对中间 件技术的广泛支持和相关产品的问世标志着中间件技术己经得到认可并走向了成 熟。 中问件技术屏蔽异构系统的特性,使其成为数据集成应用的有效技术。对数 据集成应用来讲,数据的分布性、异构性是集成过程中的最大障碍。通过使用中 间件技术,可以在数据库系统和应用系统之间构建中间层,对数据库的操作都通 过中间层来进行,中间层为应用层提供完全致的接口,这样对于应用系统来说, 多数据源就同一个数据源没有什么区别,使得应用系统的开发更加简单,而数据 集成的工作就交由中间层上的组件来实现 1 2 课题来源及研究意义 本课题来源于车站管理信息系统是对车站预交款业务系统数据进行集成、分 析的管理信息系统。车站管理信息系统中使用到的预交款及收支基本数据是从分 布的、异构的车站管理信息系统中获得的,如何实现车站管理信息系统的多级集 成是车站管理信息系统中的难点。本课题正是基于这样一个背景提出来的。 计算机网络化趋势的加速使得现代管理信息系统的数据构成呈现出多元和分 布的趋势,即一个应用涉及到的数据可能来自若干地理上分布、管理上自治、模 式上异构的多种不同数据库和超文档资源,因此对分布式数据源集成系统的研究 具有很高的现实意义。车站管理信息系统不是个特殊的例子,随着网络技术的 发展,许多具有类似结构的系统都面临着系统整合的需求,所以这种多级集成的 结构也是很具有代表性的。本课题通过对车站管理系统中数据集成的研究和实现 提出了一种行之有效的解决改进方案,适用于多种不同数据库之间的数据交换及 数据提交 1 3 本文的主要内容 论文中首先介绍了分布式数据库以及现有数据集成的模型及特点,分析了 3 湖北工业大学硕士学位论文 数据集成中涉及到的关键问题。通过对分布式数据库和集中式数据库的分析和 比较,提出将中间件技术引入分布式数据集成模型中,并介绍了该模型在应用领 域的特点及优点。在对基于中间件进行数据集成的改进方案中,参考了经典的 数据集成模型,针对原有物理集成模式提出了一种更加清晰的通用数据集成模 型。 论文以车站管理信息系统中数据集成为实例,将中间件技术引入数据集成, 提出了改进后的基于中间件技术的分布式数据集成模型。以e a s e v e r 中间件为应 用服务器,利用其中d a t a s t o r e 内置功能和触发器原理完成数据的增量提取,提 高了原系统中数据传输的效率,并采用对称和非对称相结合的数据加密算法来保 证了数据传输过程中的安全性。最后,通过集成效率验证,中间件技术是进行分 布式数据集成的有效方法。 4 湖北工业大学硕士学位论文 第2 章分布式数据库理论 2 1 分布式数据库简介 2 1 1 分布式数据库的定义 随着信息技术日新月异的飞速更新,人们对计算机的依赖性也越来越强,同 时对计算机的要求也越来越高。传统的单计算机系统在功能和性能上己不能满足 人们对信息的需要,由网络连接的多台计算机系统所构成的分布式系统已经成为 当今的主流系统。计算机体系结构的发展,使传统的软件系统也面临新的挑战一 从集中走向分布。分布式数据库系统是由若干个站集合而成。这些站又称为节点, 它们在通讯网络中联接在一起,每个节点都是一个独立的数据库系统,它们都拥 有各自的数据库、中央处理机、终端,以及各自的局部数据库管理系统。因此分 布式数据库系统可以看作是系列集中式数据库系统的联合。它们在逻辑上属于 同一系统,但在物理结构上是分布式的。 分布式数据库( d i s t r i b u t e dd a t as y s t e m ,d d b s ) 通俗地说,是物理上分散 而逻辑上集中的数据库系统。分布式数据库系统使用计算机网络将地理位置分散 而管理和控制又需要不同程度集中的多个逻辑单位( 通常是集中式数据库系统) 联 接起来,共同组成一个同意的数据库系统。因此可看成:数据库系统十计算机网络 其严格定义应是:分布式数据库是一组数据集,逻辑上它们属于同一系统,而物理 上它们分散在用计算机网络连接的多个场地上,并统一由一个分布式数据库“1 管理 系统管理。 分布式数据库系统由分布式数据库( d i s t r i b u t e dd a t ab a s e ,d d b ) 和分布式 数据库管理系统( d d b m s ) 组成。分布式数据库是计算机网络环境中各场地或节点上 数据库的逻辑集合。它包括局部应用和全局应用:局部应用即仅对本结点的数据库 执行某些应用:而全局应用( 或分布应用) 是指对两个以上结点上的数据执行某些 应用。支持全局应用的系统才能称为分布式数据库系统。分布式管理系统“1 是分布 式数据库系统中的一组软件,负责管理分布式环境下的数据存取、一致性、安全 性和完整性等。 2 1 2 分布式数据库的特点 l 在分布式数据库系统里不强调集中控制概念,它具有一个以全局数据库管 湖北工业大学硕士学位论文 理员为基础的分层控制结构,但是每个局部数据库管理员都具有高度的自主权。 2 在分布式数据库系统中数据独立性概念也同样重要,然而增加了一个新的 概念,就是分布式透明性。所谓分布式透明性就是在编写程序时好象数据没有被 分布一样,因此把数据进行转移不会影响程序的正确性。但程序的执行速度会有 所降低。 3 集中式数据库系统不同,数据冗余在分布式系统中被看作是所需要的特性, 其原因在于:首先,如果在需要的节点复制数据,则可以提高局部的应用性。其 次,当某节点发生故障时,可以操作其它节点上的复制数据,因此这可以增加系 统的有效性。当然,在分布式系统中对最佳冗余度的评价是很复杂的。 4 共享性与自治性 对于分布式数据库而言,多个场地或节点的局部数据库在逻辑上集成为一个 集体,并为分布式数据库系统的所有用户使用。简单地说,分布式数据库的用户 在使用该数据库时,同使用集中式数据库一样,无论该数据位于任何站点上,只 要权限允许,该用户就可以查询或修改数据,而不需要具体关心数据的物理位置, 所有站点上的数据都是共享的。这就是分布式数据库的共享性。 自治性9 1 指的是每个站点的数据库系统管理人员可以根据以根据实际的情况。 选择存放于站点数据库中的数据是否参与全局的数据共享。对于那些不能参与共 享的数据,分布式数据库系统允许它们仅仅只保留在站点数据库中。 5 冗余的可控性 在集中性数据库系统中,数据的冗余量的大小是衡量一个数据库系统是否最 优的重要标志。但对于分布式数据库系统,适当的数据冗余可以提高数据的查询 速度,增强数据的安全性。对于不同站点用户应用的相同数据,在这些用户的站 点上各自存放一份,可以减少网络通信的成本,提高用户操作数据的效率。特别 是,当某些站点上的数据丢失时,可以通过其它的站点对它进行数据恢复。这是 分布式数据库系统与集中式系统非常不同的地方。 6 存取效率 在分布式数据库系统中,数据存放于不同的站点。用户在访问数据时,可以 在多副本中选取最合适的场地副本进行数据访问。同集中式数据库系统相比,这 种访问方式,能够使得场地间的数据传输量以及次数最少,极大地降低系统通信 开销。同时,可以提高数据访问的速度。 2 1 ,3 分布式数据库分类及其特点 根据分布式数据库系统建立的原则,可以把分布式数据库系统分为两类:同构 6 潮北工业大学硕士学位论文 分布式数据库管理系统和异构分布式数据库管理系统。这两类分布式数据库系统 具有不同的特点,可满足不同的系统需求。 同构分布式数据库特点:同构分布式数据库是指各个站点上的数据库的数据 模型都是一致的。它类似于一个集中式数据库只不过同构分布数据库将数据存 放在网络中分布的不同结点内,而不是存放在一个结点内。根据数据库管理系统 的不同,同构分布式数据库又可以分为同构同质型和同构异质型。 异构分布式数据库的特点:各个站点上数据库的数据类型不同的分布式数据库 称为异构分布式数据库州。它的特点是在各个结点上运行着不同的数据库管理系 统。它又可以分为两个子类:一个是完全在本系统中进行集成:另一个是还要通过 网关( g a t e w a y ) 与其它系统实现连接。 2 1 4 关键技术 分布式数据库系统是一个客户服务器“”体系结构,其结构( 如图2 1 ) 在网 络环境中,每个具有多用户处理能力的硬件平台都可以成为服务器,也可成为工 作站。多个服务器上的数据库对用户来说,是一个逻辑上的单一数据库整体,数 据一致性、完整性及安全性都是对这一逻辑上的单个数据库进行控制的。服务器 对共享数据的存取进行管理,而非数据库管理系统的处理操作可以由客户机来完 成。 图2 1 客户服务器体系结构 分布式( 网络) 技术与数据库技术的结合,是在逻辑上属于同一系统,但在物 理上分散在计算机网络连接的多个场地( 节点) 的一组数据集。从概念上讲,分布 式数据库是物理上分散在计算机网络各结点上,而逻辑上属于同一个系统的数据 7 湖北工业大学硕士学位论文 集合。 分布式数据库具有数据的分布性和数据库间的协调性两大特点。系统强调结 点的自治性而不强调系统的集中控制,且系统应保持数据的分布透明性使应用 程序编写时可完全不考虑数据的分布情况。 分布式数据库系统通过复制使系统具有适当的数据冗余,但可以增加系统的 可靠性和可用性;提供局部自治的数据共享和场地之间的协调,从而使系统具有 快速的数据处理能力;另外,通过数据库技术与并行处理技术的结合,利用多处 理机并行处理产生的规模效益,可提高系统的快速反应能力。 每个场地( 结点) 上的数据一般用来描述本场地的现实世界,场地局部数据 库的数据源和大多数用户( 应用) 一般均驻留在本场地,即每个场地具有独立处理 的能力( 场地自治) ,可执行局部应用;另外,场地间通过网络通讯也能执行全局 应用。对用户来说,一个分布式数据库从逻辑上看,如同集中式数据库一样,用 户可在任何一个场地执行全局应用。 在分布式数据库系统中数据独立性概念也同样重要,然而增加了一个新的概 念,就是分布式透明性。所谓分布式透明性就是在编写程序时好像数据没有被分 布一样,因此把数据进行转移不会影响程序的正确性。 2 2 分布式数据库系统体系结构 2 2 1 分布式数据库模式结构 分布式d b s 的体系结构分为四级:全局外模式、全局概念模式、分片模式和 分配模式。 l 全局外模式o “:它们是全局应用的用户视图,是全局概念模式的子集。分 布式数据库的全局外层如同集中式数据库一样,由多个用户视图( 简称为视图) 组 成,它们是分布式数据库系统特定的全局用户对分布式数据库的最高层次的抽 象。 分布式数据库与集中式数据库的视图有同样的概念,不同的只是它不是从某 一个具体场地上的局部数据库中抽取,而是从一个虚拟的由各局部数据库逻辑集 合中抽取。对全局用户而言,在所有分布式数据库的各个场地上都可认为所有的 数据库都在本场地,也就是说他们不需要关心数据分布的实际物理位置,只需要 使用他们所需的数据。 2 全局概念模式“”:全局概念模式定义了分布式数据库中所有数据的逻辑结 构。全局概念层是分布式数据库的整体抽象,包含了全部数据特性和逻辑结构。 8 湖北工业大学硕士学位论文 就像集中式数据库中概念视图一样,是对数据库全体的描述。 分布式数据库全局模式概念层具有三种模式描述信息:全局概念模式、分片模 式和分配模式。全局概念模式描述分布式数据库全局数据的逻辑结构,是分布式 数据库的全局概念视图,包含全局概念模式名、属性名、每种属性的数据类型定 义和长度;分片模式描述全局数据的逻辑划分视图,是全局数据逻辑结构根据某 种条件的划分,即成为局部的逻辑结构,每一个逻辑划分即是一个片段或分片: 分配模式描述局部逻辑的局部物理结构,是划分后的片段( 或分片) 的物理分配视 图。从全局概念层观察分布式数据库,它定义了全局数据的逻辑结构、逻辑分布 性和物理分布性,但并不涉及全局数据在每个局部场地上的物理存储细节。 3 分片模式:分片模式“”定义片段以及定义全局关系与片段之间的映象。这 种映象是一对多的,即每个片段来自一个全局关系,而一个全局关系可分成多个 片段。在分布式数据库局部场地上,对每个全局关系有该全局关系的若干个( 可 允许是全部) 逻辑片段的物理片段集合,该集合是一个全局关系在某个局部场地 上的物理映像,其全部则组成局部概念模式。如果两个场地上所有的物理映像都 相同,则其中一个场地上的物理映像必是另一个场地的副本,因此两个场地的局 部概念模式也相同。 4 分配模式1 :片段是全局关系的逻辑部分,个片段在物理上可以分配到 网络的不同场地上。分配模式根据数据分配策略的选择定义片段的存放场地。 总结分布式数据库四层结构及其模式定义和映射关系,充分体现了分布式数 据库是一组用网络联结的局部数据库的逻辑结合。d d b 具有数据分布性和逻辑整体 性的特点,数据存储有数据分片和数据分配两种策略。它们在地理位置上是分散 的,但是在逻辑上是一个整体。d d b s 能够支持涉及多个场地的全局应用,数据分布 在各个场地,系统中压倒一切的性能目标是尽量减少网络中传送信息的次数和传 送的数据量。 分布式查询中基于半联接的优化策略是常用的技术。对于并发控制和恢复, d d b m s 环境中会出现大量在集中式d b m s 环境中碰不到的问题。分布式的并发控制 有主场地方法和主拷贝方法,再辅之于备份场地技术。“分布计算”概念突破了 集中式d b s 的框架,数据分布使系统走上分布式d b 的道路,功能分布使系统走上 c s 道路。c s 系统包括一个计算机网络,通常用一个局域网连结。几乎在所有 情况下,客户机都是微机,服务器有时用小型机或大型机,但多数情况下也使用微 机或高档微机。应用程序在客户机上处理,d b m s 和o s 的数据管理分放在服务器上。 c s 结构经历了从两层、三层到多层的演变过程。总的趋势是使客户机越来越 9 湖北工业大学硕士学位论文 “瘦”,变成浏览器;而服务器的种类越来越多,容易实现系统的组装,使应用 与用户更加贴近,为用户提供较好的性能和更复杂的界面。 2 2 2 分布式数据库管理系统 分布式数据库管理系统( 简称为d d b m s ) 是建立、管理、维护分布式数据库的 一组软件,一般由四部分组成。 1l d b m s ( l o c a ld b m s ) “4 :局部场地上的数据库管理系统,其功能是建立和管 理局部数据库,提供场地自治能力,执行局部应用及全局查询的子查询。 2g d b m s ( g l o b a ld b m s ) ”:全局数据库管理系统,主要功能是提供分布透明 性,协调全局事物的执行,协调各局部d b m s 以完成全局应用,保证数据库的全局 一致性,执行并发控制,实现更新同步,提供全局恢复功能等。 3 全局数据字典( g l o b a ld a t ad i r e c t o r y ,简称g d d ) “4 :用来存放全局概念 模式、分片模式、分布模式的定义以及各模式之问映象的定义,存放用户存取权 限的定义,以保证全部用户的合法权限和数据库的安全性;另外,还存放数据完 整性约束条件的定义,其功能与集中式数据库的数据字典类似。 4 通信管理( c o m m u n i c a t i o nm a n a g e m e n t ,简称c m ) “。:负责在分布式数据库 的各场地之间传送消息和数据,完成通信功能。 分布式数据库管理系统的分类: d d b m s 功能的分割和重复以及不同的配置策略导致了各种不同的体系结构( 如 图2 2 ) 。在用户、局部d b m s 和其他计算机的d b m s 之间进行协调。在一个异构型 分布式处理环境中,还需提供数据和进程移植的支持。这里的异构型是指各个场 地的硬件、软件之间存在着差别。 湖北工业大学硕士学位论文 图2 。2 分布式数据库管理系统 其按全局控制方式可以分为以下三种: l 全局控制集中的d d b m s “” 这种结构的特点是全局控制成分g d b m s 集中在某一结点上,由该结点完成全 局事务的协调和局部数据库转换等切控制功能。全局数据字典只有一个,也存 放在该结点上,它是g d b m s 指性控制的主要依据。这种结构的优点是控制简单, 容易实现更新一致性,但由于控制集中在某一特定的节点上,不仅容易形成瓶颈, 而且系统比较脆弱,一旦该结点出故障,整个系统就将瘫痪。 2 全局控制分散的d d b m s “” 这种结构的特点是全局控制成分g d b m s 分散在网络的每一个结点上,全局数 据字典也在每个结点上存放一份。每个结点都能完成全局事务的协调和局部数据 库转换的控制功能,每个结点既是全局事务的参与者又是全局事务的协调者。一 般称这类结构为完全分布的d d b m s 这种结构的优点是结点独立,自治性强。单个 结点退出或进入系统均不会影响整个系统的运行,但是全局控制的协调机制和一 致性的维护都比较复杂。 3 全局控制部分分散的d d b m s “” 这种结构是根据应用的需要将g d b m s 和全局数据字典分散在某些结点上,是 介于前两种情况的体系结构。 另一种分类方法是按局部d b m s 的类型分类。它区分不同d d b m s 的一个重要特 性是:局部d b m s 是同构的还是异构的。同构和异构的级别可以有三级:硬件、操 1 1 湖北工业大学硕士学位论文 作系统和局部d b m s 。最主要的是局部d b m s ,因为硬件和操作系统的不同将由通信 软件处理和管理。所以,定义同构型d b m s 为:每个结点的局部数据库具有相同的 d b m s ,如都是o r a c l e 关系数据库管理系统,即使操作系统和计算机硬件并不相同; 定义异构型d d b m s 为:各结点的局部数据库具有不同的,如有的是o r a c l e ,有的是 s y b a s e ,有的是i m s 层次数据库管理系统。 异构型d d b m s 的设计和实现比异构型d d b m s 更加复杂。因为各结点的局部数 据库可能采用不同的数据库模型( 层次、网状或关系) ,或者虽然模型相同但它 们是不同厂商的d s m s ( 如d b 2 ,o r a c l e ,s y b a s e ,i n f o r m i x ) ,它要解决不同的d b m s 之 间以及不同的数据模型之间的转换,要解决异构数据模型的同种化问题。 现在的分布式数据库系统产品大都提供了集成异构数据库的功能,如使用 s y b a s er e p li c a t i o ns e r v e r ,任何数据存储系统只要遵循基本的数据操作和事务处 理规范,都可以充当局部数据库管理系统。 2 3 分布式数据的解决方法 前面分析了集中式数据库与分布式数据库各自的特点,就更加明确了分布式 数据的解决方法与集中式数据库的不同点。 所谓分布式数据库( f g 称d d b ) ,是分布式数据库系统中各站点上数据库的逻辑 集合。与集中式数据库一样,分布式数据库也由两部分组成:一部分是关于应用所 需要的数据的集合,称为物理数据库,它是分布式数据库的主体:另一部分是关于 数据结构的定义,以及全局数据的分片、分布描述,称为描述数据库。在分布式 数据库中的数据又可分为局部数据和全局数据,局部数据是指只提供本站点的局 部应用所需要的数据:全局数据是指虽然物理地存放在各个站点中,但它也参与全 局应用,可被多个站点上应用访问的数据“”。 在分布式数据库系统中,数据的分片和分布是两个重要的概念。事实上,分 布式数据库大部分问题是由数据的分片和分布而引起的,它对整个系统的可用性、 可靠性及效率有极大的影响。 数据分片又叫数据分割,是指如何将全局数据库进行某种逻辑分割而得到各 个局部数据库。分片一般按照两个原则进行数据划分,根据d d b 外部特征划分和 湖北工业大学硕士学位论文 内部特征。外部划分是指用户看到的d d b ,包括按照数据值集、数据项集等进行划 分:内部特征是指d d b 的组成性质。 分片操作包括水平分片、垂直分片、混合分片及诱导分片四种。 水平分片是将关系按行横向( 水平向) 以某些条件划分成元组的子集,每个子 集含有一定的逻辑意义,称为一个逻辑片断。 l 水平分片中,全局数据将根据某些数据选择条件分为若干互相不相交的逻 辑片断。它们可以看作是对全局数据施加选择运算得到,对应地,通过对这些片 断执行合并操作可以恢复全局数据。 例如:设有数据关系s ( o i d ,o n a m e ,( g r a d e lp o p u l a t i o n ,o g e o ) ,o g e o 是 其属性,则我们可以根据其空间区域归属条件的定义s 的两个水平分片: d e f i n ef r a g m e n ts p a t i a l f r a g l a ss e l e c t f r o ms 删e r ew i t h i n ( o g e o ,( o ,0 。1 0 0 ,1 0 0 ) ) = t r u e d e f i n ef r a g l 4 e n ts p a t i a l f r a 9 2 a ss e l e c t * f r o msw h e r ew it h i n ( o g e o ,( o ,1 0 0 ,2 0 0 ,2 0 0 ) ) = t r u e 2 垂直分片是将关系按列纵向( 垂直向) 以属性组划分成若干片断。 在垂直分片中,全局数据将根据其属性集合被分为若干互相不相交的逻辑片 断。它们可以看作是对全局数据施加投影运算得到,对应地,通过对这些片断执 行连接操作可以恢复全局数据。 例如:对上例中的数据关系s ,我们可以根据其属性的类型定义s 的两个垂直 分片: d e f i n ef r g 啦! n ts p a t i a l f r a 9 3 a ss e l e c td i d ,o n a m e ,0 6 e of r o ms d e f i n ef r a g r a n ts p a t i a l f r a 9 4 a ss e l e c to i d ,o g r a d e ,p o p u l a t i o nf r o ms 3 混合分片是垂直分片和水平分片的组合。 4 诱导分片是基于水平分片的诱导,是一种半联结操作。数据分布是指分布 式数据库中的数据不是存储在一个站点,而是根据需要将数据划分成逻辑片段, 按某种策略将这些片段分散地存储在各个站点上。 数据分布的策略有: l 集中式 湖北工业大学硕士学位论文 i 所有数据片段都安排在同一站点上。这种分布策略因系统的数据都存放在同 一站点上,对数据的控制和管理都比较容易,数据的一致性和完整性能够得到保 证。但由于对数据的检索和修改都必须通过该站点,使该站点负担过重,容易出 现瓶颈,并且一旦这个站点出现故障,将会使整个系统崩溃,系统的可靠性较差。 2 分割式 所有数据只有一份,它被分割成若干个逻辑片段,每个逻辑片段被指派在不 同站点上。这种分布策略可充分利用各个站点的存储设备,数据的存储量大,在 存放数据的各个站点上可自治检索和修改数据,发挥系统的并发操作能力。同时, 由于数据是分布在多个站点上,当某部分站点出故障时,系统仍能运行,提高了 系统的可靠性。 3 复制式 全局数据有多个副本,每个站点上都有一个完整的数据副本。采用这种策略 的系统可靠性高,响应速度快,数据库的恢复也较容易。但是要保持各个站点数 据同步修改,要付出高昂的代价。另外整个系统数据冗余很大,数据库存储量受 到影响。 4 混合式 全部数据被分为若干子集,每个子集安置在不同的站点,但任一站点都没有 保存全部的数据,这种分布策略兼顾了分割式和复制式的做法,能提高系统的效 率,同时也包括二者的复杂性。 2 4 异构数据库简介 2 4 1 异构数据库的定义 异构数据库系统是相关的多个数据库系统的集合,可以实现数据的共享和透 明访问,每个数据库系统在加入异构数据库系统之前本身就已经存在,拥有自己 的d m b s 。异构数据库的各个组成部分具有自身的自治性,实现数据共享的同时, 每个数据库系统仍保有自己的应用特性、完整性控制和安全性控制。现存的数据 库系统的异构主要体现在以下几个方面: 1 计算机体系结构的异构:指各个参与的数据库可以分别运行在大型机、小型 机、工作站、p c 或嵌入式系统中。 1 4 湖北工业大学硕士学位论文 2 基础操作系统的异构:指各个数据库系统的基础操作系统可以是u n i x 、 w i n d o w s n t 、l i n u x 等。 3i ) t “1 3 s 本身的异构:指可以是同为关系型数据库系统的o r a c l e 、s q l s e v e r 等, 也可以是不同数据模型的数据库,如关系、模式、层次、网络、面向对象,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论