(计算机应用技术专业论文)基于web+service异构数据库信息集成的研究.pdf_第1页
(计算机应用技术专业论文)基于web+service异构数据库信息集成的研究.pdf_第2页
(计算机应用技术专业论文)基于web+service异构数据库信息集成的研究.pdf_第3页
(计算机应用技术专业论文)基于web+service异构数据库信息集成的研究.pdf_第4页
(计算机应用技术专业论文)基于web+service异构数据库信息集成的研究.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(计算机应用技术专业论文)基于web+service异构数据库信息集成的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

湖北工业大学硕士学位论文 摘要 随着网络和分布式应用的发展和普及,大量的异构数据源应运而生。而多源数 据又是构建系统的重要部分,尤其是各类关系数据库,其异构性和管理的局部性以 及地理位置的差异性导致企业信息管理中出现大量信息孤岛。为了更好地利用这些 资源,所以研究一种能解决异地异构数据源集成的高效方案成为目前数据集成的一 个研究热点。 由于历史的原因,参与集成的数据经常是位置分布、结构多种多样,既便是同 一种结构的数据,其存储和访问模式也不尽相同,所以如何在异构数据之间实现互 操作、如何将分布式的数据加以整合是数据集成中的难点。 本文分析了数据集成现状和现有技术的缺陷,讨论了模型实现中的关键技术, 并提出了一种基于w e b 服务的异构数据库集成中间件的解决方案,使用户透明访问 分布在各个网络节点的异构数据资源。 数据集成是数据库领域的一个难题,是随着数据库技术的发展而一直存在的, 对该问题的研究具有广泛的应用前景和现实意义。 本文的主要工作如下: ( 1 ) 在研究w e b 服务基本原理的基础上,探索基于j a v a 平台实现w e b 服务的 技术与方法,提出了w e b 服务应用集成框架的模型。 ( 2 ) 设计了异构数据集成中间件体系结构:典型的m e d i a t o r w r a p p e r 体系结 构与w e b 服务技术。 ( 3 ) 利用w e bs e r v i c e 技术实现了平台与局部数据源的通讯,屏蔽了数据源位 置的差异。 ( 4 ) 实现了基于w e bs e r v i c e 中间件集成的一个原型系统。 关键词:w e bs e r v i c e ,异构,中间键,x m l 湖北工业大学硕士学位论文 a b s t r a c t a l o n gw i t h t h ed e v e l o p m e n ta n dp o p u l a r i z a t i o no fn e t w o r ka n dd i s t r i b u t e d a p p l i c a t i o n ,m o r ea n dm o r eh e t e r o g e n e o u sd a t as o u r c e sh a db e e np r o d u c e d t h e m u l t i p l e xd a t as o u r c e si so n eo ft h em o s ti m p o r t a n tp a r to fs e t t i n gt h es y s t e m ,e s p e c i a l l y d i v e r s er e l a t e dd a t a b a s e i t sh e t e r o g e n e o u sa n dt h e1 i m i t a t i o no ft h em a n a g e m e n ta l s ot h e d i f f e r e n c eo ft h el o c a t i o nw h i c hc o n d u c et h el a c ko fi n f o r m a t i o na b o u tt h ee n t e r p r i s e i n f o r m a t i o nm a n a g e m e n t i no r d e rt ot a k em o r eg o o du s eo ft h e s es o u r c e s i t sah o ts t u d yt or e s e a r c hak i n do f e f f e c t i v ei n t e g r a t i o nm o t h e dw h i c hc o u l ds o l v eh e t e r o g e n e o u sd a t as o u r c e si nd i f f e r e n t p l a c e s s i n c es o m eh i s t o r yr e a s o n s t h ed a t ah a sb e e ni n v o l v e di nas y s t e mo f t e nd i f f e r si n l o c a t i o na n ds t r u c t u r e s e v e ni ft h ed a t ah a ss a m es t r u c t u r e i to f t e nd i f f e r si ns t o r i n go r v i s i t i n gm o d e l s s oi t i st h em a i np r o b l e mt oe x c h a n g ed a t ab e t w e e nh e t e r o g e n e o u s s y s t e m s t h i st h e s i sr a i s e das c h e m eb a s e do nt h e 嘞s e r v i c eo fh e t e r o g e n e o u sd a t a b a s e i n t e g r a t i o nm e d i a t o rt h r o u g ha n a l y z i n gt h ec u r r e n ts i t u a t i o na n dt h ed e f e c t so fd a t a i n t e g r a t i o n a n dt h ek e yt e c h n i c a lt oc a r r yo u tt h em o d e lw a sd i s c u s s e d t h a tl e tt h eu s e r e a s i l yg e th e t e r o g e n e o u sd a t as o u r c e sw h i c ha r es t o r e di nt h ed i f f e r e n tn o d e so ft h en e t t h em a i nw o r ko ft h ea r t i c l ei sd e s c r i b e da st h ef o l l o w i n g : ( 1 ) e x p l o r et h em e t h o dt oa c h i e v ew r e bs e r v i c ei nj a v ap l a t f o r ma n df o r w a r dt h e i n t e g r a t e df r a m eo fw e bs e r v i c ea f t e rt h eb a s i cp r i n c i p l e sa n dt e c h n i q u e so fw e bs e r v i c e a r es t u d i e d ( 2 ) d e s i g nas y s t e ms t r u c t u r eo fh o wt oi n t e g r a t eh e t e r o g e n e o u sd a t aw i t hat y p i c a l m e d i a t o r - w r a p p e ra n d 黝s e r v i c et e c h n o l o g y ( 3 ) a c h i e v e dt h ec o m m u n i c a t i o nb e t w e e np l a t f o r i l la n dl o c a ld a t as o u r c e s ,w h i c h s h i e l dt h ed i f f e r e n c eo ft h ed a t as o u r c e s ( 4 ) t h ea b o v ei su s e da n dv a l i d a t e di n t ot h ed e v e l o p m e n to fap r o j e c t k e y w o r d s :w e bs e r v i c e ,h e t e r o g e n e o u s ,m e d i a t o r , x m l h 溯办j 董大学 学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作所取 得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经 发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方 式标明。本声明的法律结果由本人承担。 学位论文作者签名:日期:年 月 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留 并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授 权湖北工业大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采 学位论文作者签名沥式 日期:年月 日 湖北工业大学硕士学位论文 第1 章概论 1 1 课题研究的背景及意义 随着信息技术的飞速发展、信息化进程的日益深化以及全球经济一体化格局的 逐步形成,企业环境以及企业的经营管理模式发生了巨大的变化,企业的信息资源 管理面临着严峻的挑战。在当今日益复杂多变的营运环境中,为了尽可能地减除不 确定性、降低经营风险,企业的信息需求与信息活动越来越多样化和复杂化;而且 为了提高企业的柔性,实现经营管理活动的智能化,企业需要具有柔性的“企业神 经系统”,在适当的时间和地点针对特定的要求,提供适当的信息;同时,为了在 激烈的竞争中获得并保持竞争优势,企业的生产经营管理发生了革命性的变化。大 规模定制( m c ) 、计算机集成制造( c i m ) 、电子商务( e c ) 、企业资源计划( e r p ) 、 敏捷制造( a m ) 、虚拟组织( v o ) 、流程再造( b p r ) 、供应链管理( s c m ) 、应变管 理( c m ) 等创新模式的层出不穷,要求将企业内、外信息资源有机整合在一起来提 供灵活、有效的支持;另外,随着企业信息化的范围和层次不断扩大和深化,企业 中产生了大量的信息,一方面在某些领域“信息成灾”,信息污染情况严重;而另 一方面,组织中存在着大量的“信息孤岛”,从而不能充分实现各种信息资源的协 同和优势互补,严重影响了信息资源潜能的有效发挥。 所以,无论是从企业自身发展角度还是从企业间的数据集成角度来看,越来越 多的企业应用需要一种异构数据库之间的信息集成系统作为访问异构数据源的支 撑。 1 2 课题来源 本课题来源于湖北工业大学科学研究项目“产品信息集成管理理论研究与实证 分析 。如何运用分布的,多样的,复杂的产品信息资源,使企业提高全球经营管 理水平,如何利用这些资源在激烈的竞争中获得并保持竞争优势等构成了每个企业 必须考虑的问题。本课题正是基于这样一个背景提出来的。 1 3 国内9 1 $ f l 关理论研究综述 对异构数据库信息集成的研究起始于2 0 世纪7 0 年代,至今已有几十年的历史。 湖北工业大学硕士学位论文 早期普遍采用单个联邦系统,将所有数据源统一到一个单一的集成系统中。这种方 法比较简单,集成系统有统一的数据模式,不用考虑分布数据的转化和统一。但是 它存在一系列的问题:首先,构建这样一个集中式的系统需要很长的开发时间,要 求高性能的主机设备,实现代价较高;其次,系统的扩展和维护会涉及到整个系统, 而且一个集成系统无法共享另一个集成系统的模块。 随着分布异构计算环境下互操作性的研究和i n t e r n e t 技术的发展,由于数据 源的多样性和分布性,单个联邦系统的集成方法,己无法适应人们获取更多更新数 据的需要。随之出现了使用分布式的对象模型,诸如,微软的分布式组件对象模型 d c o m ,c o r b a 或s u n 的r m i 来构建信息集成系统。这种方法有效的避免了联 邦系统带来的开发代价大,代码难以重用的问题,利用网络计算环境可以有效的实 现复杂的大规模的信息集成。但是d c o m 、c o r b a 或r m i 要求服务客户端与系统 提供的服务本身之间必须进行紧密藕合,要求特定的语言形态、特定的系统结构。 同时随着信息源种类和形态的不断增长,系统的脆弱性问题变的比较突出。 随着x m l 技术的采用,该领域又重新成了研究的热点。目前已经研制出来的 数据库集成系统很多,其中较有代表性的三个系统有美国i b m 公司a l m a d e n 研 究中心数据库组的开发项目g a r l i c n 3 ,此系统把传统和多媒体数据存储在不同的数 据仓库中,支持新的数据仓库的添加,并通过一个“中间件”查询器提高查询效率。 美国s t a n d f o r d 大学设计了一个专门用于管理半结构化信息的数据库管理系统 l o r e 晗1 ,它可以对半结构化数据o e m 和x m l 数据进行存储和管理;以及由东南大 学开发的一个基于c o r b a 的可扩展的数据源集成系统v e r s a t i l e 口1 ,该模型在i o n a 公司的o r b i x 产品上,对s q ls e r v e r ,v e r s a n t ,文件系统,超文本数据进行包装 和集成。该系统不仅能集成上述数据源,而且能集成随时插入的新数据源中的数据。 近年来,随着w 曲s e r v i c e 的出现,操作界面在浏览器层面上得到统一,兼容性 由相关标准技术实现( 如s o a p 、u d d i 、w s d l 等) 。在w e bs e r v i c e s 的框架下,使用 一组w e bs e r v i c e s 协议,构建信息集成系统。对每个数据源都为其创建一个w e b s e r v i c e ,然后使用w s d l 向服务中心注册。当要构建一个新的集成应用时,集成端 首先要向注册中心发送查找请求收集并选择合适的数据源,然后通过s o a p 协议从 这些数据源获取数据。这种方法克服了上述两种方法的缺陷,具有完好封装,松散 藕合,高度可集成能力等特性。因此,基于w e bs e r v i c e s 的信息集成方案目前也成了 构建异构数据库集成系统较为理想的体系结构。 1 9 9 9 年,h p 惠普在产品e - s p e a l ( 中第一次引入w e bs e r v i c e s 的概念。e s p e a k 是一 个使开发人员能够构造和实现“电子服务”的平台,这种所谓的“电子服务”是类 似于w 曲s e r v i c e s 的程序单元。然而e s p e a k 的底层技术的专有性使这个平台没有获 2 湖北工业大学硕士学位论文 得广泛的业界支持。 2 0 0 0 年6 月m i c r o s o f t 提出了“w e bs e r v i c e s 这个术语,并把w e bs e r v i c e s 作为了 它的n e t 计划的一个重要组件,这为软件工程、软件开发与使用中引入因特网带来了 广阔前景。m i c r o s o f t 将w e bs e r v i c e s 技术置于开放的标准技术之上,以便可以和任何 平台或设备进行通信。w e bs e r v i c e s 中所使用的主要标准是x m l ,x m l 是一种可以 使信息在不同应用程序和平台之间进行交换的标记语言。为了在w e bs e r v i c e s 之间传 送信息和指令,m i c r o s o f t 和d e v e l o p m e n t o r 锘0 定了s o a p ( s i m p l eo b j e c t a c c e s s p r o t o c o l ,简单对象访问协议) 作为消息传递协议,并使用x m l 作为此协议的基础。 目前,w e bs e r v i c e s 的标准问题,尤其是最底层的核心标准已经逐渐成熟了。首 先,w 曲s e r v i c e s 的三大核心标准u d d i ( u n i v e r s a ld e s c r i p t i o n ,d i s c o v e ra n d i n t e g r a t i o n ,通用描述、发现和集成) 、w s d l ( w e bs e r v i c e sd e f i n i t i o nl a n g u a g e ,w e b 服务定义语言) 和s o a p 来自于不同的组织,u d d i 是由o a s i s 组织倡导的,而w s d l 和s o a p 来自于w 3 c 标准化组织。这些都是制定w e bs e r v i c e s 最底层的核心标准,通 过这些组织的努力,在如何描述、如何发现、如何部署三个方面最核心的技术标准 己经成熟。其次,建立更高层次的关于安全性、业务流程自动化及服务级别的标准 将会是各个标准化组织面临的难题,这也更容易引起标准制定上的混乱。由i b m 、 微软两年前刚刚成立的w s i 组织,致力于w 曲s e r v i c e s 互操作性标准制定;w s i 这 个组织,从开始的7 家厂商支持,到最近s u n 公司的加入,打破了原来各自厂商标 准不同给用户带来的障碍。w s i 致力于制定w e bs e r v i c e s 在协同工作,保障交易完 整性、安全性和互操作性方面的标准。 w e bs e r v i c e s 技术源于企业应用系统整合与集成的需要,所以最早采用w e b s e r v i c e s 的用户,来自大型企业内部,诸多的业务需求驱动着他们必须进行应用集成, 驱动他们的业务从内部到外部的整合。据实施w e bs e r v i c e s 的厂商介绍,首先采用 w e bs e r v i c e s 的是银行、运输和一些在线预定的企业和行业。国内的w e bs e r v i c e s 用 户主要还是少数企业用户。国内有影响的行业用户还在构建核心业务系统,如电信 行业在构建b o s s ,而金融行业的大集中正在起步。 现阶段,不同数据库中的信息集成基本限制在相近地域或相同网段内,对跨网 段的研究涉及较少,而且集成是建立在限制各个分支数据源数据静态不变的基础之 上的,前提条件的局限性导致了其适用领域比较狭窄。 1 4 论文的研究内容 根据目前数据集成系统的发展现状和方向,本文的主要研究工作如下: 3 湖北5 - 业大学硕士学位论文 首先介绍异构数据集成涉及到的相关技术。然后,在研究数据集成的相关理论 和目前已有成果的基础上,结合了x m l 技术和j d b c 技术,提出了一种基于w e b s e r v i c e 的异构数据库集成系统的框架结构;并提出利用系统数据库对访问指令进行 语法检查的多数据源访问流程。在技术路线上,考虑到平台适应性和发展前景等因 素,采用了j a v a ( j 2 e e ) + x m l + w e bs e r v i c e 的架构。j a v a 作为一种优秀的跨平台 面向对象语言,带来了可移值性,加上x m l 作为一种通用数据定义语言,带来的 可移值数据格式,在分布式计算的环境下也有良好的发展前景。在框架设计的基础 上,针对各个模块的功能要求,详细阐述了系统各模块所采用的技术方法以及实现 细节,从不同的角度论述了中间件的组成部分及各部分之间的相互关系,并重点讨 论了系统中间件的技术方案。 本文的最后对本项研究工作做出了总结,说明了其可行性和有效性,并展望了 下一步的工作。 4 湖北工业大学硕士学位论文 第2 章异构数据库集成的原理与实现技术 2 1 异构数据库集成 异构数据库是指包含不同物理模式、不同数据模型的数据库,同数据模型不同 厂商的同质异型数据库,以及同一数据库厂商的不同版本、针对不同网络环境的数 据库产品等等。为了实现异构数据库之间的数据传送,首先要找出它们之间的差异。 引起数据库差异的因素很多,如计算机硬件、操作系统、数据模型、物理模型、数 据语义等的不同。 信息集成所要解决的问题是把位于不同的异构信息源上的数据合并起来,以便 为用户提供一个这些数据的统一视图,称为全局模式h 1 。 信息集成屏蔽了各种异构数据间的差异,不管数据是否是在同一个数据源中, 它能使应用程序如访问单一数据源一样去访问各类数据,因此集成后的异构信息对 用户来说是透明的、统一的、无差异的。 具体来说,数据集成应达到两个目标,即分布的透明性和异种数据源的透明性。 2 2 数据集成的关键问题 数据集成是数据库领域一直以来的一个难题,在进行数据集成的过程中,存在 着一系列关键的技术问题,如果能将这些问题一一解决,那么数据集成问题就可以 得到一个很好的解决方案了陌,。以下是提出的几个关键问题: ( 1 ) 数据抽取、整合和统一 目前,i n t e r n e t i n t r a n e t 上已经积累了庞大的数据资源,这些数据的构成方 式各不相同。一种极端是来自传统的数据库数据,它们具有严谨的结构;另一极端 是来自于一些文件系统中的无结构数据,如图像、声音和未加工的纯文本。介于两 种极端中间的是所谓的半结构化数据,如h t m l x m l 。由于没有预设的模式结构, 集成系统必须从中抽取出关键的、用户感兴趣的数据,然后加以整合,再与其它数 据源的数据一起集成陋1 。 ( 2 ) 屏蔽模式异构 数据集成系统中使用的数据存在各种不同模式,可能是结构化的,也可能是非 结构化的。即便对最常用的结构化模式,因为采用不同的数据库系统也可能有不同 的描述方法。因此存在各种数据描述异构问题,数据表示的异构,是集成系统必须 湖北工业大学硕士学位论文 面对的问题。主要表现在以下几点: 命名冲突:相同的数据在不同的局部库中可能有不同的名字,或者相同的名 称在不同的局部库中表示了不同的数据。 格式不同:包括数据类型、精度、数据范围的不同。如:一个字段在一个局 部库中以整数表示,而在另一个库中以字符串表示。 结构不同:一个数据实体在不同的数据库中可能表示方式不同。如:一个数 据项在一个库中可能表示为一个值,而在另一个中表示为多个值。 数据冲突:由于局部库的自治性,相同的数据项在不同的库中可能有不同的 值,造成全局查询时返回不同的结果。 对上述这些问题,集成系统必须能够识别并加以解决。 ( 3 ) 全局完整性 为了给用户提供统一的访问支持,因此集成后的数据必须保证一定的完整性, 包括数据的完整性和约束的完整性两个方面。数据完整性是指数据的一致性、正确 性和有效性和精确性。要保证数据库的完整性必须采用一种功能来保证数据库中数 据的完整性,这种功能也称为完整性检查,即系统用统一的机制来检查数据库中的 数据是否满足规定的条件,这种条件在数据库中称为完整性约束条件。数据的约束 条件是语义的体现,这些完整性约束条件将作为模式的一部分存入数据库中 1 。而 约束完整性就是保证数据与数据之间的关联关系,它是良好数据发布和数据交换的 前提。 在一个多用户数据库环境中,数据可能被不同的应用更新。一个可取的方法是 将所有约束集中存储在一个公共的地方。 如果同时需要允许局部和全局的完整性约束,由于系统存在异构性,两者之间 的不一致也是不可避免的。对于全局和局部完整性约束之间的不一致性的解决方 法,取决于集成数据库系统中各个局部数据库的集成程度。在集成数据库系统中, 全局完整性约束的设计是模式集成的重要部分。在定义新的全局完整性时,若与局 部数据库冲突,则必须在上层管理策略中制订。在集中式数据库系统中,如果新的 完整性约束与数据库当前状态冲突,则拒绝该约束。 由于集成系统提供了全局视图,因此不同局部库中的数据可能彼此问有语义的 关联性。因此,全局系统必须保证全局数据完整性、一致性,防止修改不同步。这 在某种程度上又影响了局部站点的自治性,如何在这两者间平衡、协调,制定合适 的策略是集成系统必须考虑的。 ( 4 ) 局部自治性 异构数据库系统和传统的分布式数据库的一个重要区别就是其每个局部库的 6 湖北工业大学硕士学位论文 d b m s 都具有对局部数据和处理过程完全的控制权力,即自治性。局部数据库加入 集成系统,对全局系统进行修改等这些行为都不会对局部的d b m s 产生影响。对局 部d b m s 而言,全局系统只是一个本地d b m s 的用户,和其它局部数据库用户并 无区别。需要注意的是:自治性是针对局部d b m s 而言的,对整个局部系统来说, 则必须支持一定的全局相关功能,以保证集成系统全局完整性能够维护。 保持局部库自治性是非常必要的。被集成系统是预先存在的,集成的目的是为 了提供数据的共享服务,而不是要去影响和干扰局部系统原本运行的任务。局部自 治还意味着局部数据是本地拥有和管理的,并具有本地的可计算性。所有的数据都 是“真正 属于某个本地数据库的,即使它们与其它数据库一起集成到一个集成系 统中,局部数据库的数据的安全性,完整性和存储形式之类的问题也是在本地数据 库系统的控制和管辖之下陋,。 ( 5 ) 系统安全 保证大型数据库中数据的安全性是较困难的,对数据库的使用者增加了额外开 销。安全性的水平取决于数据的价值或敏感程度。在一个支持局部数据库自治性的 异构分布式数据库系统中,数据的安全性可以完全由局部数据库系统负责。但是一 旦系统用户被授予访问局部数据,则局部数据库就不能确保数据的完整性,因为数 据可能被拷贝到网络中的其它地方而超出原来数据库系统的控制范围。因此,需要 考虑接受数据的安全性保护和网络的安全性。为了保证数据在异构分布式环境下的 安全性,不应该在非安全的通讯线路上传递保密数据,也不允许将保密数据传递给 不安全的系统用户。 集成系统不仅要考虑一般系统安全所必须考虑的问题,还必须考虑复杂分布异 构环境所带来的特定安全需求。如需要提供对网络传输过程的保护等。异构分布式 集成系统中特有的安全性问题主要有四个用户标识和授权、授权规则的分布、加密、 全局视图机制。 最常用的就是用户标识和授权。当一个用户想要访问计算机系统时,首先必须 取一个用户名标识自己的身份,然后获得自己的授权密码。为了允许用户存取各个 局部数据库的数据,必须在各个局部数据库上保存用户标识信息用户名和授权信息 用户口令,这些是计算机系统中最基本的安全性信息。但是,安全性信息在局部数 据库中的重复存储,本身就导致了不安全因素,即使以口令加密方式保存,也造成 了泄漏机密的可能性。 ( 6 ) 并发控制 数据库管理最重要的功能之一就是支持多用户访问,即多个用户“同时 对数 据库进行读和写操作,因此而引出了并发访问的控制问题,特别是数据库同时写问 7 湖北5 - 业大学硕士学位论文 题,已经成为集中式和分布式数据库研究的一个重要课题陆。 事务概念是并发控制的基础。所谓“事务 是一系列由单个用户或应用程序提 交的数据库操作,这些操作是一个不可分割的整体。事务将数据库从一个一致性状 态转变到另一个一致性状态。即事务执行之前和事务执行之后,数据库都处于一致 性状态。但这种一致性在事物的执行过程中将不被保证。 并发事物之间的冲突是多方面的,因此危及数据库完整性和一致性的因素也是 多样的。通常讨论的冲突主要有三种丢失更新、破坏完整性约束、不一致性。一个 用户己经完成的更新操作可能被另一个用户的更新操作所掩盖,这就是所谓的丢失 更新问题。当两个事务并发执行时,会引起另一种类型的问题,即数据库的完整性 约束被破坏。并发控制的重点是对更新事务的控制,因为更新事物之间的冲突可能 会导致数据库的不一致性发生。如果允许一个读事务去读另一个正在执行却未完成 的更新事务结果,那么读取的结果可能是不正确的,这就是所谓的脏读或不一致读 问题。 由于数据库集成系统是集成已经存在的、异构的、自治的多个数据库,数据库 集成系统中的并发控制机制必须能够同步全局事务和局部事务,前者是操作共享数 据与全局有关的事务,而后者是完全在局部数据库管理系统控制之下的纯粹的自治 局部事务。利用传统的并发控制技术,可以同步各个全局事务。因为全局事务一旦 向某个局部数据库管理系统交付一个子事务之后,它实际上便失去了对该事物的控 制。局部数据库管理系统承担对该子事务的全部责任,并且在独立于全局事务的其 它局部代理情况下,独立决定提交、拒绝或回滚。因而,同一全局事务的某些局部 代理能够提交,而另一些局部代理被夭折或回滚,这样,破坏了全局事务的原子性, 降低了异构分布式数据库集成系统的数据一致性。 因此,在存在自治性的局部事务管理的情况下,如果要提供对全局事务的支持, 需要解决有关问题维护全局事务原子性和局部事务原子性保证局部执行的可串行 性和全局执行的可串行性检测和预防全局死锁。大多数己经有的数据库集成系统原 型仅仅支持全局检索操作,而所有的更新只能由局部数据库进行。然而,即使在这 种苛刻的限制条件下,也会出现读“脏”数据和不可重复性错误,因为不能保证全 局数据库的一致性视图。 在分布式异构数据源集成系统环境下的更新支持问题类似于数据库系统中对 视图的更新支持。全局模式相当于建立在局部模式集合上的全局视图。在集中式数 据库情况下,系统中能够自动的保证用户视图的最新状态,但在异构分布式数据库 集成环境下,数据库集成系统无法知道非全局事务对局部数据库已经作了哪些修 改。 湖北工业大学硕士学位论文 上述问题的解决,是构建一个合理高效的异构信息集成系统的关键。同时,如 何找到解决这些问题的理想方法,也构成了本论文研究的最初出发点。本文将针对 异构信息集成系统的分布性、异构性和自治性特点,着力研究异构数据集成模型及 集成系统中的查询处理问题。 2 3 传统的数据集成方式 由于历史的原因,目前数据库还没有形成统一的标准,各种不同的数据管理系 统都在使用之中。之前,文件系统、层次网络系统、关系数据库、面向对象数据库 等作为数据管理平台都曾广泛使用,而且基于不同的数据管理系统都建立了大量的 应用程序。由于不同的数据管理系统有不同的数据模式和查询语言,用户不可能像 使用一个数据库那样使用多个具有不同结构的数据管理系统,但有些应用要存取的 数据可能涉及到不同种类的数据管理系统。因此,我们面临着解决不同种类的数据 管理系统之间的互操作问题呻1 。 目前,在开发信息集成系统时采用的方法虽各不相同,但基本解决这种互操作 的问题可分为下面两种典型的方法n 叭:物化方法( m a t e r i a l i z e d ,也称数据仓库法) 和虚拟方法( v i r t u a l ,也称中间件法) 。 2 3 1 物化方法 在客户端与数据源( 服务器) 之间增加一层,称为数据仓库,用于存储来自各 数据源的待集成数据,系统提供对这个数据仓库的查询机制。数据仓库方法1 是将 各数据源的数据过滤之后预先装载到一个存储数据的数据仓库中,用户的所有查询 基于数据仓库的数据。各数据源的数据被导入数据仓库中,实现数据集成并支持系 统的决策支持查询。在数据仓库方法中主要便用数据抽取工具将各数据源的数据过 滤后预先存储到数据仓库中,这些数据多为支持决策分析的历史数据和汇总数据。 查询只针对数据仓库进行,查询效率很高。体系结构如图2 - 1 所示: 9 湖北工业大学硕士学位论文 用户查 图2 - 1 数据仓库体系结构图 这种方法的优点是既可用于信息集成,又可用于决策支持查询。该方法存在的 问题是,当数据源的数据发生变化时,数据仓库中的数据也要做相应的修改。因此, 这种间接访问方式的最大缺点是数据更新不及时、数据重复存储。这种方法通常需 要一些新的技术,如有效的数据加载和增量更新维护等。 2 3 2 虚拟方法 虚拟方法使用了与数据仓库法完全不同的结构。数据仍保存在各数据源上,集 成系统仅提供一个虚拟的集成视图( 即全局模式) 和对该集成视图查询的处理机制。 系统能自动地将用户对全局模式的查询请求转换成对各异构数据源的查询,它依赖 于两类软件组件:包装器( w r a p p e r s ) 和中间件( m e d i a t o r s ) 。包装器包装数据源, 把底层的数据对象转换为统一的数据模型;在某种程度上,中间件是信息源中数据 的一个视图,其中并没有数据。用户可以对中间件进行查询,对于每一个用户的查 询模式需要一个中间件,不同中间件结果之间一般没有一致性约束。中间件从包装 器或其他中间件获取信息,通过集成不同数据源信息,并解决它们之间的冲突来提 炼信息,然后把信息或者提供给用户,或者提供给其他的中间件。由于该方法不需 要重复存储大量数据,并能保证查询到最新的数据,因此比较适合于高度自治、集 成数量多且更新变化快的异构信息源集成。该方法中的技术涉及到更多的查询上的 代数操作。首先,中间件应当确定出哪个信息源对给定的查询有用,当需要集成的 1 0 湖北5 - 业大学硕士学位论文 信息源巨大时,这一问题是非常重要的;其次,一旦确定了有关的数据源,中问件 应当执行源到源的查询变换,该过程有时称为查询重写( q u e r yr e w r i t i n g ) 。当从两 个或多个数据源抽取数据时,中间件还需要生成一个全局的执行计划,以确定以何 种顺序对信息源进行查询。 在虚拟方法中数据集成系统可能基于不同的模型来构造,早期的大多数系统都 基于关系数据模型来构造n 利。随着w e b 的不断发展,越来越多的研究将基于半结构 化数据模型来构造数据集成系统。 采用虚拟方法集成数据源主要有两种体系结构:一种是联邦数据库系统,另一 种是m e d i a t e d 系统。 联邦数据库系统( f e d e r a t e dd a t a b a s es y s t e m ,f d b s ) 是由参与联邦的半自治 的数据库系统组成,目的是实现数据库系统间部分数据的共享。联邦中的每个数据 库的操作是独立于其它数据库和联邦的。之所以叫“半自治”是因为联邦数据中的 所有数据库都添加了彼此访问接口。如图2 - 2 所示: 图2 2 联邦数据库系统结构 m e d i a t e d 系统通过提供所有异构数据源的虚拟视图来集成它们,这里的数据源 可以是数据库、遗产系统、w e b 数据源等等。该系统提供给用户一个全局模式( 也 叫m e d i a t e d 模式) ,用户提交的查询是针对该模式的,所以用户不必知道数据的位 置、模式及访问方法。如图2 3 所示: 湖北工业大学硕士学位论文 图2 - 3m e d i a t e d 系统结构 比较上述两种方法,物化方法中,中间层备份全局模式中的数据,系统需要维 护一个与信息源中数据一致的视图副本,全局查询直接在集成系统本地执行,查询 不需要访问源数据,所以响应查询一般比较快捷,但维护具体的视图代价也高;特 别当数据源更新时必须相应地更新视图;并且存储空间需求大,比较适合于数据仓 库这类实时性要求不高的应用。在虚拟方法中,中间层不备份任何数据实例,只作 为用户和信息源之间的接口,通过查询规划将全局查询转换成信息源上的查询命 令;在处理查询时,由于需要访问信息源,所以响应查询一般比较费时,其查询代 价较高。有些系统采用混合方法,同时是虚拟的也是物化的,中间层只保存至关重 要、变化较少的数据,或者不常在线信息源中的数据,而其它数据仍直接从信息源 本身实时获取,例如t s i m m i s n 引。 每种数据集成的方式都有它的优缺点。但这些方法没有聚集一些与数据集成过 程相关的重要领域。我们在此指出一些重要的领域,这些是在目前数据集成框架中 没有探索出的: ( 1 ) 存在的方式没有集中知识的共享和信息的重用性。 ( 2 ) 存在的方式没有解决全局访问的服务。 ( 3 ) 尽管非常重要,元数据管理没有在存在的集成框架中被采用。 ( 4 ) 需要精确存在中间件中数据表现的标准。 2 4 基于w e bs e r v lc e 的异构数据集成 随着w e b 技术的迅速发展,应用程序处理的数据也逐步多元化,不但要访问网 络中各个数据库服务器上的数据,而且还需要访问分布在网络上的电子邮件、h t m l 1 2 湖北工业大学硕士学位论文 文件、电子表格以及文本文件等非数据库的数据源。w w w 的发展使w e b 上的数据 成为最大数据来源,它具有全面、及时、多样化的特点,而且w e b 上的数据往往是 高度自治的,许多半结构化数据不可能按传统数据库中结构化数据来处理,这是一 个新的挑战。 x m l 和w 曲s e r v i c e s 的出现可以很好地解决这一问题,在w 曲s e r v i c e s 框架口们 下,对每个数据源都可以为其创建一个w e bs e r v i c e s ,然后使用w s d l 向服务中心 注册。这样集成系统就可以向注册中心发送查找请求并选择合适的数据源,然后通 过s o a p 协议从这些数据源获取数据。这样不仅使数据源之间的互操作变的容易, 也可以很方便地从系统中添加和删除数据源,增加了集成的灵活性。因此,利用 w e bs e r v i c e s 能克服以上所说的缺点,具有完好封装,松散耦合,规范协议,高度 可集成能力等特性,能够实现多数据源的无缝集成。 采用w e bs e r v i c e 服务作为客户端和传统系统之间的抽象层也有多个节点:许 多新型客户端平台都能访问旧的系统,且x m lw e b 服务在处理客户端请求时,还 能对跨多个系统的活动进行协调。w e b 服务应用集成示意图2 - 4 如下: 图2 - 4 基于w 曲s e r v i c e 的集成体系 w e bs e r v i c e 集成就是通过服务查找以及服务之间的接口集成,将多个自治的 w e bs e r v i c e 根据应用需要进行组合,从而提供新的、功能更强的w e bs e r v i c e ,或 者说提供一些增值的w 曲s e r v i c e n 5 1 。 总体来说,利用w e bs e r v i c e 进行集成有以下几个方面的优势: ( 1 ) w e bs e r v i c e 使企业内部和企业之间的人、信息和流程之间的整合更加容易, 从而缩短业务流程周期,提高企业反应速度。同时,它也能够为更多的应用和用户 实时地提供关键数据,从而使企业更具敏捷性和灵活性。 ( 2 ) w e bs e r v i c e 简化了客户的自助服务体系,让企业内部各个职能部门可以通 1 3 湖北工业大学硕士学位论文 过一个“窗口”接触到企业的新产品和新服务,这些都有助于企业建立持久的、忠 诚的客户关系。 ( 3 ) w e bs e r v i c e 有助于提高企业效率。就目前而言,只有w e bs e r v i c e 才能讲 分散在各种系统、信息孤岛中的数据进行整合,并让管理者们能够实时地访问这些 分散的数据;同时也可以让合作伙伴和供应商直接访问与该企业相关的信息和服 务。 1 4 湖北工业大学硕士学位论文 第3 章基于w e bs erv ic e 的异构数据库集成系统的框 架设计 异构数据源集成的首要任务就是要为集成系统设计一个公共的逻辑框架,对 企业应用提供唯一的访问接口,从而屏蔽了用户访问多个数据源的细节处理问题。 但在系统内部实现上,必须将来自用户查询的需求访问进行分解,并将分解结果 发送至相应的数据源执行访问操作,之后将访问结果汇总并发送给用户,从而完 成系统的访问服务n e l 7 1 。对于这个复杂的访问处理过程,论文在本章详细说明了系 统的设计过程。 3 1w e bs e r vic e 与异构数据源共享的关系 将w e bs e r v i c e 引入到异构数据源共享研究中,解决已有共享方案中存在缺点 的基本研究思路如下: 首先由各数据源自行确定要为用户或其他系统共享的数据以及产生这些数据 一系列的系统内部操作。数据源根据特定行业提供的统一元数据标准,将自己提 供的数据与标准中的元数据进行映射。这样使得不同企业内部的数据得到了统一。 数据源使用w s d l 语言将提供数据的行为描述成服务,并将w s d l 文件传递 给服务注册中心。服务注册中心会根据w s d l 文件将用户提供的服务进行注册。 注册信息包括服务名、服务参数、服务结果以及服务调用等信息。服务注册成功 后,数据源为实现数据共享做好了准备。服务使用者可以在服务注册中心查找提 供数据的服务,并调用服务获取数据。 用户使用标准查询语言对全体数据源提出请求。请求通过请求分解器被分解 为若干个子请求,子请求与服务注册中心注册的服务相对应。用户根据服务注册 信息,发出s o a p 请求消息调用服务:服务调用结果也采用s o a p 消息形式返回给 用户。s o a p 消息是一种x d v l l 文档。由于采用了统一元数据标准描述服务,因此 消息中的标签也是统一的,相同标签标识的数据具有相同的含义,是同一类数据, 所以可以根据标签将异构数据源返回的消息整合,并将结果显示给用户。 x m l ( 可扩展标记语言) n 8 1 为描述结构化文本提供了一种开放标准,它不仅可 以描述传统的文件文本,也可以描述电子商务和关系数据库等复杂数据。x m l 是 w e bs e r v i c e 平台中表示数据的基本格式,所以我们采用了) l m l 作为异构系统的 湖北工业大学硕士学位论文 信息交换标准。而且w e bs e r v i c e 与物理设备、运行平台无关,所以使用w e bs e r v i c e 实现异构数据源共享时可以不用考虑平台异构、网络异构等问题,具有平台和网 络的透明性。使用w e bs e r v i c e 实现异构数据源共享时,每个数据源都按照相同的 方式将已有的行为描述为服务,并将服务在注册中心注册,整个过程都有工具支 持完成,无论是理解还是实现都非常简单,缩短了共享系统的实现周期并降低了 实现难度。 当有新的数据源需要加入已有共享系统时,数据源将提供数据的服务在注册 中心进行注册后就可以供用户调用,实现了新数据源的共享。这个过程不需要原 有的共享系统作任何的改变,不会影响其他数据源的运行,数据源做到“即插即 用 ,提高了异构数据源共享的可扩展性。 服务注册中心存储的只是服务的描述信息和调用信息,而服务的实现是在数 据源内部完成的。因此,当服务的具体实现发生变化时,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论