(计算机软件与理论专业论文)基于xml的异构数据源的数据存储和集成研究.pdf_第1页
(计算机软件与理论专业论文)基于xml的异构数据源的数据存储和集成研究.pdf_第2页
(计算机软件与理论专业论文)基于xml的异构数据源的数据存储和集成研究.pdf_第3页
(计算机软件与理论专业论文)基于xml的异构数据源的数据存储和集成研究.pdf_第4页
(计算机软件与理论专业论文)基于xml的异构数据源的数据存储和集成研究.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(计算机软件与理论专业论文)基于xml的异构数据源的数据存储和集成研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ab s t r a c t r e s e a r c h o n t h e i n t e g r a t i o n o f h e t e r o g e n e o u s d a t a s o u r c e s i s a n e w r e s e a r c h f o c u s o n c o m p u t e r a p p l i c a t i o n f ie l d , p a r t i c u l a r l y i n r e c e n t y e a r s , w i t h t h e p o p u l a r i t y o f t h e i n t e rn e t a n d d e v e l o p m e n t o f w e b a p p l i c a t i o n , m o re a n d m o re d o m a i n s r e q u e s t t o a c c e s s h e t e r o g e n e o u s d a t a s o u r c e s t h r o u g h a u n i f i e d in t e r f a c e . t h e ref o r e t h e i n t e g r a t i o n o f h e t e r o g e n e o u s d a t a s o u r c e s b e c o m e s a n i n e v i t a b l e t e n d e n c y . t h r o u g h re s e a r c h o n i n t e g r a t i o n t e c h n o l o g y o f h e t e r o g e n e o u s d a t a s o u r c e s a n d a p p l i c a t i o n o f 议 t h e i n f o r m a t i o n i s o l a t e d i s l a n d s c a n b e c o n n e c t e d t o i m p l e m e n t t h e i n t e g r a t i o n o f i n f o r m a t i o n , t h e r e f o re e n t e r p r i s e s w o r k e ff i c i e n c y a n d c o m p e t i t i v e a b i t i ty w o u l d b e g r e a t e l y e n h a n c e d . t h r o u g h t h e c o m p a r i s o n a n d a n a l y s i s o f s t ru c t u r a l d a t a a n d u n s t r u c t u r a l d a t a , t h i s p a p e r p r o p o s e s a n e w m e t h o d o n s t o r a g e o f h e t e r o g e n e o u s d a t a w h i c h i n t e g r a t e d t h e 山 t a b a s e s y s t e m a n d fi l e s y s t e m . f u r t h e r m o re , a ft e r a n a l y z i n g t h e e x i s t e d i n t e g r a t io n t e c h n i q u e o f h e t e r o g e n o u s d a t a s o u r c e s , t h i s p a p e r p r o p o s e s a n i n t e g r a t i o n m e t h o d b a s e d o n x ml f o r h e t e r o g e n e o u s d a t a b a s e w h i c h i n t r o d u c e s t h e x m l a n d we b s e r v i c e s t e c h n i q u e i n t o s y s t e m a n d a p p l i e s a n e w m a p p i n g w a y s o f g l o b a l v i e w a n d l o c a l v i e w . t h e m a p p i n g f r o m g l o b a l t o l o c a l h a s t w o l a y e r s : u s e r q u e ry t o l o c a l s o u r c e s ; l o c a l s o u r c e s t o l o c a l f i l e d s . t h i s m e t h o d h a s t h e f o l l o w i n g c h a r a c t e r i s t i c s : s u p p o r t s t h e r e f e r e n c e b e t w e e n d a t a s o u r c e s a n d i n n e r o f d a t a s o u r c e s , g u a r a n t e e s th e q u e ry c o n s i st e n c y . th e m a n a g e m e n t o f in te g r a te d s y s t e m is o n th e b a s is o f r o l e , g u a r a n t e e s t h e a u t o n o m y o f l o c a l d a t a s o u r c e s . s u p p o r t s t h e s e m i - a u t o m a t i c g e n e r a t i o n o f d a t a d i c t i o n a ry . a l s o t h i s p a p e r d e s c r ib e s a p r o t o t y p e s y s t e m o f h e t e r o g e n e o u s d a t a s o u r c e s q u e ry b o o k i n f o r m a t i o n s y s t e m w h i c h w a s d e s i g n e d a n d i m p l e m e n t e d a c c o r d i n g t h i s m e t h o d . t h i s p r o t o t y p e s y s t e m c a n a c c e s s t h r e e b o o k l i b r a r i e s t h a t h a v e d i ff e r e n t t y p e s o f d a t a b a s e s a n d l o c a t e i n d i ff e re n t p l a c e s t h r o u g h a u n i f o r m i n t e r f a c e . t h e m e t h o d p r o p o s e d b y t h i s a rt i c l e c a n b e a p p l i e d t o i n t e g r a t i o n s y s t e m o f a n y h e t e r o g e n o u s d a t a s o u r c e s . i n b r i e f , o n b as i s o f t h e r e s e a r c h o n t h e i n t e g r a t i o n m e t h o d o f h e t e r o g e n e o u s d a t a 1 1 ab s t r a c t s o u r c e s , t h i s p a p e r p r o p o s e s a n i n t e g r a t i o n m e t h o d b a s e d o n x m l f o r h e t e r o g e n e o u s d a t a s o u r c e s a n d rea l i z e d t h i s m e t h o d t h o r o u g h a s a mp l e c a s e . t h e m e t h o d p r o p o s e d b y t h i s p a p e r i s s i m p l e , f e a s i b l e , o p e r a b l e a n d e x t e n s i b l e . t h i s m e t h o d w a s s u c c e s s f u l l y a p p l i e d i n t h e d e s i g n o f l a r g e - s c a l e s y s t e ms . k e y wo r d h e t e r o g e n e o u s d a t a s o u r c e s , x ml , i n t e g r a t i o n , s t o r a g e , d a t a d i c t i o n a r y m 图目录 图 目录 图 1 . 1 基 于 中 间 件 的 数 据 集 成 模 型 “ . ” . “ ” ” . “ . . . . . . . . . . . 图1 . 2基于数据仓库的数据集成模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 图2 . 1单表存 储. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 3 图 2 . 2多表存储 . . ” ” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 3 图 2 . 3文件系统与数据库系统集成 . . “ “. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 4 图 2 . 4 w e b s e r v i c e s 架构. . ,. . “ . “ . .,. . ” “ 二 ,. . . “. . . . . . . . . . . 1 8 图 3 . 1 分 布 式 数 据 库 系 统 分 类 . . .2 0 图3 . 2 系 统 体 系 结 构.2 2 图 3 . 3 关 系 表 物 化 为 x m l 文 档 .2 4 图3 . 4 f s m d l 在系统中的使用 . ” . .” . ” 二 “ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2 5 图3 . 5全局数据字典. . . . . . . . . . . . . “ ” . . . . . . . . . . . . . . . . “ . 。 “ . .” . 2 6 图3 . 6全局数据字典实 例. “ .” . ” . . “ . ,. 二 ,. “ . . . .,. . . . . . . .2 8 图3 . 7局部数据字典. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2 8 图 3 . 8 局 部 数 据 字 典 实 例 . . “ . . .“ “ . ,. . . . “ 一 。 .3 0 图 3 . 9 局 部 数 据 字 典 生 成 流 程. . . . . . . . . ,. . . . .3 2 图3 . 1 0查询分解. . . . . ,. 二 ” ” :,. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 图3 . 1 1子查询a . . . . . .,. . . . . . ” . . . . . . . ” . . . ” 二 ” . . . . . . . . . . . . . . . . . . . . 3 4 图3 . 1 2子查询b . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 4 图3 . 1 3集合r a 与r b 的关系. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 4 图3 . 1 4全局数据字典中的参照关系. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 5 图 3 . 巧查 询 结 果 文 件 示 例.“ . . . “ . . . . . . ” “ . ” .” . . . . . 图 3 . 1 6查询合成 “ ” ” . . . . . . . . . . . . . .“ “ . . . “ 二 二 “ . . . . . . . . . . . . . . . . 3 6 图3 . 1 7文 件b o o k b j r e s u l t . x m l . ” ,. . .” . . .“ . .。 . . . . . . . . . . . . . . . . . . 3 7 图 3 . 1 8文件 b o o k t j r e s u l t . x m l . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 7 图目录 图 3 . 1 9文件 q u e r y r e s u l t . x m l . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 8 图 3 . 2 0子查询结果树 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3 9 图 3 . 2 1查询树匹配过程. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 9 图3 . 2 2包装器执行流程 .” . . . . . . . . . . . . . . . . ” ” . ” . “ . . . “. .4 0 图4 . 1体系结构. “ . . . . . ,. . . . . . . “. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4 3 图4 . 2局部数据字典l o c a l d i c t i o n a r y _ b o o k b j . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4 7 图4 . 3一个查询语句执行过程示例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4 8 图4 . 4用户界面. . . . . . . . . . .“ ,. . “ “ :.“ “ . . ,. . . . . . . . . . . .4 9 图4 . 5天津市软件评测中心测试项目信息. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 0 图4 . 6国家应用软件产品质量监督检验中心测试项目信息 . . . . . . . . . . . . . . . . . 5 0 图4 . 7查询界面 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1 图4 . 8查询语句生成. “ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2 图4 . 9查询结果浏览. ” . ” . . . ,. . , ,. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2 表 目录 表 目录 表 1 . 1 两种数据 集成方法的比 较. . . ., . . . “ . “ . . . . . .” “ .” . ” . ” . . 表 3 . 1全局数据库字典设计表. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 7 表 3 . 2局部数据库字典设计表. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 0 表 4 . 1数据库信息表 . . . . . . . . . . . . . . . . . . . . “ . . . . . . . . . . . . . . .4 4 表 4 . 2数据库关系说明. . . . . . . . . . . . . . ,. ,. . . . . . . . . ,. . . . . . . . . . . . . . . . . . . . . .4 4 表 4 . 3统一元数据标准. ,. . “ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4 5 表4 . 4 b o o k b j 与元数据映射 关系. . ” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4 6 表 4 . 5 b o o k t j 与元数据影射关系 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4 6 表4 . 6 b o o k s h 与元数据影射 关系. . . ” 二 ,. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4 6 南开大学学位论文版权使用授权书 本人完全了解南开大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、 数字化或其它手段保存论文; 学校有权提供目 录检索以 及提供 本学位论文全文或者部分的阅览服务; 学校有权按有关规定向国家有 关部门或者机构送交论文的复印件和电子版: 在不以赢利为目的的前 提下,学校可以 适当复制论文的部分或全部内容用于学术活动。 学 位 论 文 作 者 签 名 :, 七 发 花 40 了 年 。 一 月珍日 经指导教师同 意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学位论文作者签名: 解密时间:年月日 各密级的最长保密年限及书写格式规定如下: 内部 5 年 ( 最长5 年,可少于5 年) r 7 1 x 1 0 年c f f-: 机密2 0 年 ( 最长 iii , j-_ 1 0 卿 可少于2 0 年) 南开大学学位论文原创性声明 本人郑重声明: 所呈交的学位论文, 是本人在导师指导下, 进行 研究工作所取得的成果。 除文中已经注明引用的内容外, 本学位论文 的研究成果不包含任何他人创作的、 已公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集 体, 均已 在文中以明确方式标明。 本学位论文原创性声明的法律责任 由本人承担。 学位论文作者签名: -1.0 a 年 3 -,o 汇 犷月 it 日 第一章 引言 第一章 引言 第一节 问题的 提出 随着信息化的发展, 越来越多的企业 在处理事务时需要访问 各种异构数据 源。 对于企业应用来说, 这既是企业内部发 展的 需要,也是企业适应外部环境 的需要。 企业在发展过程中积累了 大量数据, 并为 存储和管理这些数据不断投资。 然而,由于实施数据管理的阶段性、技术性以及其他经济和人为因素的影响, 导致在企业内部和企业之间存在诸多异构数据源。尽管有些数据库管理系统能 够满足数据存储和管理要求,但是在许多 情况下,为完 成一项工作,企业可能 访问分布在不同地区的多个数据库管理系统中的数据,因此需要一个强大的系 统能够集成存在于分布数据源中的数据。 不仅如 此,随着市 场竞争变得 越来越激烈, 企业在把握机遇的同时也面临 着许多挑战。网络的发展使企业逐 渐从一个孤立节点发展成为不断与网络交换 信息和进行商务处理的实体,企业数据集成也从企业内 部集成走向了企业之间 集成。将不同的信息通过网络连接起来,为用户提供一个包罗各种信息的共享 平台,用户可以在此平台上迅速而有效地查看、编辑、存储、传递、管理、收 集各类数据, 这种平台就是 企业需 要的异构数据 源集成平台。 现在的 企业比以 往任何时 候都 需要将内部数 据发 布和交换,这必 然导致越来越多的企 业应用需 要访问 各种异 构数据源。为了 满足这种需 求,必 须有一种系统能够支持异构数 据源的数据集成。 第二节 异构数据源集成的概念 随着网络技术的发展,使得网络中必然存在不同的硬件、多种操作系统、 多种编程语言以及多种通信协议,这就导致了数据源在硬件设备、运行平台、 实现语言、通信协议等方面的异构问题。同时,各个数据源系统没有统一的标 准,导致系统开发人员和最终用户面对的往往是多个分布的异构系统,即异构 数据源。这些异构数据源都各自支持相应的应用。对于信息系统的使用人员来 说,需要用不同的方法从不同的数据源中获取信息,由于这个信息获取过程过 第一章 引 言 于繁琐,因此使用人员希望能够将多个数据源看作一个数据源,用单一标准方 法访问多个数据源的数据。对于信息系统的开发人员来说,在开发新的应用时 需要访问 现有的多 个数据源,开发人员 希望通过单一的 标准接口 访问这些数据 源.这 样既 可以 减少软件开发的复 杂程度, 提高 效率, 又可以 简化系统的 使用。 异构数据源集成就是指对输入系统的 来自 于不同的 数据源的各种类型、 各 种格式的数据进行统一处理,为用户提供统一透明的界面,从而达到信息共享 的目 的。这里所说的透明 是指用户在访问 数据时不必考虑数据源的物理位置、 硬件设备、运行平台和通信协议等问题, 对各种 不同数据源的 访问 就像在本地 访问同一种类型的数据源一样。 1 .2 . 1异构数据源集成面临的问题 异构数据源集成是数 据库领域的经典问 题, 并随着x m l 技术的兴起, 再次 成为该领域研究的一个热点。从为企业应用构建集成系统的角度来讲,必须考 虑企业异构数据在集成 过程中 所遇到的特殊问 题 n 。 总的来说, 在异构数据源的 数据集成的过程中会遇到下列几方面的问题: . 异构性 异构性是异构数据集成必须面对的首要问题。其主要表现在以下几个方面: 系统 异构。 数据源所依赖的应用系统、 数据库管理系统乃至操作系统之间的 不同构成了系统异构。 模式异构。 数据源在存储模式上的不同 。一 般的 存储 模式包括关系模式、 对 象模式、关系对象模式和文档嵌套模式等几种,其中关系模式为主流存储模 式。然而值得注意的是,即使是同一类存储模式,它们的模式结构也可能存 在着差异。 例如o r a c l e 所采用的 数据类型与s q l s e r v e r 所采用的数据类型并 不完全一致。 命名冲突。 相同的 数据在不同的 局部数 据库中 可能 有不同的 名字或者相同的 名称在不同的局 部数据库中表示不同的 数据2 l 格式相异。 包括数据类型、 精度、 数据范围的 不同。 如书的 价格在一个数据 库中 用美元 表示而在另一个数 据库中 用人民币 表示。 . 局部自 治性 多个异构数据库集成要求每个局部数据库必须加入到集成系统中,但是加 第一章 引言 入并不意味着局部数据库失去自 身的 控制力。对局部数据库而言, 全局系统只 是本地数据库的一个用户, 和其他局部数据库用户并无区别。 局部数 据库必须 拥有管理本数据库的权力,即自治性。 保持局部 数据库的自 治性是必要的。 被集成的系统是已 经存在的,集成的 目 的是为了提 供数 据的共享服务, 而不是去影响和干扰局部数据库原 本的运行 能力。局部自治意味着局部数据是本地拥有和管理的,所有数据都是真正属于 某个本地数据库的。即使它们与其他数据库集成到一个系统中,局部数据库的 数据的安全性、完整性和存储之类的问题也是存在于本地数据库的控制和管辖 之 下 的 31 . 全局完整性 异构数据源集成的目的是为应用提供统一的访问支持。为了满足各种应用 处理数据的条件,集成后的数据必须保证一定的完整性,包括数据完整性和约 束 完 整 性 两 方 面 4 ,51 . 性能 网络时代对传统异构数据源的数据集 成方法提出了 挑战,更提高了 标准。 异构数据集成系统不能因为系统中数据源的多少影响用户对系统的操作速度。 异构数据源集成系统在保证为用户提供信息共享服务的同时也要保证一定的性 能。 . 附加约束 由于集成系统对用户提供了一个全局视图,因此不同的数据库中也可能彼 此间有语义的关联性。把这种逻辑关联性附加到集成结果中的过程就成为附加 约束。 . 集 成内 容限定 多个数据源的数据集成,涉及到不同企业之间信息保密的问题。因此并不 是要将所有数据集成,那么如何定义和限定集成的范围就成了集成内容的限定 问题。 1 . 2 . 2 已有异构数据源集成解决方法及优缺点 数据集成的 核心任务是要 将互相关联的分 布式异构数据源集成到一起, 使 用户能够以 透明的 方式访问 这些数据源网 . 集成是指维护数据 源整体上的 数据一 致性、提高信息共享利用的效率;透明的方式是指用户无需关心如何实现对异 第一章 引言 构数据源的数据的访问, 只关心以 何种方式 访问 何种数据源。 对异构数据库集 成的 研究开始于2 0 世 纪8 0 年代。 在9 0 年 代末,数据集 成 技术开始从实验室的 单纯研究转化到商业用 途1 7 1 。 经过多年的 研究和实践, 出 现 了 很多 异构数据源集成的方 法。目 前,对于 异构数据源集成主要侧重于异构分 布式数据库集成。针对异构数据库的特点,解决异构数据库共享的主要方案有 以下两种: 1 . 2 . 2 . 1 模 式集成 模式集成是人们最早采用的数据集成的方法。 其基本思想是在构建集成系统 时将各数据源的数据视图集成为全局模式,使用户能够按照全局模式透明地访 问 各 数 据 源 的 数 据 8,9 ,101 . 全 局 模 式 描 述了 数 据 源 共享 数 据的 结 构 、 语 义 及 操 作 等。用户直接在全局模式的基础上提交请求,由 数据集成系 统处理这些请求, 并转换成各个数据源在本地数据视图基础上能够执行的 请求。 模式集成方法的 特点是直接为用户提供透明的数据访问的方法。由于用户使用的全局模式是虚 拟的数据 源视图 ,一些学者也 把模式集成方法 称为虚拟视图 集成方法 1 1 1 模式集 成主要解决两 个基 本问 题 1 2 1 : 构建全局 模式与 数据源数据视图间的映 射关系: 处理用户在全局 模式基础上的查询请 求。 根据全局模式与数据源数据视图间的映射的构建方式,模式集成又分为两 种:全局视图法 ( g l o b a l - a s - vie w) 和局部视图法 ( l o c a l - a s - vie w) 。全局视图法 中的 全局模式是在数 据源数据视图的基础上创 建的 1 3 , 1 4 1 ,它由 一系列元素组成, 每个元素对应一个数据源,表示相应数据源的数据结构和操作;局部视图法先 构建 全局 模式, 数据源的数 据视图则是在全 局模式的基础上定义,由 全局模式 按一定的规则推理得到。 联邦数据库和中间件集成方法是现有的两种典型的模式集成方法。 . 联邦数据库 是早期人们采用的 一种模式集成方法。 联邦数据库中数据 源 之 间 共 享自 己 的 一 部 分 数 据 模 式, 形 成 一 个 联 邦 d 1 联邦数据库系统按集成度可分为两类:采用紧密祸合联邦数据库系统和采 用松散祸合联邦数据库系统。紧密祸合联邦数据库系统使用统一的全局模式, 将各数据源的数据模式映射到全局数据模式上,解决了数据源间的异构性。这 种方法集成度较高,用户参与少;缺点是构建一个全局数 据模式的 算法复杂、 扩展性差。松散祸合联邦数据库系统比较特殊,没有全局模式来提供统一的查 第一章 引言 询语言,将很多异构性问题交给用户自己 去解决。松散祸合方法对数据的集成 度不高,但其数据源的自治性强、动态性能好。集成系统不需要维护一个全局 模式。 . 中间 件集 成方法 此集成方法是另一 种典型的模式集成方法, 它同样 使 用全局 数据模式。 g w i e d e r h o l d 最 早给出了 基于中间 件的 集成 方法的架构 1 6 1 。 与 联邦数据库不同, 中间件系统不仅能够集成结构化的数据源信息,还可以集成半 结构化或非结构化数据源中的信息, 如 we b 信息。斯坦福大学g r a c i a - mo l i n a 等 人在 1 9 9 4年开发了t s i m m i s系 统 1 7 , 1 8 1 ,就 是一个典型的中间 件集成系统。中 间 件的 数据集成模型如图1 . 1 所示。 图1 . 1基于中间件的数据集成模型 该方法并不需要改变原始数据的存储和管理。中间件位于异构数据库系统 和应用程序之间,向 下协调各个数据库系统,向 上为访问集成数据的 应用提供 统一的数据模式和数据访问的通用接口 。各个数据库的应用仍然完成它们的任 务,中间件系统则主要为异构数据源提供高层次的检索服务。 中间 件注重于全局查 询的 处理和优化, 相对于联邦数据 库系统的优势在于: 它能够集成非数据库形式的数据源,有很好的查询性能、自治性强;中间件集 成的缺点在于它通常是只读的,而联邦数据库对读写都支持。 1 .2 . 2 . 2 数据复制 数据复制方法将各个数据源的数据复制到与其相关的其它数据源上,并维 护数据源整体上的数据一致性,提高信息共享利用的效率。数据复制可以是整 第一章 引 言 个数据源的复制,也可以是仅对变化数据的传播与复制。数据复制方法可以减 少用户使用数据集成系统时 对异构数据源的数据的访问 量, 从而提高数据集成 系统的性能。 最常 见的 数据复制方法就是数 据仓库方法 19 , 2 0 。如图1 . 2 所示, 该方法将各 个数据源的数据复制到同 一处 数据仓库。用户则像访问 普通数据库一样 直 接访问数据仓库。 图 1 . 2基于数据仓库的数据集成模型 1 . 2 . 2 . 3 两种方法比 较 使用模式集成方法数据仍保持分布存储,仅增加了一个虚拟的集成视图以 及这个视图与数据的映射关系;用户可以通过虚拟视图了解到数据的存储位置、 存储方式等情况,然后直接从数据源获取数据。 模式集成法不需要重复存储大量数据,并能保证集成的是最新信息,适合 高度 自 治且数据变化快的异构数据源共享。但是当信息源发生频繁变化时,虚 拟视图 也需要进行相应改 变.由于 创建和修改虚拟视图 是很复杂的操作,数据 源的频繁变化会 导致虚拟视图 变得难以 维护。 复制方法是利用数据仓库等将异构数据源上的数据实现物理集成,形成有 统一模式的数据源, 用户直接对这个统一的数据源进行操作, 实现异构数据源 的共享。 复制方 法是可以 实现的, 但存在着很 大的 缺陷。 当增添或 删除 信息时, 集 成 系统的信息源中的数据和模式要进行相应的修改,会出 现信息更新不 及时、重 复 存储等 情况, 难以 维护, 所以 这种方法的实 用性不高。 表 1 . 1是两种方法的 比较。 第一章 引言 表 1 . 1两种数据集成方法的比较 集成方法 模式集成方法 优点 实时性、一致性好 透明度高 数据复制方法执行效率高 网络依赖性弱 缺点 执行效率低 网络依赖性强 算法复杂 实时性、一致性差 1 . 2 . 3 异构数据源集成研究现状 在欧美等发达国家对信息技术的研究应用开始较早,并已经取得了一定的 成就,如己经实 现了数字图书馆、知识点播等应用,成功地实现了 异构数据源 的集成。我国的数据共享技术研究起步比较晚,目 前研究主要集中在信息表示、 异构数据源共享、 集成实 现等方面。主要的 研究 项目 有国 家 8 6 3数据库重大 专 项课题 “ 基于 x ml的数据集成、共享与交换” ,国家 8 6 3高技术研究发展计划 计算机软硬件主 题 “ 支持w e b s e r v i c e 的 数据集成 和中 间件” 以及国家9 7 3 重 点 基础研究发展规划项目“ 万维网 上的数据集成、数 据仓 储及知识发现的 有效算 法与软件系统”等,通过这些专项课题的研究,积累了大量的科研、开发和应 用经验,掌握了异构系统数据集成共享技术等许多重大关键技术。 近年来关于 异构数据源集成的 项目 和研究 也越来越多, 但研究主要 集中 在异 构数据库集成的问 题上, 并开发出了 许多 异构数 据库集成系统。下面介绍几个 具有代表性的异构数据源集成系统。 ( i ) a d d s ( a m o c o d i st ri b u t e d d a ta - b a s e s y s te m ) 2 1 a d d s 具有访问异 构分布式数据库的功能, 支持 a n s i s q l的一个子集。 a d d s 全局数据库模式 是通过定义合成c d b ( c o m p o s it e d a t a b a s e ) 建 立的, 即 将 局部 数 据 库 模 式 映 射 到 联 邦 模 式 上 。 c d b 支 持 的d b m s 有im s , s q l /d s , d b 2 , r i m, ing r e s 及f o c u s . a d d s 的工作 环境主要是v m和m v s 系统 及 运行 u n i x操作系统的s u n工作站。 ( 2 ) d a t a p l e x ( g e n e r a l m o t o r s ) e l l d a t a p l e x能 对分布式管理的 数据进 行检索和更新。 具有数据 位置 透明 性、 支持异质网络的 特点。 它以 关系模式为其全局 数据模式, 支持的d b ms 有m v s 操作系统下的i m s 和ing r e s ,查询语言为s q l 的子集. ( 3 ) ing r e s / s t a r 1z q 第一 章 引言 i n g r e s / s t a r 属于联邦数据库系统,它是依靠 i n g r e s / d b m s和 i n g r e s / g a t e w a y 来工作的, 支持v a x v m s 操作系统上的r ms 文件系统和r d b 数据库系统,即i b m大型 机上mv s 操作系统下的d b 2 e ( 4 ) mi x u i m

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论