




已阅读5页,还剩70页未读, 继续免费阅读
(计算机软件与理论专业论文)基于异构数据库复制技术的信息整合框架的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着信息产业的发展,信息整合成为目前软件业的新趋势。越来越多的行业 部门开始计划并实施本部门的信息整合系统,尤其是高校,对信息整合的需求最 高,由此信息整合已成为当今最具需求的应用之一。 本文根据对信息整合理论,信息整合方案的深入理解和对比,发现采用新 兴技术,即数据复制技术,能够缩短信息整合系统的开发周期,提高信息整合 系统的运行效率。虽然许多行业部门都存在着对这方面建设的需求,但是这种 基于复制技术实现信息整合的方法缺少理论上的研究,在具体系统实现时没有 现成框架可以参考,造成系统实现困难,开发周期长的弊端。因此本文进而对 数据库复制技术进行了深入研究,综合各种复制技术解决方案,总结出了建立 异构数据库复制过程的基本框架,并详细描述了其实现的关键技术。 在深入研究了信息整合。数据复制技术后,本文将两者进行结合,给出了 通用的、基于异构数据库复制技术的、信息整合框架,具体说明了该框架的层 次特征、模块实现、并总结了该框架的特点,为基于异构数据库复制技术信息 整合系统的建立,提供了有价值的参考。为了证明本文提出框架的可行性,本 文结合应用实例,验证了该框架的正确性。通过对实际项目的系统描述,各模 块的流程分析,使该框架的实现有了具体化的载体,并为框架的推广提供了应 用基础。 最后,本文总结了课题的研究成果,阐明了将来的研究方向。根据本文的 研究表明,本文提出的基于异构数据库复制技术的信息整合框架具有很好的实 用价值。 关键宇: 信息整合;数据复制:异构数据库复制 摘要 a b s t r a c t w i t ht h ed e v e l o p m e n to fi n f o r m a t i o nt o c h n o l o g y , i n f o r m a t i o ni n t e g r a t i o nh a s b e c o m et h en e wt e n d e n c yo fs o f t w a r ei n d u s t r y m o r ea n dm o r ei n d u s t r yd e p a r t m e n t s s t a r tt op l a na n dd e v e l o pi n f o r m a t i o ni n t e g r a t i o ns y s t e m sf o rt h e m s e l v e s e s p e c i a l l y i nu n i v e r s i t i e s ,t h e r ea r et h eh i g h e s td e m a n d so fi n f o r m a t i o ni n t e g r a t i o n t h u si tc a n b es e e nt h a ti n f o r m a t i o ni n t e g r a t i o nh a sb e c o m eo n eo fa p p l i c a t i o n so nu r g e n t d e m a n d a c c o r d i n gt oa l li n - d e p t hu n d e m t a n d i n go fi n f o r m a t i o ni n t e g r a t i o nt h e o r i e sa n d ac o m p a r eo fa l lk i n d so fs o l u t i o nm e t h o d s ,w ef i n dt h a tt h ed e v e l o p m e n tc i r c l eo f i n f o r m a t i o ni n t e g r a t i o nc a l lb er e d u c e dg r e a t l yb yu s i n gt h ed a t a b a s er e p l i c a t i o n t e c h n o l o g y , a tt h es a m et i m et h eo p e r a t i o ne f f i c i e n c yo fs y s t e mc a r lb ei m p r o v e d a l t h o u g ht h e r ei sag r e a td e m a n do ft h i si n f o r m a t i o ni n t e g r a t i o nm e t h o db a s e do n d a t a b a s er e p l i c a t i o n ,i t st h e o r yr e s e a r c hi sl a c k i n ga n dt h a ti nac o n c r e t es y s t e m i m p l e m e n t a t i o nt h e r ea r ef e wf r a m e w o r k st h a tc a l lb er e f e r r e dt o a l lo f t h e s ec a u s e s y s t e mr e a l i z a t i o nd i f f i c u l t ya n dl o n gd e v e l o p m e n tc y c l e t h i sd i s s e r t a t i o nm a k e sa t h o r o u g hr e s e a r c ho nt h ed a t a b a s er e p l i c a t i o nt e c h n o l o g y w eh a v es y n t h e s i z e de a c h k i n do f d a t a b a s er e p l i c a t i o nt e c h n o l o g ys o l u t i o na n ds u m m a r i z e dt h eb a s ef r a m e w o r k o fc r e a t i n gh e t e r o g e n e o u sd a t a b a s er e p l i c a t i o np r o c e s s ,m o r e o v e rd e s c r i b e dt h e c o r r e s p o n d i n gt e c h n o l o g i e si nd e t a i l b yt h ei n - d e p t hr e s e a r c ho ni n f o r m a t i o ni n t e g r a t i o na n dd a t a b a s er e p l i c a t i o n , t h ed i s s e r t a t i o nc o m b i n e st h et w ot e c h n o l o g i e sa n dp r o p o s e sag e n e r a li n f o r m a t i o n i n t e g r a t i o nf r a m e w o r kb a s e do nh e t e r o g e n e o u sd a t a b a s er e p l i c a t i o nt e c h n o l o g y i n a d d i t i o nt h el e v e lc h a r a c t e r sa n dm o d u l ei m p l e m e n t a t i o n so ft h i sf r a m e w o r ka r e e x p l a i n e d f m a l l yw es u m m a r i z et h ef r a m e w o r k s c h a r a c t e r i s t i c sa n dp r o v i d ea v a l u a b l er e f e r e n c ef o rt h ec o n s t r u c t i o no f t h i sk i n do f s y s t e mb a s e do nh e t e r o g e n e o u s d a t a b a s er e p l i c a t i o nt e c h n o l o g y i no r d e rt op r o v et h ef e a s i b i l i t yo fp r o p o s e d i n f o r m a t i o ni n t e g r a t i o nf r a m e w o r k , w eu s e da p p l i c a t i o ne x a m p l e st od e m o n s t r a t et h e i l i 北京工业大学工学硕士学位论文 v a l i d i t yo ft h i sf r a m e w o r k t h r o u g has y s t e m i cd e s c r i p t i o no fa c t u a la p p l i c a t i o na n d ad e t a i l e da n a l y s i so fe a c hm o d u l e sf l o w , w eo b t a i nac o n c r e t ec a r r i e ro ft h e f r a m e w o r ki m p l e m e n t a t i o n a n da l s o ,t h ea p p l i c a t i o nf o u n d a t i o nf o rp o p u l a r i z i n g t h i sf r a m e w o r ki sp r o v i d e d f i n a l l y , t h ed i s s e r t a t i o ns u m m a r i z e so u rm a i nr e s e a r c ha c h i e v e m e n t sa n d f o r e c a s t so u rw o r ki nt h ef u t u r e o u rr e s e a r c h e ss h o wt h a tt h ei n f o r m a t i o ni n t e g r a t i o n f r a m e w o r kw ep r o p o s e di sw o r t h yi np r a c t i c e k e y w o r d s :i n f o r m a t i o ni n t e g r a t i o n ;d a t a b a s er e p l i c a t i o n ; h e t e r o g e n e o u sd a t a b a s er e p l i c a t i o n 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名:蕉监。 日期:趔班芏咀 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名: 蕉篮 导师签名:茎五日期:丝盘篁目 第1 章绪论 1 1 课题研究背景 第1 章绪论 随着信息化建设的不断发展,各个地区和部门各自为政,围绕局部业务工 作,开发或引进了一个个应用信息系统。这些系统,由于针对不同的技术环境 和特殊要求,而采用不同解决方案进行开发,一般没有统一的规划和技术标准, 彼此分离独立,互操作困难,不考虑信息资源共享问题,导致“信息孤岛【1 】” 不断出现。然而,企业决策支持系统等全局应用都要求对这些异构系统的信息 进行决策服务,发挥信息资源应有的作用。再者,现阶段由于我国信息化教育 的深度和广度不够,在很多地方普遍存在着“重硬件轻软件、重网络轻数据、 重新建轻整合”的认识误区【2 】。没有用心去进行信息资源的开发与利用,因而 导致旧的“信息孤岛”问题没有消除,新的“信息孤岛”又不断产生,使其长 期存在而得不到解决。这已经成为我国信息化建设进一步发展的最大障碍,目 前急需解决这些问题,并提出有效的信息处理手段,科学的进行信息综合集成, 从而减少“信息孤岛”,充分利用各个孤岛的信息资源,将我国信息化建设上升 一个台阶。 当“信息孤岛”带来的问题逐渐浮上水面,不得不引起业内人士认真对待 的时候,信息整合的概念出现了,并在短时间内迅速成为了国内外软件业的新 趋势【3 l 。随后,刮起了软件业的信息整合风,一时间出现了多种信息整合解决 方案,例如:t s i m m i s 系统 4 1 ,o m n i l i n k n 系统等等。这些系统从不同角度出 发,以不同方式解决了信息整合。虽然存在着众多的信息整合解决方案,但是 在特殊的后面存在着共性,那就是任何一种信息整合方案的实现,依赖于数据迁 移,数据转换采用的技术。良好的数据迁移,数据转换技术,可以有效地屏蔽 异构系统带来的困难,缩短信息整合系统的开发周期,提高信息整合系统的整 体运行效率。 数据复制技术是目前公认的,效率较高的,容易实现的,保证数据一致性 的,数据迁移、转换技术嘲。利用数据复制技术,可以将大量异构性信息转换 北京工业大学工学硕士学位论文 皇皇墨曼曹奠量量自自甚i i i 曩蔓舞量量舅鼍皇奠皇量量墨舅篁置量量喜冀葛曼皇舅舅苎! ! 曼 成同构性信息,在数据层面保证数据的一致性。如果把数据复制技术应用到信 息整合系统当中,将会提高整个信息整合系统的可靠性和响应速度,同时在数 据层面保证信息整合的数据基础。由于数据复制技术进入我国的时间较短,有 很多相关的问题还处在研究阶段,所以国内研究界对这种基于数据复制技术实 现信息整合的研究还很欠缺,需要进一步工作的地方还很多。 1 2 本课题研究的理论和实际意义 系统异构在现在和将来都是客观存在的,信息系统整合的目标是在充分利 用已有系统并尽量保持其自治性的前提下,构造和谐统一、可用性强和高度互操 作的新系统。它包括运行支撑环境集成、信息集成、功能集成、应用集成以及 人和组织的集成等多个层次i ”。其中信息集成的意义最为重大,它实现了信息的 正确及时传输,是推进信息化最重要的因素。以下如果没有特殊说明,本文中的 信息整合特指数据级整合,即信息集成,是指将业务应用系统的信息数据进行 有机的整合集成而实现对信息数据共享的过程【8 1 。也就是把分散在不同信息系 统、不同数据存储平台中的各种应用数据进行筛选、抽取、清理和必要的转换 后,把结果数据集中起来,进行共享操作并建立相应的内在数据关联,以便在 这种综合数据基础上实施各种信息化建设的过程。 数据复制技术是指将同一数据对象的多个副本放置在不同数据节点并维 护其一致性的方法,是实现数据迁移和转换的重要技术,在异构分布式环境中 采用复制技术可以提高系统可用性和可靠性【9 1 。本文主要涉及的异构数据库复 制技术是数据复制技术的特例,主要解决异构数据库之间的数据复制问题。采 用异构数据库复制技术,可以将远程数据迁移至本地,同时屏蔽异构性,转换 数据适合本地处理的要求,并保持数据一致性,利用适当的数据冗余使本地数 据读取代替远程数据访问,从而降低网络传输开销和缩短响应时间,并且在节 点和通信发生故障时保证系统依然正常运行 1 0 1 。 基于异构数据库复制技术的信息整合,就是信息整合概念与异构数据库复 制技术这两者的结合。其基本思想是以异构数据库复制技术为基础,为信息整 合系统提供稳定、一致、统一的数据环境,使信息整合系统实现时不必考虑太 第1 章绪论 多的异构性问题,只在同构数据上进行系统实现。目前在这个领域已经有了一 些研究,其中一些成果也在实际中被应用并取得相当成效,但是由于对两个领 域结合的紧迫性和复杂性的重视程度不够,对其进行的研究还处于探索阶段, 需要进一步探讨,摸索的地方还很多。 作者在参加重大工程项目数字工大综合信息库系统时就深刻体会到该系统 实现的复杂性。数字工大综合信息库系统用于整合北京工业大学目前所有子系 统,这些子系统分布在各个部门,采用的数据库d b m s 类型不一致,当该系统 实现后,各子系统仍具有自治性。根据上述系统需求与客观现状,考虑采用异 构数据库复制技术实现信息整合系统:将这些子系统中的数据复制到中央数据 库中,根据复制到中央数据库的副本数据实现信息数据的有效整合。在系统设 计初期,由于没有可供参考的实例,可供模拟的框架系统,使得系统设计曾一 度停滞不前,这促使作者下决心提出一种基于异构数据库复制技术的信息整合 框架,给以后类似系统设计时提供一个参考,为信息整合方案的研究贡献一份 自己的力量。 综上所述,无论从理论研究还是实际应用角度,对这种基于异构数据库复 制技术信息整合框架的研究,都具有非常重要的意义。 1 3 主要研究内容 本文的研究内容主要包括下面三个方面: ( 1 ) 异构数据库复制实现方式、技术的归纳和总结。异构数据库复制技术, 是本文所提出的信息整合框架重要的实现技术基础,所以对其进行了详细地分 析总结,将其涉及的理论知识进行了简要阐述。通过分析和比较关键的实现方 法和技术,给出了异构数据库复制过程建立应该包含的模块及流程图解,并详 细说明了其系统设计的一般流程。 ( 2 ) 在介绍并分析了目前信息整合的现状及相关概念后,对多种信息整合 解决方案进行了综合比较,并进行了归纳总结,依据异构数据库复制技术的实 现方式,提出了具有通用性的,基于异构数据库复制的信息整合框架。这也是 本文的主要研究内容。通过对信息整合和异构数据库复制两项技术的深入探讨, 3 北京工业大学工学硕士学位论文 并结合二者的优点,设计出了该信息整合框架。同时给出了该信息整合框架实 现的详细描述,具体说明了该框架的层次特征,模块实现,并总结了其功能实 现特点,为基于异构数据库复制的信息整合的发展提供了有价值的参考。 ( 3 ) 为了证明本文提出框架的可行性,作者参与了数字工大综合信息库系 统的设计与实现,主要工作包括:设计系统的整体架构,设计系统内各个功能 子系统的接口,设计并实现了该系统的关键功能子系统子系统注册系统, 该功能子系统是实现信息整合的关键,目的是将物理分散的数据有机地整合到 中央库中。在设计系统的整体架构时,将该框架的设计思想融入到具体设计中, 在层次上进行了限定划分,在功能上设计了所应包含的功能子系统,根据框架 说明得出了各个功能子系统的接口设计,最后根据本文给出的异构数据库复制 框架设计了予系统注册的数据复制模块,数据映射模块,数据转储模块。 1 4 本文的组织 本文共分为五章,文章的结构安排如下: 第1 章为“绪论”,阐明了本研究课题的产生背景、概述了研究课题涉及的 理论知识与实际意义,表明了本文主要的研究内容,介绍了文章的组织结构。 第2 章为“信息整合技术及解决方案”,先是介绍了信息整合的技术背景和 相关概念,目标,原则。然后通过对国内外信息整合项目的详细说明,总结了 其方法和技术,最后进行了综合比较分析。 第3 章为“异构数据库复制技术及解决方案”,首先简要介绍了复制技术的 相关概念,现状。其次对异构数据库复制技术实现的关键方法和技术进行了归 纳和总结,提出了异构数据库复制实现的基本框架,并对其进行了详尽说明, 比较了所包含模块的各种实现方式。 第4 章为“基于异构数据库复制技术信息整合的框架研究”,主要是将信息 整合与异构数据库复制技术两者结合,设计出基于异构数据库复制信息整合的 实现框架,并对该框架进行了详尽的描述,给出了其实现的基本条件。通过层 次划分,模块阐述,使该框架更易于理解接受。最后说明了该信息整合框架的 实现技术和功能特点。 4 第1 章绪论 第5 章为“应用研究”,详细介绍了北京工业大学综合信息库系统的设计与 实现,主要给出了异构数据库复制的实现设计,通过对实例的描述,证明本文 提出通用框架的可行性。 本文最后对本课题的研究内容进行了总结,并阐明了对进一步工作的构想 及前景展望。 第2 章信息整合技术及解决方案 第2 章信息整合技术及解决方案 2 1 信息整合概述 2 1 1 技术背景 随着计算机技术和互联网的发展和普及,人类社会正面临着呈指数级增长 的信息“爆炸”。信息已经成为人类社会工作和生活中最普遍的应用。在互联 网上每时每刻都有大量的信息被发布、传播和使用。二十一世纪,整个社会早 已经成为信息的社会。 由此信息管理也在近几年发展起来,各个企业先后建立了自己的信息管理 体系和系统,针对自己的不同需求进行了各自不同的信息管理系统的开发( 如 e r p 系统、c r m 系统、办公自动化系统、人力资源管理系统等等) 。但是,随 着企业信息化建设的不断深入,形成了越来越多的信息孤岛,这些孤立的信息 化系统越来越难以适应企业业务的发展需要,企业越来越多地需要对不同信息 化系统中的各种信息进行相关的综合分析、整理,以便为企业提供更高层的信 息汇总、业务指导等等。 目前很多企业部门都会面临这样的问题: 1 ) 信息不能完全共享,从而形成多个信息孤岛 2 ) 数据存在多个入口,一致性和准确性难以保证 3 ) 数据离散,难以进行宏观的数据挖掘和分析 4 ) 多个系统之间的互联互通和一站式服务无法实现 所有这些情况都表明,企业在海量数据、信息积累、信息利用等各个方面 都面临着严峻的挑战。我们急需信息整合,以解决信息管理的根本问题,才能 更进一步推动信息化的发展,更有效地利用到已有的e r p 、c r m 、s c m 等其 它应用系统,更妥善地为各个业务发展服务。这样才可以从大量的企业历史数 据和信息中迅速找到所需要的数据,可以从多个角度、多个条件、多个领域去 搜索,去挖掘,去整理,并从这些搜索结果中发现别人所难以企及的商机。因 北京工业大学工学硕士学位论文 此,“信息整合”成为了全球i t 企业的新潮流,新趋向,“整合”已经成为近来 信息化建设中最强烈的要求。 信息整合是企业信息技术应用的个重要领域,今天,信息整合的内涵已 经远远超过了简单数据共享的范畴【1 1 1 。几乎所有新兴技术的应用,包括分布式 数据库技术、数据仓库技术、电子商务、企业过程重组及知识管理等等,都与 信息整合有着密切的联系。信息整合事实上已经成为现代企业提升信息技术平 台和实现战略性资源重组的重要基础。信息整合的质量和效率不仅直接影响企 业信息技术应用层次和水平,也关系到企业经营战略实施能力和市场竞争力。 2 1 2 信息整合相关概念 信息管理:主要是对企业中所有的信息资源( 包括数据库、文档、企业政 策方针、过程手续等,甚至包括存在于员工头脑中的工作经验与专业技能等非 具体化的信息资源) 进行收集、组织、共享、分析等,从而谋求更大应用目标 的综合研究学科。信息管理包括对企业内部的资源进行明晰化、系统化的管理, 以及组织、传递、利用和开发这些信息的过程z l 。 信息孤岛:由于大多数应用系统之间普遍缺乏标准化的数据接口定义,而 导致不同的应用系统之间必然会产生彼此隔离的状况,我们称之为信息孤岛。 也就是各行业、各部门的信息系统各自开发建设,没有统一的标准,根本达不到 共享和交互,无法实现跨部门问的应用和综合决策的状况 1 3 。 信息整合:本文涉及的信息整合概念是将业务应用系统的信息数据进行有 机的整合集成而实现对信息数据共享的过程。也就是把分散在不同信息系统、 不同数据存储平台中的各种应用数据进行筛选、抽取、清理和必要的转换后, 把结果数据集中起来,进行共享操作并建立相应的内在数据关联,以便在这种 综合数据基础上实施各种信息化建设的过程【1 4 1 。 信息整合服务是2 1 世纪信息服务的发展趋势,每一个信息整合服务都对应 着一个信息整合系统。信息整合系统向用户提供整合工具,帮助用户从已有的、 异构的、分布的信息源中获取信息,用户就像使用单一的信息系统或信息源一 样,而不必理会系统或信息源的分布性和异构性。 第2 章信息整合技术及解决方案 2 1 3 信息整合的目标 信息整合的目的是为综合应用系统提供集成的、统一的、安全的、快捷的 信息查询、数据挖掘和决策支持服务1 5 】。信息整合必须保证数据的集成性、完 整性、一致性。 1 ) 集成性 各种原先孤立的业务信息系统数据经过整合后,查询一个综合信息不必再 到各个业务系统进行人工处理,只要对整合后的数据信息进行直接访问即可。 2 ) 完整性 包括数据完整性和约束完整性两方面。数据完整性是指完整地提取数据本 身;约束是指数据与数据之间的关联关系,是唯一表征数据间逻辑的特征。保 证约束的完整性是良好的数据发布和交换的前提,可以方便数据处理过程,提 高效率。 3 ) 一致性 不同业务信息资源之间存在着语义上的区别。这些语义上的不同会引起各 种不完整甚至错误信息的产生,从简单的名字语义冲突( 不同的名字代表相同 的概念) ,到复杂的结构语义冲突( 不同的模型表达同样的信息) 。语义冲突会 带来数据整合结果的冗余,干扰数据处理、发布和交换。整合后的数据根据一 定的数据转换模式和商业规则进行统一数据结构和字段语义编码转换从而保证 了数据的一致性。 2 1 4 信息整合的原则 1 ) 开放性 信息整合系统软硬件平台、通信接口、软件开发工具、网络结构的选择要 遵循工业标准,这是关系到系统生命周期的重要问题。一个整合的信息系统必 然是一个开放的信息系统。只有开放的系统才可能满足可互操作性、可移植性 以及可伸缩性的要求,才可能与另一个标准兼容的系统实现“无缝”的互操作, 应用程序才可能由一种系统移植到另一种系统,不断为系统的扩展、升级创造 9 北京工业大学工学硕士学位论文 条件。 2 ) 结构化 复杂系统设计的最基本方法依然是结构化系统分析设计方法。把一个复杂 系统分解成相对独立和简单的子系统,每一个子系统又分解成更简单的模块, 这样自顶向下逐层模块化分解,直到底层每一个模块都能被具体说明、可执行 为止。 3 】先进性 系统先进性贯穿在系统开发的整个生命周期,乃至整个系统生存周期的各 个环节。系统的先进性是建立在技术先进性之上的,只有先进的技术才有较强 的发展生命力,系统拥有先进的技术才能确保系统的优势和较长的生存周期。 4 ) 主流化 系统设计的每个产品应属于该产品的主流,有可靠的技术支持,有成熟的 使用环境,并具有良好的升级发展势头。 5 ) 安全性 信息整合系统的特点是信息和用户都具有分布性,用户及其权限又具有多 样性,可能会有未经授权的用户非法访问系统甚至破坏系统,还可能会有授权 用户访问权限以外的数据,所以在信息整合系统中,安全性是必须考虑的一个 至关重要的因素。 2 2 信息整合技术概述与比较 在对信息整合的方法和技术进行介绍之前,首先我们了解一下国内外信息 整合的研究项目 2 2 1 国内外信息整合项目简介 国外开展信息整合的研究较早,著名的信息整合项目有i n f o b u s 、t s i m m i s 、 m 、i n f o s l e u t h 和a e n tr a i d e r 等。 近年来国内的研究机构也开始了对信息蘸合的研究,如暨南大学信息网络 第2 章信息整合技术及解决方案 工程研究中心的异构数据库信息集成系统o m n i l i n k 等。 2 2 1 1o m n l l in k o m n i l i n k 是暨南大学信息网络工程研究中心开发的基于异构数据库整合的 中间件系统。把异构数据库数据集成模块从开发应用系统过程中独立出来,是 为了简化应用系统的开发使系统开发人员从复杂的数据中摆脱出来可以集中精 力于系统功能的设计上。 其逻辑结构如图2 1 所示: 图2 1o m n i l i n k 逻辑结构图 f i g u r e2 - 1l o g i cs t r u c t u r eo fo m n i l i n k 2212ln f o b u s i n f o b u s fi n f o r m a t i o nb u s ) 是斯坦福大学开发的数字图书馆项目。该项目的 重点是提供一个能够支持异构的、自治的构件间互操作的基础结构,这一结构 很像可以支持分散硬件部件间互操作的计算机硬件总线结构,其体系结构如图 2 2 所示。 北京工业大学工学硕士学位论文 知吐d 睢i l 一 巨型 r , 申 审1 、 。啕自由由由一 备注:i b s - i n f c i r b u ss e r v i c e ;i s - i n f o r m a t i o ns o u r c e ; i p s - i n f o r m a t i o np r o c e s s i n gs e r v i c e 图2 - 2i n f o b u s 体系结构 f i g u r e2 2i n f o b u sa r c h i t e c t u r e i n f o b u s 采用了基于c o r b a 的体系结构,可以灵活地添加信息源,并可以 实现分布服务间的互操作,实现比较简单,但是在信息整合的层次上较低,不 能解决信息源语义异构的问题。 22 1 3t s l m mj s t s i m m i s ( t h es t a n f o r d - i b mm a n a g e ro fm u l t i p l ei n f o r m a t i o ns o u r c e s ) 是 一个由斯坦福大学与i b m 联合开发的信息整合系统,其目的是为( 包括结构化和 半结构化的) 异构信息源的快速集成开发提供所需工具。它提供了一个框架和一 组工具以帮助用户开展他们的集成活动,其体系结构如图2 3 。 第2 章信息整合技术及解决方案 图2 3t s l m m i s 体系结构 f i g u r e2 3t s i m m i sa r c h i t e c t u e 在t s l m m l s 中,最重要的是两类组件:包装器( w r a p p e r ) 和中间件 ( m e d i a t o r ) 。 2 2 1 4l m i m ( i n f o r m a t i o nm a n i f o l d ) 是a t & t 贝尔实验室的项目。i m 对信息源采用说明 性描述,利用运算法则为给定查询生成可执行的查询规划。i m 己被应用于集成 1 0 0 多个不同的w e b 信息源。其体系结构如图2 - 4 。 臣固臣司匪三j 匹三 图2 - 4i m 体系结构 f i g u r e2 - 4i ma r c h i t e c t u r e 北京工业大学工学硕士学位论文 2 2 1 5n f os le u t h i n f os l e u t h 是m c c ( m i c r o e i e c t r o n i c sa n dc o m p u t e rt e c h n o l o g y c o r p o r a t i o n ) 的一项科研项目,采用了多a g e n t l 幂j 体系结构。该体系结构由一组 可以互相通信的a g e n t 构成,每一个a g e n t 负责系统某一方面的功能,a g e n t 之 间可以通过k q m l ( k n o w l e d g eq u e r ym a n i p u l a t i o nl a n g u a g e ) 进行通信。体系 结构如图2 5 所示。 t e x t f k o o u 憎 图2 5i n f os l e u t h 体系结构 f i g u r e2 - 5i n f os l e u t ha m h i t e c t u r e 2 216a g e n tr a i d e r a g e n tr a i d e r ( a g e n tf o rr e t r i e v a la n da n a l y s i so fi n f o r m a t i o ni n d i s t r i b u t e de n v i r o n m e n t ) 是德克萨斯技术大学的科研项目,旨在实现分布异构 环境中信息的智能检索。该项目提出了分布异构信息智能检索系统的一般结构, 系统体系结构如图2 6 所示。 第2 章信息整合技术及解决方案 图2 - 6a g e n tr a i d e r 体系结构 f i g u r e2 - 6a g e n tr a i d e ra r c h i t e c t u r e 2 2 2 信息整合方法概述 通过分析上面所描述的各个信息整合项目的解决方案,可以看出其中大部分 信息整合解决方案是在数据库设计环境中实现的,其重点在于所谓的模式整合 ( m o d e li n t e g r a t i o n ) ,也就是先从各子模式开始,为数据库应用设计一个全局 的、一致的模式,各个子模式仍保持彼此独立 。其中信息整合的研究主要集中 于通过在整合过程中考虑真正的数据源来总结归纳模式整合,提供集成一致的数 据视图,方便数据操作。 北京工业丈学工学硕士学位论文 一般来说,数据通过两种方式进行整合:虚拟化方式和具体化方式。 在虚拟( v i r t u a l ) 情况下,艇合系统充当用户和信息源之间的接口。这是多数 据库、分布式数据库等开放系统的特点,例如联邦数据库系统。在处理查询时, 由于需要访问数据源,所以响应查询一般比较费时。 在具体化( m a t e r i a l i z e d ) 情况下,系统需要维护一个与信息源中数据一致的数 据副本。这种情况下,查询不再需要访问源数据,所以响应查询一般比较快捷, 但维护具体的数据副本代价较高,特别当数据源更新时必须要相应地更新副本。 目前分布式异构数据库的信息整合方式主要有两种:结构化方法和语义化 方法【1 8 】。 结构化方法的主要特点是实现比较简单、信息源相对比较固定。其缺点是 扩展性差,不提供语义级检索。 语义化方法的主要特点是扩展性好、适应动态信息源、支持语义级查询, 缺点是实现比较复杂【1 9 1 。 2 2 3 信息整合技术简介 2 2 3 1 异构数据库的整合 异构数据库整合主要有多数据库语言系统和模式整合系统两种方案【2 0 1 。 多数据库语言系统,提供了统一的多数据库操作语言和公共接口用以访问 成员数据库,备成员数据库高度自治,但没有解决语义异构和实现存取定位透 明,用户必须指明所要访问的数据库,数据库之间的约束或依赖关系也必须由 用户和应用程序负责定义和维护。多数据库语言系统比较适合于集成少量数据 库环境。 模式整合系统,提供了一个全局模式,使客户可以透明地访问各成员数据 库,成员数据库仍保持较高的自治性。模式整合系统比较适合于集成大量数据 库或者要求高的存取透明度。 2 2 3 2 基于中间件的信息系统 随着信息技术在各行业的广泛应用,人们迫切需要整合大量半结构化或非结 构化数据源中的信息,并要求系统具有可扩展性,以便集成新增数据源。因此 第2 章信息整合技术及解决方案 提出了基于中间件的信息系统mb i s ( m e d i a t o r b a s e di n f o r m a t i o ns y s t e m s ) 。 m b i s 的系统体系结构如图2 7 所示,通过在中间件( m e d i a t o r ) 年1 包装器 ( w r a p p e r ) 之间分割处理任务,可以提高查询处理的并发性,减少响应时间。 表示理 包袭腰 图2 7m b i s 的体系结构 f i g u r e2 - 7m b i sa r c h i t e c t u r e 包装器对特定数据源进行封装,将其数据模型转换为系统所采用的通用数 据模型,作为其输出模式,并提供一致的访问机制。 该系统侧重于全局查询处理和优化,有一个使用通用数据模型描述的全局 模式。它通过调用包装器或其它中间件来集成数据源中的信息,解决数据冗余 和不一致性,提供一致协调的数据视图和统一的查询语言。 2 2 3 3 分析与比较 上面提及的方法与技术各有优缺点及其适用的范围: 多数据库语言系统实现与处理简单、高效,读写能力强,但其低透明度增 加了用户或全局应用的负担,且容易产生数据的不一致性。 模式整合系统具有很高的访问透明性以及较强的读写能力和一致性控制, 使用方便,但全局模式的形成和异构性的解决比较复杂,局部模式的更改通常 导致新的模式整合过程。 m b i s 可以集成范围广泛的数据源信息,且高度模块化和分布化,系统实现 灵活、重用性和扩展性强,但仅支持只读查询。 通过上面的描述可以看到,目前急需发展一种不同的技术解决方法来解决 北京工业大学工学硕士学位论文 异构数据的整合问题,这种有待发展的技术解决方案将可以继承上述方法的优 点,摒弃上述方法的缺点,将信息整合系统的运行效率和运行结果进行一定程 度的提升。下面本文就对这种待发展的技术解决方案进行详细的说明。 2 3 比较与分析 从技术的角度来看,信息整合就是要解决如何实现全局的数据存储和数据 访问。经过上面两节对信息整合的详细描述、具体说明,可以分析得出目前信 息整合的实现有两种主要的实现模式:集中式模式和分布式模式。 在集中式模式下,企业数据集中存储在中央服务器,各地通过远程从中央 服务器上获取数据,完成相应操作。其主要特点是:数据集中存储,易于管理 和维护,系统安全性能高,各地终端通过远程实时联网,中央服务器可以对各 个终端进行监控和管理。集中式模式的主要局限在于各个终端独立运行处理能 力差,所有运行过程和查询执行均在中央服务器上进行,对中央服务器的性能 有较高的要求,在通信线路不稳定或终端较多的时候,系统运行速度低,通信 费用较高。 在分布式模式下,数据分别存储在中央服务器和各个终端,各个终端平时 在本地完成相应操作,然后定期通过远程通信线路传送数据,更掰中央服务器 的数据库,实现数据的同步。主要特点是数据分布存储,独立性强,既能减轻 中央服务器的负担,又有较强的独立自主性;各个终端定期与中央服务器连接 进行数据传送,通信费用相对低廉。但是分布式模式中每次新数据更新都需要 传送全部整套数据,数据传送量大,费时费力。 针对上述两种模式的不足,一种新型的数据存储管理模式应运而生,这就 是复制模式。复制模式实际上也是一种分布模式,其主要特征在于网络节点中 存在多个数据副本。 在复制模式中数据分别存储在中央服务器和各个终端,和分布式管理一样, 实现了数据的分布存储,分部可以独立运行管理,享有较高的独立性,系统不 需要实时联网,降低了通信费用。数据复制是多个独立数据库之间的一种数据 共享技术,当其中某一个数据库发生变化,复制系统会将这个发生变化的数据 第2 章信息整合技术及解决方案 库整个复制给其他一个或多个数据库,保持数据一致。对信息整合系统来说, 复制模式在实现分布存储的同时,又提高了数据的同步性能,加强了数据的集 中管理,既能满足远程管理的需要又降低了费用。 近年来,复制技术研究与应用取得了很大的进展,技术日臻完美,应用领 域日益广泛,复制技术己成为分布式数据库应用的重要支持技术。目前,国际 上主流数据库管理系统,如o r a c l e 、旧md b 2 、m i c r o s o f ts q ls e r v e r 和i n f o r m i x 等,都能提供基于复制技术的分布式数据库应用解决方案。但是尽管如此,由 于复制技术研究和应用起步相对比较晚,国内外基于复制技术实现信息整合的 应用实例尚不多见。见于国外文献资料的诸如s e a - l a n ds e r v i c ei n c 、 e p l u sm o b i l f u n kg m b h 以及n o r t h w e s ta i r l i n e s 等应用,总的来 说系统规模不大,应用相对简单,而国内目前也主要将复制技术应用于信息发 布和数据备份等方面。 因此,有必要将数据库复制和信息整合两者结合起来,深入研究和探讨基 于异构数据库复制技术的信息蕤合方案的设计与实现。 2 4 本章小结 本章主要对信息整合及其解决方案进行了详细的介绍,目的是使读者对信 息整合进行了解和认识。其中分别对信息整合的背景、概念、目标、整合原则 进行了概要介绍,又对国内外信息整合项目进行了概要描述,总结了其中主要 的实现方式,并对信息整合的方法和技术进行了详细的介绍。最后,对信息整 合技术和解决方案进行了简要的分析和比较,提出了基于数据库复制技术的信 息整合解决方案是目前的发展趋势,并指出了对该方案研究的必要性。由于数 据库复制技术是其实现的核心技术,在实现上有一定的复杂性,下面本文将对 数据库复制技术,特别是异构数据库复制技术进行详细的说明。 - 1 9 - 第3 章异构数据库复制技术及解决方案 第3 章异构数据库复制技术及解决方案 随着网络技术的广泛应用,信息技术的蓬勃发展,特别是因特网的普及, 许多企业的跨地域发展有了前所未有的增长,与此同时,为了适应不断增长的 商业竞争环境,许多企业通过不断重组和分散经营来提高效率,形成了分散、 异构的环境特点。但是这些组织在地域上虽然是分散的,在管理上却相对集中, 往往既要有各部门的局部控制和分散管理,也要有整个组织的全局控制和高层 次的协同管理。这种协同管理要求各部门之间的信息既能灵活交流和共享,又 能统一管理和使用。虽然当前的分布式数据库技术已经成熟,并且因计算机成 本的下降以及通信费用的降低而得到了广泛的应用。然而,分布式数据库系统 既要提供局部自治又要实现全局控制,带来了很大的局限性。为此,引入异构 数据库复制机制,异构数据库复制依赖于分布式数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- CAR-T细胞应用-洞察及研究
- 简易船舶租赁合同5篇
- 重庆八中宏帆初级中学校2025年统编版六年级下册小升初考试语文试卷(无答案)
- 山东省济宁市第七中学2024-2025学年六年级上学期第二次学情检测生物试题(含答案)
- 吉林省名校调研2024-2025学年八年级下学期历史期中测试题(无答案)
- 石墨烯瓷砖导电实验-洞察及研究
- 医疗物联网应用研究-洞察及研究
- 避孕套培训课件
- 车险业务员知识课件
- 基于分子印迹技术的2-巯基噻唑靶向递送体系构建难点突破
- 工程结构检测鉴定与加固第1章工程结构检测鉴定与加固概论课件
- 高中心理健康课程《人际关系-寝室篇》课件
- 数字色彩课件
- 一年级上册科学课件-第一单元 走近科学 复习课件-鄂教版(共23张PPT)
- 煤矿现场急救技术
- 电力系统继电保护课程设计报告-三段式距离保护
- 香港永久性居民在内地所生中国籍子女赴香港定居申请表
- 学习的基本理论
- 天津市新版就业、劳动合同登记名册
- 部编人教版五年级上册小学道德与法治 第5课 协商决定班级事务 课件
- GB∕T 31038-2014 高电压柴油发电机组通用技术条件
评论
0/150
提交评论