




已阅读5页,还剩44页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
sti 己i 。j 1 屯 独创性声明 本人郑重声明:所提交的学位论文是本人在导师指导下独立进行研究 工作所取得的成果。据我所知,除了特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写过的研究成果。对本人的研究做出重要贡 献的个人和集体,均已在文中作了明确的说明。本声明的法律结果由本人 承担。 学位论文作者签名: 学位论文使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规 定,即:东北师范大学有权保留并向国家有关部门或机构送交学位论文的 复印件和电子版,允许论文被查阅和借阅。本人授权东:i l n 范大学可以将 学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩 印或其它复制手段保存、汇编本学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:粒 日 期:兰! 丝:垒 学位论文作者毕业后去向: 工作单位: 通讯地址: 电话: 邮编: rfla 囊瞄皿竹 jitfi-li、 摘要 2 0 世纪9 0 年代以来,教育界出现了以信息技术的广泛应用为特征的发展趋势,国 内学者称之为教育信息化。 如今教育的信息化已成为当前教育发展的重点,但是目前教育信息系统的设计不能 完全满足当前教育快速发展的需求。随着教育行政管理信息化业务规模的扩大和系统应 用的深入,越来越被一些问题所困扰,各教育机构的不同部门之间,各级教育机构和学 校间的软件系统都是单兵作战,互不相联,形成一个个的“信息孤岛 。基于这种情形, 本课题提出了通过建设统一数据中心消除“信息孤岛”的解决方案,并给出了具体的设 计思想和实现过程。 本文分析了长春市职业技术学院教育信息化过程中存在的问题及对数据集成的需 求,提出了构建统一数据中心的解决方案。在具体的建设过程中,对数据中心的整体框 架进行了详细的设计;介绍了中心数据库的设计原则和存储模式;提出了一种基于j d b c 的数据抽取和转换思想以及基于时间戳和触发器的数据同步的策略;最后完成了整个系 统的实现,详细介绍了系统的各个模块功能并将系统界面最终呈现给用户。 本文介绍的统一数据中心管理系统已经在长春市职业技术学院的教育信息化建设 过程中得到了应用,并且具有一定的通用、扩展性,对今后的企业和高效的异构数据集 成具有一定的参考价值。 关键字:教育信息化;异构数据集成;数据抽取;数据转换;数据同步 a b s t r a c t s i n c et h e2 0 t hc e n t u r y , 9 0y e a r s ,e d u c a t i o n a lc i r c l e sh a v ee m e r g e dt h ed e v e l o p m e n tt r e n dw h i c hi sc h a r a c t e r i z e d b y t h ee x t e n s i v e a p p l i c a t i o no fi n f o r m a t i o n t e c h n o l o g y ,d o m e s t i cs c h o l a r sc a l l e di tt h ee d u c a t i o n a li n f o r m a t i o n t o d a y , e d u c a t i o n a li n f o r m a t i o nh a sb e c o m et h ef o c u so fe d u c a t i o n a ld e v e l o p m e n t ,b u tt h ed e s i g no fe d u c a t i o n a li n f o r m a t i o ns y s t e m sd on o tm e e tt h ec u r r e n tn e e d so ft h e r a p i dd e v e l o p m e n to fe d u c a t i o n a tp r e s e n t w i t ht h ee x p a n s i o no fb u s i n e s ss c a l eo f i n f o r m a t i o no fe d u c a t i o n a la d m i n i s t r a t i o na n di n d e p t ho fs y s t e m a t i ca p p l i c a t i o n ,t h es o f t w a r e s y s t e m sa m o n gd i f f e r e n ts e c t o r si nv a r i o u se d u c a t i o n a li n s t i t u t i o n s ,e d u c a t i o n a li n s t i t u t i o n s a n ds c h o o l sa ta l ll e v e l sa r ei n t e r - f i g h t i n gs i n g l e - h a n d e d l yf r o me a c ho t h e rt o g e t h e r , f o r m i n ga ”i n f o r m a t i o ni s l a n d s ”b a s e do n t h i sc a s e ,t h et o p i ci s p r o p o s e das o l u t i o no fe l i m i n a t i n gt h e ”i n f o r m a t i o ni s l a n d s ”b y b u i l d i n gau n i f i e dd a t ac e n t e r , a n dg i v e st h es p e c i f i cd e s i g ni d e a sa n di m p l e m e n t a t i o np r o c e s s 7 n i sp a p e ra n a l y z e st h ep r o b l e m si nt h ee d u c a t i o n a li n f o r m a t i o np r o c e s so fc h a n g c h u n i n s t i t u t eo fv o c a t i o n a la n dt e c h n i c a la n dt h ed e m a n df o rd a t ai n t e g r a t i o n ,p r o p o s e sas o l u t i o n 。 t ob u i l dau n i f i e dd a t ac e n t e r i nt h ea c t u a lc o n s t r u c t i o np r o c e s s ,d e s i g n sd e t a i l sf o rt h ed a t a c e n t e r so v e r a l lf r a m e w o r k ;d e s c r i b e st h ed e s i g np r i n c i p l ea n ds t o r a g em o d eo fac e n t r a l d a t a b a s e ;p r o p o s e sa ni d e af o rd a t ae x t r a c t i o na n dt r a n s f o r m a t i o nb a s e do nj d b c a sw e l la sa s t r a t e g yf o rd a t as y n c h r o n i z a t i o nb a s eo n t h et i m e s t a m pa n dt r i g g e r ;f i n a l l yc o m p l e t e st h e i m p l e m e n t a t i o no ft h ew h o l es y s t e m ,i n t r o d u c e sv a r i o u sm o d u l e s f u n c t i o ni nd e t a i la n d s h o w st h ee n d s y s t e mi n t e r f a c e st ot h eu s e r s t h eu n i f i e dd a t ac e n t e rm a n a g e m e n ts y s t e md e s c r i b e di nt h i sa r t i c l eh a sb e e na p p l i e dt o t h ee d u c a t i o ni n f o r m a t i o nc o n s t r u c t i o np r o c e s si n c h a n g c h u ni n s t i t u t eo fv o c a t i o n a la n d t e c h n i c a l ,a n dh a sac e r t a i nd e g r e eo fg e n e r a l i t ya n ds c a l a b i l i t ya n dac e r t a i nr e f e r e n c ev a l u e t of u t u r eh e t e r o g e n e o u sd a t ai n t e g r a t i o na tb u s i n e s s e sa n du n i v e r s i t i e s k e y w o r d s :e d u c a t i o n a li n f o r m a t i o n :h e t e r o g e n e o u sd a t ai n t e g r a t i o n ; d a t ae x t r a c t i o n ;d a t at r a n s f o r m a t i o n ;d a t as y n c h r o n i z a t i o n 、 目录 中文摘要i 英文摘要i i 目录i 第一章、引言1 1 1 研究背景和研究意义1 1 2 发展现状2 1 3 本文的主要内容及结构组织3 第二章、异构数据集成4 2 1 系统集成4 2 1 1 表示集成4 2 1 2 应用集成5 2 1 3 数据集成5 、 2 2 数据集成综述6 2 2 1 数据集成面临的问题6 2 2 2 数据集成方案7 2 2 3 异构数据转换方法1 0 2 2 4 异构数据同步策略1 3 2 3 统一数据中心整体设计的解决方案1 5 第三章、统一数据中心管理系统的设计1 7 3 1 系统概述1 7 3 1 1 系统背景1 7 3 1 2 系统设计思想及设计原则1 7 3 2 系统总体设计1 8 3 2 1 系统目标1 8 3 2 2 中心数据库的选取1 8 3 2 3 系统整体框架设计1 9 3 3 中心数据库的建立2 0 3 3 1 建立统一的信息标准2 0 3 3 2 中心数据库的存储模式2 l 3 3 3 中心数据库的物理结构设计2 2 3 4 业务数据库数据的抽取和转换2 2 3 4 1 数据抽取2 2 3 4 2 数据转换2 3 i i i 3 5 中心数据库与业务数据库的数据同步研究0 0 00 go 2 5 3 5 1 同步概述2 5 3 5 2 同步策略2 6 第四章、统一数据中心管理系统的实现2 9 4 1 系统配置环境2 9 4 1 1 网络环境2 9 4 1 2 服务器端环境2 9 4 1 3 客户端环境2 9 4 2 系统功能实现2 9 4 2 1 系统界面呈现2 9 4 2 2 运行实例3 0 第五章、总结与展望go l 3 6 5 1 全文总结3 6 5 2 下一步工作3 6 参考文献3 7 致谢3 9 攻读硕士期间发表的论文和参与的科研项目4 0 l v 、 东北师范大学硕士学位论文 第一章、引言 1 1 研究背景和研究意义 一、研究背景 本文是以理想信息技术研究院软件工程实验室开发的长春职业学院统一数据中心 管理系统为背景项目,对异构数据库集成技术在教育信息化建设领域的应用做了深入的 探讨和细致的研究。 2 0 世纪9 0 年代以来,教育界出现了以信息技术的广泛应用为特征的发展趋势,国 内学者称之为教育信息化u j 。如今教育的信息化己成为当前教育发展的重点,但是目前 教育信息系统的设计不能完全满足当前教育快速发展的需求。随着教育行政管理信息化 业务规模的扩大和系统应用的深入,越来越被一些问题所困扰,各教育机构的不同部门 之间,各级教育机构和学校间的软件系统都是单兵作战,互不相联,形成一个个的“信 息孤岛 。1 2 j 本文的背景项目“统一数据中心管理系统”,系长春职业技术学院鉴于学校内现有 各教育管理系统中的数据存在形式多样,在教育信息化建设过程中信息资源整合的乏 力,委托理想信息技术研究院为其开发的统一数据中心管理系统。通过统一数据中心的 建设,将原来各个离散的数据源联合起来,建立一个全校的数据平台,在此基础上,各 个部门之间既可以通过该平台直接提供并获取共享数据,又不需改动原有数据库以满足 旧业务的需求,从而解决“信息孤岛的问题。 通过对长春职业技术学院的调研,笔者发现,该校的教育信息化建设以及信息资源 的共享与流通主要存在以下几个方面的问题: 1 学校信息化建设的应用领域不断延伸,已经覆盖了全校教学、办公、人事、科 研、财务与后勤等多项事务。 2 在开发初期,各部门都是根据自身的需求,采用针对各自特点的系统架构、开 发工具以及数据库技术完成各自系统的研发。随着信息化建设的发展,各部门之间的联 系日益紧密,数据共享和流通的需求日益迫切,但由于各部门信息系统之间存在很大差 别,教育信息资源恰恰难以交流与共享,大大阻碍了资源的有效利用。 3 由于缺乏统一的规范标准,学校也无法从各部门提取有效信息来完成学校教育 信息基本数据的收集、交换和应用,如针对学生学号的编码方式,在各部门就存在不一 致的情况。 4 将学校各部门信息系统重新改造,再培训相关工作人员的成本太高、周期太长。 而且,各个部门的信息系统每天都在进行数据采集和加工,都在运行,显然要停止运行 进行统一改造的可能性很小。 正是因为原有各信息系统存在着上述问题,新系统旨在利用异构数据库集成技术建 立一个统一的数据中心,实现校内部门之间信息资源的全面共享,消除由于各部门独立 1 东北师范大学硕士学位论文 理而造成的信息孤岛,促进校园信息资源的流动共享和充分利用。启动数据中心的建 ,统一规范各类数据标准和流程并完善各部门业务系统,逐步构造完整的校园信息环 ,为提高工作效率和管理水平,适应学校教育信息化改革的需要,将打下良好的基础。 文的研究工作就是在这一背景下展开的。 二、研究意义 本文的研究意义主要有下面几点: 1 为进一步数据集成方案的研究提供参考。本文的数据集成解决方案是在借鉴了 有方案的前提下提出的,适用在一定的范围内并具有通用性,可以为新的数据集成方 提供思路和参考。 2 为教育信息化过程中数据集成平台的全面建设提供借鉴。本文的研究是在特点 校信息化建设的实践背景下进行的,充分考虑了校园环境下的系统需求和数据集成特 ,为其它高校的数据集成积累了经验。 3 为某高校的教育信息化建设提供了数据支持。教育信息化的分时分步实施的特 和数据集成的重要地位,决定了本文的研究为该校的教育信息化提供了支持和保障, 快了该高校的信息化、数字化进程,并为日后的应用集成、表示集成奠定了基础。 所以,本文的研究具有一定的现实意义和使用价值。 1 2 发展现状 异构数据集成技术的研究始于二十世纪七十年代中期,至今已有三十多年的发展历 。从一开始的多数据库集成到现在的异构数据源集成,数据集成的范围和作用都在日 扩大。 从体系结构上来看,数据集成的发展大致经历了以下三个阶段【3 】: 1 单个的联邦系统。重点在于使有着不同软硬件设备的计算机系统进行互连和通 ,解决了一定程度上的语法和结构异构,实现了地理分布、数据模式等的透明性。 2 基于组件的分布式集成系统。随着计算机网络技术的迅速发展,出现了一些支持 同类型系统的中间件技术,如p r c 、c o r b a 、r m i 及d c o m 等,利用这些中间件技术可 进行异构数据集成。 3 基于w e b 服务的信息集成系统。在w e b 服务的框架下,使用一组w e b 协议,构建 据集成平台。 从集成的方法上来看,主要的方法有如下三种: 1 联邦数据库法。它提供了一种组织、访问和更新共享信息的逻辑方法,是多个自 的成员数据库系统的集合。它在集成各个应用系统,提供统一、透明的全局操作的同 ,仍能保持各个应用系统局部应用的高度自治。【4 j 2 中间件方法。中间件是一种软件结构,支持视图或虚拟视图集合。它不会存储任 实际数据,在用户提交了一个查询后,经由一系列组件将查询数据转换成一个统一的 范格式,然后将查询结果进行综合处理,汇总并将之返回给用户。【5 】 文献 6 又把以上两种方法统称为虚拟视图法,采用虚拟视图法实现的数据库集成 2 东北师范大学硕士学位论文 系统,不将各数据源的数据集中存放,而是通过一种中介模式( m e d i a t e ds c h e m a ) 将 各数据源的数据集成起来,数据仍存储在原来的局部数据源中,通过各数据源的包装器 对数据进行转换使之符合中介模式。用户的查询在基于中介模式的前提下不必知道每个 数据源的特点,中介器将基于中介模式的查询转换为基于各局部数据源的模式查询,它 的查询执行引擎再通过各数据源的封装器将结果抽取出来,最后由中介器将结果集成并 返回给用户 3 数据仓库法【3 j 。各数据源的数据按照需要的全局模式从各数据源抽取并转换,存 储在某一个数据仓库中。用户的查询就是对数据仓库中的数据进行查询。对于数据源数 目不是很多的单个企业来说,该方法十分有效。 近年来,国内外的各大研究机构及高校也都提出了各自的异构数据集成技术或产 品。国外主要有土耳其中东科技大学的m i n d 系统 7 1 ,i b m 公司的i b md b 2i n f o r m a t i o n i n t e g r a t o r 剐,美国斯坦福大学的t s i m m i s 8 只1 0 j 和i n f o b u s 1 1 】等。国内主要有东北大学 提出的s c o p e c i m s ,东南大学的联邦数据库系统,中国科学院软件研究所设计了 i s - g l o b a l 1 2 j 系统等。 1 3 本文的主要内容及结构组织 本文首先剖析了系统集成的相关概念,进而深入研究了系统集成中异构数据集成面 临的问题和针对问题提出的集成方案,然后基于数据集成的原理提出了一种统一数据中 心设计的解决方案并对其中的详细设计进行了系统的介绍,从而为进一步研究数据集成 的方案提供参考,为教育信息化过程中的数据集成平台建设提供借鉴,也为日后的应用 集成、表示集成奠定了基础。 本文的具体内容如下: 第一章、引言:主要介绍了本文的研究背景,以长春职业技术学院为例,分析了高 校在教育信息资源整合时存在的问题,介绍了异构数据集成技术的发展现状,提出本文 所要解决的问题,最后描述了本文的内容安排。 第二章、异构数据集成的研究:介绍了系统集成的层次,着重研究了系统集成中的 数据集成,包括数据集成面临的问题、数据集成的解决方案、数据集成中的转换及同步 技术,最后针对项目提出了一种数据集成的解决方案。 第三章、统一数据中心的设计:根据用户( 长春市职业技术学院) 对数据中心管理 系统提出的需求,进行需求分析,确定系统的设计思想及设计原则,提出系统的整体框 架设计,在框架下对中心数据库的建立、业务数据库的数据抽取和转换以及数据库之间 的数据同步等技术细节进行了详细的介绍。 第四章、统一数据中心的实现:介绍了统一数据中心管理系统的功能模块,包括 数据中心数据控制模块、数据中心数据采集模块、业务系统数据订阅模块、中心数据安 全管理模块等。并在此基础上展现了部分模块的实现结果。 第五章、总结和展望:对本系统进行全面的总结,说明不足和需要进一步完善之处, 以及表明本系统需要进一步研究的工作。 3 东北师范大学硕士学位论文 第二章、异构数据集成 2 1 系统集成 系统集成( s y s t e mi n t e r g r a t i o n ) 1 3 】是解决“信息孤岛 问题的有效方法之一。 文献 1 3 介绍了系统集成主要包括硬件集成和软件集成两部分,但是笔者认为系统集成 可以分为硬件集成、软件集成和表示集成三部分,它是一个集成的堆栈,栈里的每一层 都为上一层提供服务,并依赖于下一层的集成服务,如图2 - 1 : 表示集成 软件集成 互操作 互通 语用 语义 硬件集成 互连l 网络集成 l 语法 图2 - 1 系统集成堆栈 ( 1 ) 硬件集成位于最底层,是系统集成的基础。它主要包括网络集成,是系统互 连的前提,是语法层次的集成。现有的网络条件已经为硬件集成提供了完善的技术支持 和保障,对此下文就不再赘述。 ( 2 ) 软件集成位于硬件集成之上,又分为应用集成和数据集成,应用集成解决的 是应用的互操作问题,是系统应用集成、系统服务集成,是语用层次的集成;数据集成 解决的是数据的交换和共享问题,是系统数据层、文件层的集成,是语义层次的集成。 数据集成是应用集成的基础,是软件集成中的重中之重。 ( 3 ) 表示集成位于最顶层,主要指用户界面的集成,解决互访问的问题,为用户 提供统一风格的访问界面和为系统提供统一的接口。 2 1 1 表示集成 表示集成,也称为门户集成或用户界面集成,是一个面向用户的集成,是最高层次 的集成。通过提供一个统一的用户界面( 如浏览器) 来代替原来各系统的终端窗口或者p c 的图形界面,从而隐藏不同应用程序的后台实现细节,给用户提供统一的操作平台,实 现高效的协同工作和展示全面而详细的企业信息。 企业门户应用( e n t e r p r i s ep o r t a l ) 是最为通用的、基于复杂界面重组的表示集 4 东北师范大学硕士学位论文 成方案【1 4 】。p o r t a l 作为一种w e b 应用,通常用来提供个性化、单次登录、聚集各个信 息源的内容,并作为信息系统表现层的宿主。将来自各个信息源的内容集成到一个w e b 页面里的活动。p o r t a l 页面有不同的频道( p o r t l e t ) 组为不同的用户创建不同的内容。 一个企业门户可以包含多个企业应用,并将其表现为一个可定制的基于浏览器的界面。 2 1 2 应用集成 应用集成【1 5 j 通过整个组织内用网络连接在一起的应用程序和数据源来实现数据和 业务的自由共享,是利用各种通用技术合并多种应用的一种集成方案。在企业中它被称 为e a i ( e n t e r p r i s ea p p l i c a t i o ni n t e g r a t i o n ) 1 6 j ,e a i 能够将业务流程、应用软件、 硬件和各种标准联合起来,在两个或更多的企业应用系统之间实现无缝集成,使它们像 一个整体一样进行业务处理和信息共享。如今的e a i 已经从企业内部的a 2 a ( a p p l i c a t i o nt oh p p l i c a t i o n ) 集成发展到企业间的b 2 b ( b u s i n e s st ob u s i n e s s ) 集成。 e a i 技术和内容从不同的角度有不同的分类方法,文献 1 6 从广度和深度两个维度 将其概括:在集成的深度上从数据集成、应用系统的集成再到最新的面向过程的集成, 集成的难度和能够取得的效益都是不同的;而在广度上来讲,从最初的部门内集成到部 门间集成,及到今天的企业范围内集成和企业间的集成。不管怎样,企业应用集成的目 的是实现在企业内外任何相连的应用系统和数据源间无限制地分享数据和业务过程。 2 1 3 数据集成 数据集成是运用一定的技术手段将各个独立系统中的数据按一定规则组织成为一 个整体,使得其他系统或者用户能够有效的对数据进行访问的一种集成方案,是现有企 业应用集成解决方案中最普遍的一种形式。 o m g ( o b j e c tm a n a g e m e n tg r o u p ,对象管理组织) 在m o f ( m e t ao b j e c tf a c i l i t y , 元对象设施) 标准中定义了数据集成的四层模型体系结构【1 7 】如图2 - 2 ,对不同层次的集 成有不同的集成方案。层次越高的方案适用范围也越广,但集成的复杂度也越大。 现在大部分的集成方案都是针对信息层和模型层的集成,而元模型层的集成方案是 数据集成新的研究方向。 模型层的集成方案是针对元数据进行的,也叫做模式集成( s c h e m ai n t e g r a tio n 1 8 】) 或虚拟视图方法( v i r t u a lv i e wa p p r o a c h 1 9 】) 。基本思想是在建立集成系统时将各异构 数据源的数据视图集成为全局模式,这样用户可以按照全局模式透明的访问各数据源的 数据。联邦数据库系统和基于中间件的系统是现有的两种主流模式集成方法。信息层的 数据集成则不同于模式集成,它通过将各个数据源的数据复制到一个统一的中心数据源 上来维护数据源整体上的数据一致性,来提高信息共享的效率。这一层次上的数据集成 又被称为数据复制( d a t ac o p y ) 或仓库方法( w a r e h o u s i n ga p p r o a c h ) ,数据仓库是最 为典型的信息层数据集成方法。 5 东北师范大学硕士学位论文 图2 - 2 数据集成的四层模型体系结构 2 2 数据集成综述 2 2 1 数据集成面临的问题 异构数据集成是数据库领域的经典问题,单从集成角度看,高校的异构数据集成, 与普遍的企业异构数据集成问题没有本质区别,具有相同的共性问题【2 0 l 。然而,从为教 育信息化的建设构建支撑系统的角度来讲,必须考虑学校异构数据在集成过程中所遇到 的特殊问题。通过对长春职业技术学院的前期调研及需求分析发现,在构建学校异构数 据集成系统时,主要会面对以下几方面问题: 1 异构性 异构性是异构数据集成面临的最主要问题。主要包括系统异构和模式异构。 ( 1 ) 系统异构是指数据源所依赖的应用系统、数据库管理系统乃至操作系统之间 的不同。 ( 2 ) 模式异构是指数据源在存储模式上的不同,数据存储模式包括关系模式、对 象模式、x m l 文档树型模式等。但即使是同一类数据存储模式,它们的数据也可能存在 差异。例如s q ls e r v e r 所采用的数据类型和o r a c l e 所采用的数据类型就并不完全一致, 存在差异。 2 完整性 异构数据的集成是要通过对数据源进行集成以到达为用户提供一个统一透明的访 问接口的目的。因此,实现异构数据集成需要保证数据完整性和约束完整性。 ( 1 ) 数据完整性是指完整的数据提取,包括数据的正确性、一致性和相容性。 ( 2 ) 约束完整性中的约束是指数据与数据之间的关联关系,是唯一表征数据间逻 辑的特征。保证约束完整性是进行良好的数据发布和交换的前提,其可以加快数据处理 过程,提高效率。 3 透明性 透明性与解决异构的程度相关,决定异构数据集成系统的功能和使用的方便性,包 6 东北师范大学硕士学位论文 括平台透明性、数据库透明性、数据源透明性。 ( 1 ) 平台透明性 隐藏了硬件平台、操作系统和通讯协议等各种平台之间的差异,对于用户来讲,每 个数据源都像运行在同一个硬件软件平台上一样。 ( 2 ) 数据库透明性 当数据源的数据管理系统、数据模型和语言间的差异被隐藏时,对用户来讲,每个 数据源就像是用同一个数据模型来描述的,由同一个数据管理系统和数据语言来管理和 维护的。 ( 3 ) 数据源透明性 隐藏了数据源的描述信息,由系统解决诸如数据的存储位置,数据如何被查询等问 题,用户所见到的只是一个逻辑数据源。 4 自治性 在对原应用系统的数据进行集成时,不能影响原有系统对其源数据的任何正常操 作。 5 扩展性 异构数据集成系统应具有较好的可扩展性和适应性,能够适应数据源数目、内容以 及格式等的不断变化,包括可伸缩性、可移植性及部署灵活性等。 2 2 2 数据集成方案 数据集成的目的是运用特定的技术手段将存在于原来各个系统中的数据按一定规 则组织成为一个整体,使得数据能够被其他系统或者用户有效的访问。数据集成的目的 是为了解决数据分散在众多具有不同格式和接口的系统中,系统之间互不关联,所包含 的不同内容之间互不相通的问题。数据库领域从二十世纪七十年代就开始了这方面相关 问题的研究,至今己发展出相当多行之有效的解决方案: 1 联邦数据库系统 联邦数据库系统( f d b s ) 2 1 】【2 2 】1 2 3 】【2 4 】【2 5 】,是一种在维持成员数据库自治的前提下, 能够对异构的成员数据库进行部分集成,最终提供对异构成员数据库里数据的共享和透 明访问功能的集成方案。是早期人们采用的一种模式集成方法。它最大的优点是在集成 各个应用系统,提供统一、透明的全局操作的同时,仍能保持各个应用系统局部应用的 高度自治。如图2 3 ,联邦数据库通常建立在某一种具体的数据库管理系统( d b m s ) 之 上,它的底层数据源相互独立,但通过任何一个数据源都可以访问其他数据源中的数据 信息。 7 东北师范大学硕士学位论文 图2 - 3 联邦数据库系统 在实现上,联邦数据库服务器通过包装器( w r a p p e r ) 与成员数据库进行通信。一个 包装器对应一类成员数据库。对关系型成员数据库而言,包装器通过安装在信息集成平 台的该数据库的客户端与其进行交互。对非关系型成员数据库,包装器直接进行数据访 问。包装器从信息集成服务器接受数据访问指令,进而转换为数据源所支持的数据访问 指令,通过数据源的服务器提交执行,然后将结果返回给信息集成服务处理。 联邦数据库是分布式数据库( d i s t r i b u t e dd a t a b a s e ) 领域的一个分支,它和传统 的分布式数据库相比,弥补了传统分布式数据库的不足,并且更容易实现。分布式数据 库尽管能把各结点的数据库作为一个整体连接起来,但是整个系统需要重新建立,是一 个规模宏大的工程。同时,对于那些与整个系统关系并不是十分紧密的结点,决定是参 与系统( 放弃自己的自治性,可能对整个系统带来不安定因素) ,还是脱离系统( 失去与 各个结点交流信息的机会) 是一件很困难的事情。联邦数据库则很好的解决了这个难题。 在联邦数据库系统里,每个参与系统的成员数据库,既可以保持原来的状态,有能够自 主地决定自己的数据库模式,进行自己的操作,具有很强的自治性。各成员数据库把允 许其它成员数据库访问的数据模式提交出来,通过包装器映射到公共的联邦模式。这样, 成员数据库拥有了联邦系统的数据提供者和使用者两种角色;既可以继续自主地操纵自 己的数据库,又可以访问联邦数据库系统的其它成员。 2 中间件集成方法 中间件集成方法【1 8 1 【硐【2 7 1 是另一种典型的模式集成方法,它同样使用统一的全局数 据模型,但与联邦数据库系统不同的是,中间件系统不仅能够集成结构化的数据源信息, 还可以集成半结构化或非结构化数据源中的信息,如w e b 信息。图2 4 就是一个典型的 基于中间件的集成方法: 8 东北师范大学硕士学位论文 图2 - 4 中间件集成方法 从图中可以看出,中间件位于异构数据源系统( 数据层) 和应用程序( 应用层) 之间, 向下协调各业务数据库的数据源系统,向上为访问集成数据的应用提供统一数据模式和 数据访问的通用接口,为用户屏蔽数据的分布地点、d b m s 平台以及特殊的本地a p i 等等 差异。中间件注重于全局查询的优化和处理,相对于联邦数据库系统的优势在于:它能 够集成非数据库形式的数据源,有很好的查询性能,自治性强。因此,中间件系统模式 也是实现异构数据集成较理想的解决方案。 3 数据仓库 数据仓库【2 8 1 【2 9 l 是一个面向主题的、整合的、稳定的、并且时变地收集数据以支持 管理决策的一种数据结构形式,它是信息层的数据集成方案。 如图2 5 ,数据仓库模式首先需要建立一个存储数据的仓库,数据仓库在各种异构 数据源的基础上再建立一个统一的全局模式,这在用户看来,与一般的数据库系统差别 不大。用户可以通过数据仓库的统一接口进行数据查询,而存储在数据仓库中的数据在 存储之间需要经过一些处理,例如,当从数据源抽取数据时,可能需要以某种方式对其 进行转换,以使所有数据均符合数据仓库的模式;将源数据存入数据仓库时要对源数据 进行检查,按照要求将里面的无效数据,错数据进行改正,或者丢弃等等。 9 一 一 厂;,;,;,;_ 东北师范大学硕士学位论文 图2 5 数据仓库 该模式的优点是将用户可能用到的其他数据源的数据都统一集成到某一个目标数 据库中,当用户需要访问所需数据时只需访问目标数据源即可,大大提高系统处理用户 请求的效率,不必过分苛求网络性能。 分析长春职业技术学院的具体需求:待集成的数据源相对稳定,大部分均为关系型 数据库例如s o ls e r v e r 2 0 0 8 、m y s q l 或o r a c l e 等;用户所需业务已知且有限,主要是 需要灵活高效地从各个应用系统的源数据库中采集数据到统一数据中心,当数据中心数 据更新时各应用系统数据库采取相应的同步策略保持数据同步。鉴于以上的实际需求, 本系统的集成方案决定采用数据仓库的模式,并在开发过程中会根据实际情况对传统数 据仓库模式予以相应的改进,具体的解决方案将在后续小节予以介绍。 2 2 3 异构数据转换方法 本节介绍几种异构数据转换方法,并对几种转换方法在性能上进行比较,最终确定 一种方法作为本系统的数据转换技术。 1 基于o d b c 的数据转换 o d b c ( o p e nd a t a b a s ec o n n e c t i v i t y ,开放数据库互连) 是微软公司开放服务结构 ( w o s a ,w i n d o w so p e ns e r v i c e sa r c h i t e c t u r e ) 中有关数据库的一个组成部分,它建立 了一组规范,并提供了一组对数据库访问的标准a p i 3 0 1 。这些a p i 利用s q l 来完成其大 部分任务。o d b c 本身也提供了对s q l 语言的支持,用户可以直接将s q l 语句送给o d b c 。 一个基于o d b c 的应用程序对数据库的操作不依赖任何d b m s ,不直接与d b m s 打交 道,所有的数据库操作由对应的d b m s 的o d b c 驱动程序完成。也就是说,不论是f o x p r o 、 a c c e s s ,m 1 s q l 还是o r a c l e 数据库,均可用o d b ca p i 进行访问。由此可见,o d b c 的 1 0 东北师范大学硕士学位论文 最大优点是能以统一的方式处理所有的数据库。 图2 - 6 基于o d b c 的数据转换结构 从图2 - 6 可以看出,o d b c 包括了应用程序、o d b c 驱动程序管理器、驱动程序以及 数据源四个组件。应用程序作为数据库呈现给用户的界面,它需要完成通过调用o d b c a p i ,执行s q l 语句对数据库进行查询等工作。o d b c 应用程序应该包括三个对象:环境 ( e n v i r o m n e n t ) 、联接( c o n n e c tio n ) 和语句( s t a t e m e n t ) 。这三部分都是通过各自的句柄 ( h a n d l e ) 来标志和控制的。o d b ca p i 是o d b c 运用数据通信方法、数据传输协议、d b m s 等多种技术定义的一个标准的接口,应用程序通过o d b ca p i 与数据源进行数据交换。 o d b ca p i 包括函数库、o d b c s q l 语法、o d b c 数据类型和一套错误代码。 o d b c 使用层次的方法来管理数据库,在数据库通信结构的每一层,对可能出现依 赖数据库产品自身特性的地方,o d b c 都引入一个公共接口以解决潜在的不一致性,从 而很好地解决了基于数据库系统应用程序的相对独立性,这也是o d b c 一经推出就获得 巨大成功的重要原因之一。 2 基于o l ed b 的数据转换 o l ed b ( o b j e c tl i n k i n ga n de m b e d d i n g ,d a t a b a s e ,对象链接嵌入数据库) 3 1 】 是微软为以统一方式访问不同类型的数据存储设计的一种应用程序接口,是一组用组件 对象模型( c o m ) 实现的接口,而与对象连接与嵌入( o l e ) 无关。它被设计成为o d b c 的一种高级替代者和继承者,把它的功能扩展到支持更多种类的非关系型数据库,例如 可能不支持s q l 的对象数据库和电子表格( 如e x c e l ) 。 o l ed b 用一组抽象概念( 包括数据源,会话,命令和行集) 将数据的存储从需要 访问数据的应用中分离出来。这是因为不同的应用需要访问不同数据类型和数据源, 但是并不需要了解具体如何使用特定技术的方法访问这些数据。o l e d b 模型主要包括以 下一些c o m 对象: 1 数据源( d a t a s o u r c e ) 数据源对象对应于一个数据提供者,它负责管理用户权限、 建立与数据源的连接等初始操作。 东北师范大学硕士学位论文 2 会话( s e s s i o n ) 在数据源连接的基础上建立会话对象,会话对象提供了事务控制 机制。 3 命令( c o m m a n d ) 数据使用者利用命令对象执行各种数据操作,如查询命令、修改 命令等。 4 行集( r o w s e t ) 提供了数据的抽象表示,它可以是命令执行的结果,也可以直接由 会话对象产生,它是应用程序主要的操作对象。 o l e d b 分为两部分,一部分由数据提供者实现,包括一些基本功能,如获取数据、 修改数据、添加数据项等:另一部分由系统提供,包括一些高级服务,如游标功能、分 布式查询等等。这样的层次结构既为数据使用者即应用程序提供了多种选择方案,又为 数据提供方简化了服务功能的实现手段,它只需按o l e d b 规范编写一个c o m 组件程序即 可,使得第三方发布更为简便,而在应用程序方面可以得到全面的功能服务。 3 基于j d b c 的数据转换 j d b c ( j a v ad a t a b a s ec o n n e c t i v i t y ,j a v a 数据库连接) 是一种用于执行s q l 语句 的j a v aa p i ,可以为多种关系数据库提供统一访问,它由一组用j a v a 语言编写的类和 接口组成【3 2 l 。j d b c 为工具数据库开发人员提供了一个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025能源集团所属铁法能源公司招聘45人笔试参考题库附带答案详解
- 2025湖南高速养护工程有限公司招聘劳务派遣员工55人(长期)笔试参考题库附带答案详解
- 卸车人员安全培训记录课件
- 2025广东韶关市曲江区国有资产投资经营有限公司招聘驾驶员1人笔试参考题库附带答案详解
- 2025年江西省水投江河信息技术有限公司社会招聘2人笔试参考题库附带答案详解
- 2025年山西大地环境投资控股有限公司所属企业社会招聘79人笔试参考题库附带答案详解
- 2025年中国石油集团昆仑资本有限公司公开招聘正式启动笔试参考题库附带答案详解
- 2025年中国出口信用保险公司浙江分公司校园招聘1人笔试参考题库附带答案详解
- 2025国家电投福建公司招聘1人(总经理)笔试参考题库附带答案详解
- 2025四川华芯鼎泰精密电子有限公司招聘产品设计工程师等岗位34人笔试参考题库附带答案详解
- YC/Z 550-2016卷烟制造过程质量风险评估指南
- 工程水文第3章课件
- GB/T 4032-2013具有摆轮游丝振荡系统的精密手表
- GB/T 34875-2017离心泵和转子泵用轴封系统
- GB/T 21063.4-2007政务信息资源目录体系第4部分:政务信息资源分类
- GA/T 1081-2020安全防范系统维护保养规范
- 02药物不良反应adr课件
- 施工项目成本管理课件
- 文物建筑保护修缮专项方案
- 营销与2008欧锦赛ktv渠道方案
- 故障录波器课件
评论
0/150
提交评论