已阅读5页,还剩86页未读, 继续免费阅读
(计算机软件与理论专业论文)面向共享数据中心的数据集成平台的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
面向共享数据中心的数据集成平台的设计与实现中文摘要 面向共享数据中心的数据集成平台的设计与 实现 中文摘要 随着计算机、通信和网络技术的发展,以及全球化、国际化对全世界带来的巨 大而深远的影响,整个社会的信息化、数字化进程大大加快,企业和高校在不同时 期建立的封闭系统,形成了“信息孤岛”。数据集成是突破“信息孤岛”最为有效 的方法。基于这样情形,本课题设计并实现了一个面向共享数据中心的数据集成平 台。 本文首先介绍了课题的技术背景和数字化校园的应用背景。然后,对共享数据 中心的需求进行了分析,提出了共享平台的总体框架和组织结构。在对组织结构进 行深入剖析的基础上,本文以e r w i n 为建模工具。把平台数据层划分为五个主题域 进行设计,并对相关工具进行了开发。接着,本文对数据交换相关技术进行了总结 和分析,引出了数据交换协议的概念。随后,本文给出了基于监听器的数据交换方 案,并对各模块进行了设计实现。最后,归纳了共享平台的特点和改进方向。 本文介绍的共享平台已经部分应用于某高校的数字化校园的建设,具有一定的 通用性和扩展性,对今后的企业和高校的数据集成有较好的参考价值,推动了数字 化建设的进程。 关键字:数据集成、数字化校园、数据交换、数据冲突、数据中心 作者:史鑫 指导老师:朱巧明 d e s i g na n di m p l e m e n t a t i o no f d a t a i n t e g r a t i o np l a t f o r mo r i e n t e d t ot h es h a r e d d a t a b a s ec e n t e r a b s t r a c t w i t l lt h ed e v e l o p m e n to ft h ec o m p u t e r , c o m m u n i c a t i o na n dn e t w o r kt e c h n o l o g y , a n dt h eh u g ea n di l n m 咖ei m p a c to nt h ew h o l ew o r l db r o u g h tb yt h eg l o b a l i z a t i o na n d i n t e r n a t i o n a l i z a t i o n ,t h ep r o c e s so fi n f o r m a t i o n i z a t i n na n dd i g i t i z a t i o no ft h ew h o l e s o c i e t yi sa c c e l e r a t e dg r e a t l y , m e a n w h i l e ,t h ei n f o r m a t i o ns y s t e m sw h i c he n t e r p r i s e so r u n i v e r s i t i e ss e tu pi nd i f f e r e n tp e r i o d sh a v ef o r m e dt h e “i s o l a t e di n f o r m a t i o ni s l a n d d a t ai n t e g r a t i o ni st h em o s te f f e c t i v em e t h o dt ob r e a kt h r o u 曲t h e ”i n f o r m a t i o ni s o l a t e d i s l a n d ”f o rt h i ss a k e ,t h i st h e s i sd e s i g n sa n di m p l e m e n t sad a t ai n t e g r a t i o np l a t f o r m o r i e n t e dt ot h es h a r e dd a t a b a s ec e n t e r f i r s t l y , t h i sp a p e rg i v e sa ni n t r o d u c t i o na b o u tt h et e c h n i c a lb a c k g r o u n do f t h i st h e s i s a n dt h ea p p l i e db a c k g r o u n do ft h ed i g i t i z e dc a m p u s s e c o n d l y , i ta n a l y s e st h e r e q u i r e m e n t so f t h e s h a r e dd a t a b a s ec e n t e r , a n dp u t sf o r w a r dt h em a i nf r a m e w o r ka n dt h e o r g a n i z a t i o n a ls t r u c t u r eo ft h es h a r e dp l a t f o r m b a s e do nt h ep r o f o u n da n a l y s e so ft h e s t r u c t u r e ,t h ep a p e rt a k e se r w i na st h em o d e l i n gt o o l ,d i v i d e st h ed a t al a y e ro fp l a t f o r m i n t o f i v es u b j e c ta r e a st oa n a l y z e ,a n dd e v e l o p st h er e l e v a n tt o o l s t h e n ,t h ep a p e r s u m m a r i z e sa n da n a l y z c st h er e l e v a n tt e c h n o l o g yo ft h ed a t ae x c h a n g e ,a n dp r e s e n t st h e c o n c e p t i o no f t h ed a t ae x c h a n g ep r o t o c 0 1 a f t e r w a r d s ,b a s e do nt h em o n i t o rm e c h a n i s m , t h ep a p e rp r o p o s e sad a t ae x c h a n g es c h e m e ,a n dd e s i g n sa n di m p l e m e n t st h ev 砌o a s m o d u l e s i nt h ee n d ,i td r a w sac o n c l u s i o na b o u ts o m ee h a r a c t e r i s t i c sa n dm o d i f i e d s u g g e s t i o n so f t h es h a r e dp l a t f o r m t h es h a r e dp l a t f o r mi nt h i sp a p e rh a sa l r e a d yb e e np a r t i a l l ya p p l i e di no n e u n i v e r s i t y sd i g i t a l i z e dc a m p u sc o n s t r u c t i o n n ef a c ts h o w st h ep l a t f o r mn o to n l yh a s i n a b s t r a c t d e s i g na n di m p l e m e n t a t i o no f d a t ai n t e g r a t i o np l a t f o r mo r i e n t e dt ot h es h a r e dd a t a b a s ec e n t e r c e r t a i nu n i v e r s a l i t ya n ds c a l a b i l i t y , b u ta l s oh a sg r e a tr e f e r e n c ev a l u e st ot h en e x td a t a i n t e g r a t i o no ft h ee n t e r p r i s e sa n du n i v e r s i t i e s s oi tc a np r o m o t et h ep r o c e s so fd i g i t a l c o n s t r u c t i o n k e y w o r d s :d a t ai n t e g r a t i o n , d i g i t a l i z e dc a m p u s ,d a t ae x c h a n g e ,d a t ac o n f l i c t , d a t ac e n t e r w d t e r :s h i x i l l d i r e c t o r:z h uq i a om i n g 苏州i 大学学位论文独创性声明及使用授权声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立 进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文 不含其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏 州大学或其它教育机构的学位证书而使用过的材料。对本文的研究作 出重要贡献的个人和集体,均已在文中以明确方式标明。本人承担本 声明的法律责任。 研究生签名:啦日期:剑 学位论文使用授权声明 苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论 文合作部、中国社科院文献信息情报中心有权保留本人所送交学位论 文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论 文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的 保密论文外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的 全部或部分内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。 研究生签名: 导师签名: 面向共享数据中心的数据集成平台的设计与实现 1 1 信息孤岛 第一章绪论 随着计算机、通信和网络技术的发展,知识经济的洪波涌起,以及全球化、国 际化对全世界带来的巨大而深远的影响,整个社会的信息化、数字化进程大大加快。 在日益激烈的竞争和挑战下,企业只有适应信息化、数字化的进程才可以得到生存 和发展。 图1 1 数字化发展步骤 在此背景下,动态联盟、数字化供应链和协同商务的出现促使企业不仅要加强 各部门内部的管理,而且还越来越注重部门之间、企业之间的协同工作,以达到部 门内部、部门之间、以及企业之间信息交换的便捷、安全和业务流程的互连、互通。 另外,随着知识工程、数据挖掘技术的完善和企业对智能决策的潜在需求,促使企 业的信息化和数字化开始向着知识管理、决策支持和信息门户的方向发展( 图 1 1 【1 】) 。 信息化、数字化不仅给企业带来了市场和机遇,也同时带来了很大的挑战。目 前企业信息系统的运行环境往往是封闭的,这为企业信息的共享带来了很大的障 绪论 面向共享数据中心的数据集成平台的设计与实现 碍。大部分企业在其信息管理系统建设初期并未进行统一规划,数据模式只是为了 满足眼前的自身目标而量身定制,这使得在不同时期、不同环境下采用了不同硬件 平台、不同操作系统以及不同数据库技术构建起来的业务系统( 如h r 、e i s 、e r p 、 c r m 、o a 等) ,形成了一个个的“信息孤岛”( i s o l a t e di n f o r m a t i o ni s l a n d ) 。 “信息孤岛”的存在阻碍了企业信息化、数字化的进程和数据的有效共享。消 除“信息孤岛”的办法有两种:一种是废除已有的异构系统,按照统一标准整体的 重建各业务系统;一种是通过系统集成,整合异构的各系统。对待不同的系统,企 业可采取不同的方案:旧的、运行良好的系统,可采用整合方案,把应用系统整合 到一起:新的或落后的系统,可按照统一标准新建或重建系统。不过从长远来说, 统一规划的重建或新建业务系统并不是最好的方案,因为随着业务的扩展,先前的 统一规划未必适应新的发展需求,先前的新业务系统也会变为如今的旧系统。所以, 系统集成是解决“信息孤岛”的关键。 1 2 系统集成 1 2 1 系统集成层次结构 系统集成( s y s t e mi n t e g r a t i o n ) 是解决企业“信息孤岛”的主要方法。系统集 成包括硬件集成、软件集成和表宗集成,它是一个集成堆栈( 如图1 2 ) 。集成堆栈 的每一层都为上一层集成提供基础服务,并依赖于下一层的集成服务。 泰秀赛成q! ! ! 苎些里兰墨亘堡些 :五酒蔷蒿订磊。 簇蒜誊”尊湎西蔽 。:蔷萍鬃簿驾篷 网络集成”i 语法 图1 2 系统集成堆栈 ( 1 ) 硬件集成位于堆栈最下层,是系统集成的基础。它主要指网络集成,是 。:“ 系统苴连的平台i + ,是语法犀谈的集成。现有的网络技朱已为硬件笨成提供了唇够的 : 一+ 警 1 、 分 。;鲁,rw黟 ; 面向共享效据中心的数据集成平台的设计与实现绪论 技术支持和保障,对它下文就不作具体介绍了。 ( 2 ) 软件集成位于硬件集成之上,可以分为数据集成和应用集成。数据集成 又可称为信息集成。解决数据互通的问题,是系统数据层、文件层的集成;应用集 成解决应用的互操作的问题,是系统应用集成、系统服务集成。数据集成是语义层 次的集成,应用集成是语用层次的集成。数据集成是应用集成的基础,是软件集成 中的重中之重。 ( 3 ) 表示集成位于集成堆栈最上层,主要指门户集成和用户界面的集成,解 决互访问的问题,为系统提供统一的访问接口。 1 2 2 表示集成 表示集成,也称为用户界面集成或门户集成,是一个面向用户的集成,是最高 层次的集成。它的主要目的是隐娥不同应用程序的后台实现细节,给用户提供统一 的工作、管理、协作和信息检索的平台,实现高效的协同工作和展示全面而详细的 企业信息。 企业门户应用( e n t e r p r i s ep o r t a l ) 是最为通用的、基于复杂界面重组的表示集 成方案口1 。p o r t a l 不仅作为信息系统表示层的宿主,把不同资源的内容整合在一个 w e b 页面,它还有精巧的个性化特性。为不同的用户提供定制的个性内容。p o r t a l 页面有不同的频道( p o r t l c t ) 组为不同的用户创建不同的内容。一个企业门户可以 合并多个企业应用,并将其表现为一个可定制的基于浏览器的界面。 1 2 3 应用集成 应用集成提供应用间的互操作,提供分布式环境中应用的可移植性,提供系统 中应用分布的透明性。它是利用各种通用技术( w 曲服务,中间件等) 合并多种应 用的集成方案。在企业中它被称为e a i ( e n t e r p r i s ea p p l i c a t i o ni n t e g r a t i o n ,企业应 用集成) 。e a i 是增进客户之间联系、加强供应链、优化内部流程、快捷实施新应 用程序的最为有效手段,所以它越来越成为企业关注的焦点,并成为企业内部各应 用程序之间以及企业与企业之间信息共享的关键。e a i 包含了系统集成所需要的主 要方面,一般分为四个层次:数据集成、功能集成、表示层集成和流程集成。如今 的e a i 已经从企业内部的a 2 a ( a p p l i c a t i o nt o ,a p p l i c a t i o n ) 集成发展到企业间的 3 绪论 面向共享数据中心的数据集成平台的设计与实现 b 2 b ( b u s i n e s st ob u s i n e s s ) 集成,如扩展的电子供应链管理( e x t e n d e ds u p p l yc h a i n m a n a g e m e n t ,e s c m ) 、客户关系管理( c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t ,c r m ) 、 虚拟企业( v i r t u a le n t e r p r i s e ,v e ) 、企业资源计划( e n t e r p r i s er e s o u r c ep l a n t a i n g , e r p ) 、办公自动化( o f f i c e a u t o m a t i o n ,o a ) 等 2 1 1 3 1 。基于s o a ( s e r v i c e o r i e n t e d a r c h i t e c t u r e ,面向服务框架) 1 3 1 1 4 1 、w e b 服务技术的应用集成和基于m d a ( m o d e l d r i v e na r c h i t e c t u r e ,模型驱动框架) 啊的应用集成是现在发展迅速的集成技术,前 者被称为s o l ( s e r v i c e o r i e n t e di n t e g r a t i o n ,面向服务集成) ,后者被称为m d i ( m o d e l d r i v e ni n t e g r a t i o n ,模型驱动集成) t 6 1 。 1 2 4 数据集成 数据集成( d a t ai n t e g r a t i o n ) 又称为信息集成,是上层应用集成和表示集成的 基础,它在系统集成中占据最为重要的地位。 根据o m g ( o b j e c tm a n a g e m e n tg r o u p ,对象管理组织) 在m o f ( m e t ao b j e c t f a c i l i t y ,元对象设施) 标准中定义的四层模型体系结构,可把数据分为四个层次( 如 图1 3 ) l s l ,对不同层次的数据进行集成有不同的集成方案。层次越高的集成方案, 适用的范围也越广,但同时集成的复杂度也越大。现在大部分方案针对的是模型层 图1 3 四层模型体系结构 ( m o d e ll a y e r ) 数据集成和信息层( i n f o r m a t i o nl a y e r ) 数据集成,而元模型层数据 集成是新的研究方向。 模型层的数据集成是对元数据的集成,被称为模式集成( s c h e m ai n t e g r a t i o n i t l ) 或虚拟视图方法( v i r t u a lv i e wa p p r o a c h t 8 1 ) 。其基本思想是,在构建集成系统时将 4 面向共享数据中心的数据集成平台的设计与实现绪论 各数据源的数据视图集成为全局模式,使用户能够按照全局模式透明地访问各数据 源的数据。联邦数据库系统( f e d e r a t e dd a t a b a s es y s t e m ,f d b s ) 和基于中间件的 仲裁系统( m e d i a t e ds y s t e m ) 是现有的两种典型的模式集成方法。 信息层的数据集成不进行模式上的集成。它通过将各个数据源的数据复制到与 其相关的其它数据源上,并维护数据源整体上的数据一致性,来提高信息共享利用 的效率。这一层次的数据集成被称为数据复制( d a t ac o p y ) 、物化视图方法 ( m a t e r i a l i z e dv i e wa p p r o a c h ) 或仓库方法( w a r e h o u s i n ga p p r o a c h ) 。数据仓库是 最为典型的信息层的数据集成方法。 4 3 数字化校园 信息化和数字化的加快,给高校也带来了像企业一样的机遇和挑战,高校各部 门也出现了大量的“信息孤岛”:高校的业务管理信息系统的平台不同,数据类型 各异,导致大多数应该共享的数据重复录入,无法统一使用和共享;高校没有统一 的信息标准,导致标准混乱,信息不能交流和共享。 高校可以看作是一个特殊的企业,用于企业的系统集成方法可在一定的范围内 用于高校,但是高校又不等同与企业,完全照搬企业的方案也不适合,为此需要按 照高校特殊的需求,设计高校集成方案。“数字化校园”和u i 冲 9 1 ( u n i v e r s i t y r e s o u r c e p l a n n i n g ,大学资源计划) 是如今高校系统集成的主要研究方向。 1 3 1 数字化校园系统框架 数字化校园的框架有很岁1 1 【1 0 l 1 1 】【1 2 l 【1 3 】【1 4 1 5 1 6 1 1 7 1 1 8 l 【1 9 】【2 0 1 ,几乎各个高校就有自 己独特的框架,但是本文采用的框架分为五个层次( 如图1 4 ) ,从下到上依次是: 网络层、数据层、支持层、业务层和表示层。另外还有贯穿整个系统的用于安全和 运营的管理工具等。 ( 1 )网络层是数字化校园的硬基础,可以细分为网络基础层和网络基本服务 层。网络基础层包括各种强弱电系统、设旌和硬件布局,是校园数字信息流动的物 理平台,是数字化空间的基础设施。网络基本服务是数字化信息流动的软件基础,主 要包括邮件服务、病毒防治、目录名字服务等,用于保证网络的畅通和速度,以及 绪论 面向共享数据中心的数据集成平台的设计与实现 设备的升级维护。 表示层 业务层 支持层 数据层 网络层 图1 4 数字化校园框架 ( 2 ) 数据层是数字化校园的数据中心和信息中心,是上层应用的数据基础。 它存储了数字化校园的各方面的信息,包括局部数据层和全局数据层。局部数据层 存在于不同硬件系统、不同的操作系统和不同的数据库系统上,拥有异构的数据模 式和数据结构,分散在校园的不同部门中,可以是具体的文件目录或关系型数据库。 全局数据层是异构系统共享和交换数据的中心,它拥有统一的数据模式和数据结 构,是对局部数据层的e t l ( e x t r a c t 、t r a n s f o r m 、c l e a n s i n g 、l o a d ,抽取、转换、 清洗和装载) ,是数据集成的平台。 ( 3 ) 支持层包括应用支持平台和服务支持平台。应用支持平台是上层应用的 基础,包括统一身份认证平台和一卡通平台。服务支持平台为上层应用提供服务, 包括工作流引擎,消息引擎、报表引擎等。 ( 4 ) 业务层包括应用系统和应用开发平台。应用系统是各部门现存系统,如 人事管理系统、教务管理系统、财务管理系统等。应用开发平台主要基于现有系统 进行新的业务开发,主要包括用于决策分析的业务分析平台和用于新业务的构建工 具。 ( 5 ) 表示层分为门户层和访问层。门户层位于各类应用之上,整合各类应用 之问的间隙,使得学校用户( 教师、学生、职工、校外人员等) 能自由定制个性化 的信息内容,它包括信息t 1 p 和集成管理服务器。访问层是数字校园对内外的窗口, 6 i|o瞧。睹。脚。眩。险。陈弘陪恒ool 面向共享数据中心的数据集成平台的设计与实现绪论 它配置用户个性信息和展现数字化校园的应用信息。从某种程度上说,它是数字化 校园的高级表现形式,主要通过游览器、短信、集成管理客户端等方式来访问。 ( 6 ) 运营安全管理分为运营管理和安全管理。运营管理主要任务是:确保网 络教学和各类网络办公不中断;确保网络应用能顺利高效运行,提高工作效率和学 校的竞争力:确保网络的规模和性能随新的教学和办公业务的扩展而增长,不拖业务 系统的后腿:确保学校数据的安全和一致性;实时监控学校网络状况,降低网络维 护的成本等。安全管理主要任务是保证校园中的信息不被外界攻击,防止不健康信 息在校园网中传播,建立防火墙等。 1 3 2 系统集成堆栈、数字化校园和u l 世 数字化校园是一个系统集成框架。是系统集成堆栈的一个特定实现模型( 如图 1 5 ) 。在数字化校园框架中,网络层完成系统硬件集成,数据层完成系统软件集成 中的数据集成,支持层和业务层完成系统软件集成的应用集成,表示层完成系统表 示层集成。 表示集成8 门户集成i i i 表示层 l 一- 1 “1 1 p i - 一- - - | 固 1 1 业务层l | 广i n 槛莆岽荔。i 1 支持层 l 圈 软件集成魑蒙嚣翼鲞 。“- 豳数握嘲 二二:;二: i u u u u u u u 6 u - u u u u 山l 硬件集成l 网络集成 i i 网络层 硬件基础和应用支撑 系统集成堆栈数字化校园框架u r p 框架 图1 5 系统集成堆栈、数字化校i 园框架和u r p 框架 数字化校园拥有企业系统集成的各个层次,可以被看成一个特殊的企业,可以 借鉴企业集成的各种经验。但是它又与企业有着本质的区别。企业的管理和流程一 环紧扣一环,并相互连接,业务数据和逻辑采取的是紧耦合的方式,所以基于企业 的系统集成通常是全局的,自上而下的。数字化校园的需求不像企业那样的固定, 中国教育制度的改革,学校的教学模式的不断交化,以及学校所特有的各种校园文 7 绪论 面向共享数据中心的数据集成平台的设计与实现 化和各院系部门相对独立、松散的性质,决定了数字化校园不能像企业那样建设。 于是清华大学在2 0 0 0 年提出了u r p 的概念,要以一种松散的结构来设计数字化校 园。 u r p 是数字化校园中各种应用系统的集成,是能够将这些应用系统集成的接口 规范和基础平台,是数字化校园的核心。它可简单概括为:一个基础平台、一个门 户和n 个应用系统f 9 j 。数字化校园和u r p 也有着一一对应的关系( 如图1 5 ) :数 字化校园网络层对应u r p 硬件基础和应用支撑平台;数据层和支持层对应u r p 的 “一个基础平台”;业务层对应u r p 的“n 个应用系统”;表示层对应u r p 的“一 个门户”。 1 4 研究目标与意义 1 4 1 研究目标 随着数字化校园建设的开展,各高校都开始对新旧系统进行集成,在整个的集 成过程中,各系统间的数据集成最为基础,是架构数字化校园的基础之一。 本文主要的研究目标是,借鉴用于企业和高校的各种数据集成方案,结合某高 校数字化校园建设的具体实践,为某高校设计和实现一个数据集成的方案。方案具 体目标是: ( 1 ) 统一某高校的数据和信息标准。 ( 2 )建立某高校各部门业务系统的联系,打破原有的割据状态。 ( 3 ) 为某高校新业务系统提供基础数据。 ( 4 ) 为某高校专家系统、决策支持系统( d s s ) 、知识管理提供基础数据。 ( 5 ) 统一和方便的管理与维护某高校的全局和局部数据。 ( 6 ) 为某高校数据化校园建设提供数据平台。 1 4 2 研究意义 本文的研究意义主要有下面几点: ( 1 )为进一步研究数据集成方案提供参考。文本提出的数据集成方案是在借 面向共享数据中心的数据集成平台的设计与实现绪论 鉴了现有方案的基础上提出的,适用于一定的范围并具有一定的通用性,可以为新 的数据集成方案提供思路和参考。 ( 2 )为数字化校园下的数据集成平台建设提供借鉴。文本的研究是在某高校 数字化校园建设的实践背景下进行的,充分考虑了校园环境下的数据集成特点和系 统需求,对其它高校的数据集成积累了经验。 ( 3 ) 为某高校的数字化校园建设提供了数据支持。数字化校园的分阶段、分 步骤实旌的特点和数据集成的重要地位,决定了本文的研究为某校的数字化建设提 供了保障和支持,加快了某高校的信息化、数字化进程,并为日后的应用集成、表 示集成奠定了基础。 所以,本文的研究具有一定的现实意义和使用价值。 1 5 论文工作内容 ( 1 )本文分析和比较企业和高校现有数据集成方案的优缺点,并基于某高校 数字化校园建设的特定背景。提出了个星型的数据集成框架。此框架以共享数据 中心为基础,并在此基础之上搭建配套工具和服务,形成了一个完整的数据集成的 平台。本文称它为“面向共享数据中心的数据集成平台”,简称“共享平台”,它可 概括为一个中心数据库、一组工具和组服务。 ( 2 ) 本文收集和分析中心数据库需要的各种数据,把中心数据库划分为六个 部分:公共字典库、共享数据库、信息标准库、业务管理库、交换协议库和历史库。 其中公共字典库和业务管理库是结构核心,而共享数据库是数据主体。 ( 3 ) 本文以e r w i n 为数据建模工具,按照共享平台工具涉及的数据范围,把 数据建模划分为五个主题域,并分别给出了各个主题域的建模过程以及相应工具的 设计开发过程。其中重点介绍了信息标准域和共享数据域的层次划分和数据定义。 ( 4 ) 本文总结和分析了用于共享平台业务数据整合与订阅数据发布服务的各 种相关技术,对数据交换、数据同步更新方式、变化数据提取策略、数据冲突分类 等问题给出了部分定义和比较,并提出了数据交换协议的概念,并用它解决异构数 据间的转换问题。 ( 5 ) 本文设计和实现了一个基于监听器的、分成四个步骤的业务系统间数据 9 面向共享数据中心的数据集成平台的设计与实现 交换的模型,并采用中转式同步更新策略完成业务系统间的数据共享。监听器机制 保证了四个步骤的独立和并行的运行。 ( 6 )本文以x m l ( e x t e n s i b l em a r k u pl a n g u a g e ,可扩展标记语言) 文件作为 数据交换的中介,并通过x s d ( x m ls c h e m ad e f i n i t i o n ,x m ls c h e m a 定义) 对共 享平台中流转的各种文件进行了格式定义。 ( 7 ) 本文采用局部视图法和w e b 服务( w e bs e r v i c e ) d i h l l 2 1 1 技术完成业务系 统数据到共享平台的抽取工作:采用j m s ( j a v a m e s s a g e s e r v i c e ,j a v a 消息服务) 1 2 2 1 1 2 3 1 2 4 】1 2 s 】【2 6 】技术解决业务系统获取共享平台数据的问题。 1 6 本文组织结构 本文分为七个章节内容进行讨论: ( 1 ) 第一章绪论 本章是全文的引言。首先介绍了本文研究主题系统集成和数据集成的 层次结构和分类。接着描述本文特定背景数字化校园的框架结构。最后阐 述了本文的研究目标、研究意义和主要内容。 ( 2 ) 第二章共享数据中心数据集成平台的设计 本章是共享平台的总体设计部分。首先,介绍了现有的各种数据集成方案,并 比较了各种方法的优缺点。接着,给出了数字化校园下共享数据中心的业务需求, 并在此基础上给出了平台的数据层构架。然后,借鉴已有的数据集成方案对共享平 台的数据集成策略迸行了设计,提出了一个以中心数据库为核心的星型的数据集成 方案,加上配套的工具和服务,形成一个完整的数据集成平台面向共享数据中 心的数据集成平台。最后对集成平台的组成进行了描述。 ( 3 ) 第三章中心数据库和配套工具的设计与实现 本章是共享平台中心数据库和配套工具的详细设计部分。首先,介绍了中心数 据库和配套工具的关系,以及e r w m 建模工具。接着,按照平台工具涉及的数据范 围把数据建模划分为五个主题域,并分别介绍了每个主题域的数据建模过程和相应 工具的设计开发过程。其中对信息标准管理域和共享数据管理域中的各种数据进行 了分层划分和定义。 i o 面向共享数据中心的数据集成平台的设计与实现 绪论 ( 4 ) 第四章数据交换 本章主要介绍共享平台配套服务所涉及的各种问题。首先,对数据同步更新、 变化数据抽取和数据冲突等问题作了分类定义和详细分析。然后,提出并设计了数 据交换协议来解决异构数据之间的转换。 ( 5 ) 第五章业务整合和订阅发布的设计与实现 本章主要介绍了共享平台业务数据整合和订阅数据发布服务的详细流程。首 先,给出了整体流程的四个步骤一抽取数据、转换数据、加载数据和发布数据。 然后,提出监听器机制,并设计了数据流转的各种文件格式。接着。描述了四个步 骤的具体流程。最后,给出了三个实例。 ( 6 ) 第六章 总结和展望 本章是全文的结束语,总结本文内容,并指出共享平台的缺陷和进一步的工作。 茎皇墼堡中堂塑堡集成平台的设计面向共享数据中心的数据集成平台的设计与实现 第二章共享数据中心数据集成平台的设计 2 1 数据集成 在第1 2 4 节本文对数据集成方案进行了分类,下面对常见方案进行简要的介 绍。 2 1 1 联邦数据库系统 联邦数据库系统( f d b s ) 【7 l 口7 1 口8 1 曲1 1 3 0 3 1 1 是模型层的数据集成方案,它提供了 一种组织、访问和更新共享信息的逻辑方法,是多个自治的成员数据库系统的集合。 它在集成各个应用系统,提供统一、透明的全局操作的同时,仍能保持各个应用系 统局部应用的高度自治。它不采用一个全局的模式,各成员数据库可以自由加入或 退出集成框架,以及以不同的程度集成到集成框架中去。、 联邦数据库系统主要由通信接口、数据字典、数据组装模块、数据映射模块和 业务系统a 集 成 业 务 程 序 业务系统n 图2 。1 联邦数据库 中心虚拟数据库组成( 如图2 1 ) 。 中心虚拟数据库是业务操作的数据库,由业务根据需要结合数据字典构造,集 成各业务系统的数据:数据字典记录对各业务系统数据的集体描述,包括所有的业 1 2 面向共享数据中心的数据集成平台的设计与实现拭享数据中心数据集成平台的设计 务系统数据库中表和数据项的定义等,是构造中心虚拟数据库和语法分析模块的基 础;数据映射模块根据应用需求,将中心虚拟数据的构造与操作映射为对各业务系 统数据库的s q l 操作:数据组装模块负责将由通信接口取回的分组数据“组装” 至中心虚拟数据库:通信接口负责进行操作命令与数据的传送与通信。 联邦数据库是一种松耦合的数据集成,是一种“查询驱动”的模型。“查询驱 动”1 2 9 l = i l ! = 将用户对共享数据库的查询根据元数据字典信息进行转换,然后再转发到 相应的异构的数据库上,最后将各个站点的返回信息进行集成返回给用户。这种方 法的优点在于可以利用原有的库结构,不用为共享库设计模式,但是它需要各个操 作数据库具有一定的“剩余能力”,来完成与虚拟数据库的数据交换,在数据量很 大时效率较低。 2 1 2 中间件集成方法 中间件集成方法【7 】【3 2 1 通过统一的全局数据模式来访问异构的数据库、遗留系 统、w e b 资源等,是模型层的数据集成方案。 二一一一一一一一一 :一一一一一一一一 图2 2 中间件集成方法 中间件位于异构数据源系统i 数据层) 和应用系统( 应用层) 之间,主要包括 中间件和包装器( 如图2 2 ) 。中间件协调各数据源系统,向上为访问集成数据的应 用提供统一数据模式和数据访问的通用接口。每个数据源对应一个包装器,包装器 苎皇墼塑! 堂墼塑叁壁兰鱼竺堡、计 重塑茎兰塾塑:堂塑墼墨叁堕兰鱼塑堡兰皇壅墨 负责和中问件交互。各数据源的应用仍然完成它们各自的任务,中间件系统则主要 集中为异构数据提供一个高层次检索服务。 中间件注重于全局查询的处理和优化,相对于联邦数据库系统的优势在于它能 够集成非数据库形式的数据源,有很好的查询功能,自治性强;缺点在于它通常是 只读的,而联邦数据库对读写都支持。 2 1 3 数据仓库 数据仓库例是一个面向主题的、整合的、稳定的、并且时变地收集数据以支 持管理决策的一种数据结构形式,它是信息层的数据集成方案。 数据仓库可由数据源、数据准备区、数据存储、应用工具和用户界面组成( 如 图2 3 ) 。 图2 3 数据仓库 数据源的作用是提供原始的数据,这些数据一部分来自企业内部的现有的信息 系统,如e r p 系统。另一部分来自企业外部,如第三方提供的数据或商业数据库提 供的数据等。数据源是建立数仓库的基础。数据仓库中存储的数据和数据源中的数 据在格式和内容上差别很大,这个差别可由数据准备阶段的数据抽取、清洗、转换 和加载来消除。应用工具o l a p 、数据挖掘完成对数据仓库中数据的再次加工,然 后提交给用户。元数据是数据仓库本身信息的数据,连接数据仓库的所有部分。 1 4 面向共享数据中心的数据集成平台的设计与实现 共享数据中心数据集成平台的设计 数据仓库是一种紧耦合的数据集成,是一种“数据驱动”的模型。“数据驱动” 1 2 9 】是将各个数据源的数据预先集成,并存在共享库中,供用户直接查询和分析,好 处是可以提高系统性能和响应速度,而且可以保存大量有用的历史数据。 2 1 4 其他方案和相关研究 以上数据集成方法各有优缺点及适用范围1 3 5 】。模型层集成方法为用户提供了全 局数据视图及统一的访问接口,透明度高,但该方法并没实现数据源问的数据交互, 用户使用时经常需要访问多个数据源,因此该方法需要系统有很好的网络性能。信 息层集成方法在用户使用某个数据源之前,将用户可能用到的其它数据源的数据预 先复制过来,用户使用时仅需访问某个数据源或少量的几个数据源,这会大大提高 系统处理用户请求的效率,但数据复制通常存在延时,使用该方法时,很难保障数 据源之间数据的实时一致性。为了突破两种方法的局限性,人们通常将这两种方法 混合在一起使用,即所谓的综合方法。综合方法通常是在虚拟的数据模式视图的基 础上有选择的对数据源间常用的数据进行复制。文献【3 6 】给出了一个综合集成方法。 如今基于m d a 的数据集成框架是一个新的方向,文献【3 7 】提出了一个基于元 模型层的数据集成方案,它主要是根据m d a 的思想,给出了用于统一描述数据模 型的数据词典的逻辑结构,以数据词典的方式在元模型层上对数据模型进行统一描 述,在数据词典的基础上分析了异构数据模型之间的数据映射关系。文献【6 】将m d a 思想引入到数字化校园的建设中,并结合w e b 服务提出了一个模型驱动的信息集成 方案m d i 。 基于c w m ( c o m m o nw a r e h o u s em e t a m o d e l ,公共仓库模型) p s ) 3 9 1 1 柏) 标准的 元数据集成也是数据集成一个新的发展方向。文献【2 】基于c w m 提出了一个低成 本、低复杂度的元数据集成策略( c o m m o nm c t am o d e li n t e g r a t i o ns t r a t e g y ,c m m i s ) 和元数据集成系统( m e t a d a t a w a r e h o u s e i n t e g r a t e s y s t e m ,m d w i s ) 。 另外基于w e b 服务的数据的共享研究也在迅速发展。文献【4 1 】以电子政务为研 究背景,提出了一个基于w e b 服务的数据共享平台。文献 4 2 】以法院信息系统为背 景,提出了基于w e b 服务的数据集成框架x d i f r a m e 。 现在比较著名的数据集成方面的研究项目有【4 3 1 1 4 4 1 :斯坦福大学的t s i m m i s 、 茎兰塑塑! 鱼墼塑叁成平台的设计面向共享数据中心的数据集成平台的设计与实现 i b m 资助的m i n d 、采用c a r i n 的i m 、东南大学的g a i a ) 【y 和v e r s a t i l e 、东北大学 的s c o p e c i m s 等。 2 2 共享数据中心 共享数据库中心在数字化校园框架中处于数据层,是u r p 的支持平台中的数 据支持,是系统集成堆栈的软件集成的数据集成层( 如图1 5 ) 。它是系统集成和数 字化校园建设的基础性工作之一。本文根据共享数据中心的需求和数据环境分类理 论提出了三层的数字化校园数据层框架。 2 2 1 数字化校园共享数据中心需求 数字化校园共享数据中心的基本要求和总体目标是要做到: ( 1 ) 保证数字化校园信息编码的统一; ( 2 ) 保证任何两个业务系统之间没有冗余业务数据; ( 3 ) 保证“谁产生、谁维护”原则,保证所有的数据都只有唯一的维护者; ( 4 ) 保证提供反映整个学校的全面信息: ( 5 ) 保证为整个学校决策提供所需的数据信息。 总之,数字化校园的共享数据中心一方面要提供包含全局一致的、细节的、当 前或接近当前的数据,用于进行全局联机事务处理( o n - l i n et r a n s a c t i o np r o c e s s i n g , o l t p ) ;另一方面,还要提供包含面向主题、集成的数据环境,适用于完成日常的 决策分析。 2 2 2 数据环境分类 美国学者詹姆斯马丁( j a m e sm a r t i n ) 在信息工程和总体数据规划方法 论中将计算机的数据环境分为四种类型【舭】。 ( 1 ) 第一类数据环境:数据文件( d a mf i l e s ) 。它是分散在系统中,由系统分 析员和程序员分散地设计和维护的文件。 ( 2 ) 第二类数据环境:应用数据库( a p p l i c a t i o nd a t ab o s e s ) 。它是为分散的 应用设计的分散的数据库,使用了数据库管理系统,但没达到第三类数据环境那种 1 6 面向共享数据中心的数据集成平台的设计与实现共享数据中心数据集成平台的设计 共享程度。 ( 3 ) 第三类数据环境:主题数据库( s u b j e c td a t ab a s e s ) 。它是独立于具体应 用的数据库,其存储的结构与使用它的处理过程是独立的。 ( 4 ) 第四类数据环境:信息检索系统( i n f o r m a t i o nr e t r i e v a ls y s t e m s ) 。它是一 些被组织起来,保证信息检索和快速查询为目的的数据库。 高效的企业
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 浙江中医药大学《植物有害生物综合防治》2024-2025学年第一学期期末试卷
- 2025年河南省濮阳市台前一高生物高一上期末考试试题含解析
- 许昌陶瓷职业学院《建筑设计(七)》2024-2025学年第一学期期末试卷
- 华中师范大学《融媒体监测技术》2024-2025学年第一学期期末试卷
- 放射科胃癌放疗方案
- 眼科玻璃体出血管理方案
- 居住区规划设计汇报
- 药剂科药物不良反应监测规范
- 全科疑难病症诊断指南
- 内分泌科肥胖症管理规范
- 丝印印刷知识培训
- 医学美容技术职业生涯规划
- 增强CT造影剂外渗课件
- TCHCIA029-2024化妆品风险物质调查和特定检出值安全评估指南
- 视力残疾教学课件
- 个人教育职业发展历程
- 道路创新设计
- 职业生涯规划课件演讲
- DB4105∕T 227-2024 甲骨文广播体操动作规范
- (2025)汽车专业技能大赛理论知识题库及参考答案
- 江苏的历史文化课件
评论
0/150
提交评论