已阅读5页,还剩46页未读, 继续免费阅读
(计算机应用技术专业论文)数据整合在企业信息化中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
ad i s s e r t a t i o ns u b m i t t e df o rt h ed e g r e eo fm a s t e r c a n d i d a t e :w a n g b o s u p e r v i s o r :p r o f w a n gs h i h u i h u b e iu n i v e r s i t y w u h a n ,c h i n a 湖北大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所 取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任 何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡 献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的 法律后果由本人承担。 论文作者签名:五脊 日期:加i o 年6 月弓日 学位论文使用授权说明 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即: 按照学校要求提交学位论文的印刷本和电子版本;学校有权保存并 向国家有关部门或机构送交论文的复印件和电子版,并提供目录检索与 阅览服务;学校可以允许采用影印、缩印、数字化或其它复制手段保存 学位论文;在不以赢利为目的的前提下,学校可以公开学位论文的部分 或全部内容。( 保密论文在解密后遵守此规定) 作者签名: - r - 私 指导教师签名:7 耐拿l 日期:加fo 年6 a 弓a 日期:少fp 。易j 摘要 随着全球信息技术的发展,信息在企业的决策与发展中起着越来越重要的作用,因 此企业的信息化建设变得迫在眉睫。不间断的信息化投入使得企业拥有众多不同类型的 信息系统,但由于企业各部门引入的信息系统缺乏全面的统筹规划,使得各个信息系统 的数据彼此隔离,成为了数据无法共享的信息孤岛。因此有效的整合现有及将来的应用 系统的数据资源,为企业管理决策提供快速有效的数据支持,已成为当前信息化建设的 重中之重。 本文分析了现有的典型的数据整合技术及其技术特点,总结出实现一个好的数据整 合方案所需要解决的一些关键问题。本文分析了各种数据整合方案的优缺点,根据当前 企业业务数据的存储实际情况,建议使用基于数据库系统的数据整合方案。在该方案的 基础上,提出了一个基本的数据整合模型,即以业务数据中心和标准规范中心为一体的 数据中心体系架构。该模型采用b s 结构,数据整合中心作为服务器端对源数据库信息 进行集中式管理,客户端通过i e 浏览器与数据整合中心之间进行资源信息的交互。数 据整合中心存放所有业务系统共享的数据,各个业务系统的数据与数据整合中心实时或 定时保持一致。本文最后就数据整合中的关键问题,数据的增量提取进行了详细的示例 与实现。 关键词:数据整合;企业信息化;标准中心;数据中心;增量抽取 a b s t r a c t w i t ht h eg l o b a ld e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g y , t h ei n f o r m a t i o ni sp l a y i n ga n i n c r e a s i n g l yi m p o r t a n tr o l e i nd e c i s i o n - m a k i n ga n dd e v e l o p m e n to ft h ee n t e r p r i s e ,s ot h e i n f o r m a t i o nc o n s t r u c t i o nb u s i n e s sh a sb e c o m ei m m i n e n t c o n t i n u o u si i l p u to fi n f o r m a t i o n m a k e st h ee n t e r p r i s eh a sm a n yd i f f e r e n tt y p e so fi n f o r m a t i o ns y s t e m s ,b u tm a n yd e p a r t m e n t s o ft h ec o m p a n yl a c kac o m p r e h e n s i v eo v e r a l lp l a n n i n gi np u l l i n gi nn e wi n f o r m a t i o ns y s t e m , s ot h en e wp u l l i n gi ni n f o r m a t i o ns y s t e m sa r es e p a r a t e df r o me a c ho t h e r , a n dt h es a m et i m e t h ed a t ai sb e c o m i n gi n f o r m a t i o ni s l a n d t h e r e f o r e ,t h ee f f e c t i v ei n t e g r a t i o no fe x i s t i n ga n d f u t u r ea p p l i c a t i o n so fd a t ar e s o u r c e sm a n a g e m e n td e c i s i o n sf o rt h ee n t e r p r i s et op r o v i d ef a s t a n de f f e c t i v ed a t as u p p o r t ,i n f o r m a t i o nt e c h n o l o g yh a sb e c o m et h et o pp r i o r i t y i nt h i sp a p e r , t h ec o n s t r u c t i o no f e n t e r p r i s ei n f o r m a t i o nd e s i g n e dad a t ai n t e g r a t i o np r o g r a m s ,a n dp r o p o s e d d a t a - s h a r i n gc e n t e ra n dt h ec e n t e ro ft h ec o r es t a n d a r d sa r c h i t e c t u r e t h i sp a p e ra n a l y z e st h ee x i s t i n gt y p i c a ld a t ai n t e g r a t i o nt e c h n o l o g ya n di t st e c h n i c a l c h a r a c t e r i s t i c s ,s u m m a r i z e dt oa c h i e v eag o o dd a t ai n t e g r a t i o np r o g r a m sn e e dt oa d d r e s ss o m e o ft h ek e yi s s u e s t h i sp a p e ra n a l y z e st h ea d v a n t a g e sa n dd i s a d v a n t a g e so fv a r i o u sd a t a i n t e g r a t i o ns o l u t i o n s ,e n t e r p r i s eb u s i n e s sd a t a , a c c o r d i n gt ot h ec u r r e n ts t o r a g es i t u a t i o n , r e c o m m e n dt h eu s eo fd a t ai n t e g r a t i o ns y s t e mb a s e do nd a t a b a s ep r o g r a m s t h eb a s i so ft h e p r o g r a m ,p r o p o s e dab a s i cm o d e lo fd a t ai n t e g r a t i o n , t h a td a t ac e n t e ra n db u s i n e s sc e n t e ra s o n eo ft h es t a n d a r ds p e c i f i c a t i o no fd a t ac e n t e ra r c h i t e c t u r e t h em o d e lu s e st h eb s s t r u c t u r e ,d a t ac e n t e rc o n s o l i d a t i o na sas e r v e r - s i d ei n f o r m a t i o no nt h es o u r c ed a t a b a s e , c e n t r a l i z e dm a n a g e m e n t ,t h ec l i e n tt h r o u g ht h ei eb r o w s e r , a n dd a t ai n t e g r a t i o nc e n t e ro ft h e i n t e r a c t i o nb e t w e e nt h er e s o u r c ei n f o r m a t i o n c e n t r a lr e p o s i t o r yf o ra l ld a t ai n t e g r a t i o n b u s i n e s ss y s t e m st os h a r ed a t a , d a t af r o mv a r i o u sb u s i n e s ss y s t e m sa n dd a t ai n t e g r a t i o n c e n t e r si nr e a lt i m eo rt i m el i n e f i n a l l y , o nt h ek e yi s s u e si nd a t ai n t e g r a t i o n ,d a t aa c q u i s i t i o n w a si n c r e m e n t a la n di m p l e m e n t a t i o no fd e t a i l e de x a m p l e s k e y w o r d s :d a t ai n t e g r a t i o n ;e n t e r p r i s ei n f o r m a t i o n ;s t a n d a r dc e n t e r ;d a t ac e n t e r ; i n c r e m e n t a le x t r a c t i o n i i 目录 摘要i 目录m 第一章引言。1 1 1 选题背景和意义1 1 2 国内外数据整合研究现状1 1 3 本文的主要内容和章节安排2 第二章企业信息化中数据整合相关技术4 2 1 当前企业信息化现状4 2 2 基于数据库系统的数据整合4 2 2 1 星型模式4 2 2 2 网状模式5 2 2 3 虚拟数据库模式6 2 3 基于中间件技术的数据整合7 2 4 基于x m l 技术的数据整合8 2 5 其它方式数据整合一9 第三章企业信息化中数据整合关键问题。1 1 3 1 数据的全量抽取与增量抽取1 1 3 1 1 数据的全量抽取。l l 3 1 2 数据的增量抽取l l 3 2 数据的实时与定时1 3 3 3 数据质量1 4 3 3 1 影响数据质量的因素1 4 3 3 2 提高数据质量的措施一1 4 第四章数据整合总体模型设计1 6 4 1 标准规范中心层次结构1 6 i i i 4 2 业务数据中心层次结构1 8 第五章数据整合共享平台解决方案2 1 5 1 数据整合共享基本原则2 1 5 1 1 开放性21 5 1 2 可扩展性2 1 5 1 3 安全性2 1 5 1 4 易用性2 l 5 2 数据整合共享设计模式2 1 5 3 数据整合共享层次结构2 2 5 4 数据的集成2 4 5 5 数据的分析展示2 5 第六章基于o r a c l e 的异构数据源数据实时增量提取2 6 6 1 系统应用环境配置2 6 6 2 异构数据源的实时增量提取。2 6 第七章结论与展望3 7 7 1 结论3 7 7 2 展望。3 7 参考文献。3 8 致谢4 0 攻读硕士学位期间发表的论文及参与的项目4 l 发表的论文4 1 参与的项目4 1 i v 第一章引言 1 1 选题背景和意义 第一章引言 在信息技术高速发展的现代社会,企业对各种信息的需求更加复杂,市场的竞争压 力要求决策层作出更快、更准确的决定。为了适应企业发展,越来越多的业务系统被开 发和使用,周围可获取的信息也越来越多,人们也越来越认识到这些数据价值的重要性, 但是有部分资源不能被有效的利用:数据以不同的格式存放在不同的数据库、不同的业 务系统中,很难将它们集中起来进行分析和展示,查找和处理数据需要花费大量不必要 的时间和人力,重要信息的整理和传递工作比以往任何时候都要困难,系统多样化、信 息分散等问题也尤为突显。面对数据资源的急剧膨胀,企业将面临更加严峻的挑战【l 】: 大量的数据没有统一的标准和接口,无法共享通用的数据源,信息相对封闭, 共享程度低。 信息的加工和处理还处于半手工方式,影响信息质量。无法直接从各信息系统 业务系统采集重要数据并加以综合利用。 业务发展产生的大量数据无法提炼升华为决策信息及时提供给决策部门。 已有的业务信息系统平台及开发工具互不兼容,无法集中应用。 无法对分散异构的多数据源实现实时统一的访问。 面对这样大片分散的信息孤岛,我们迫切需要将这些数据进行整合,以提取更多重 要的信息供企业决策。改变的途径当然不能是推倒重来,因为这样花费的时间和代价太 大,企业很难承受。目前迫切需要的,是在以往建设的业务系统的基础上,对现有的数 据加以有效的整合和提升,其核心和基础就在于将各业务系统的数据进行整合。什么是 数据整合? 数据整合就是对分散异构的多数据源实现统一的访问,实时地、智能地将有 价值的数据传递给分析系统或其他应用系统进行信息的进一步加工处理。通过数据的整 合,企业可以降低投入成本,充分利用现有系统的资源,达到资源的最大利用,从而提 高企业人员的工作效率,提升企业自身的综合能力,强化核心竞争力【2 】。 1 2 国内外数据整合研究现状 数据整合的研究开始于七十年代中期,其发展过程大概可以分为两个阶段。第一阶 段以多数据库系统的研究为主,其数据整合方式主要分为三类f 3 】:第一类采用物理上分 湖北大学硕十学位论文 布、逻辑上集中的系统结构,系统有全局模式,但各数据库缺少自治性,难以统一管理 和集成。第二类是八十年代中期m c e l o d 提出的联邦式数据库系统,该系统具有逻辑上 和物理上都分布的结构,每个结点都有自己的联邦模式,由于不再受制于全局模式,所 以结点的自治性得到加强,但是数据库之间的通信则受到限制。第三类是l i t w i n 等人 提出的多数据库语言数据整合方法,该方法采用对象模型作为数据整合模型,既无统一 的全局模式,也无局部的联邦模式,结点的自治性也很强,但用户必须接受一种新的数 据语言,系统的透明性较差。多数据库整合系统支持用户使用单一的数据定义和语言同 时访问多个独立的数据源,采用对象模型作为数据整合模型。国外具有代表性的多数据 库系统有美国普度大学开发的i n t e r b a s e 和h i 公司开发的p e s a s u s ;国内有东北大学数 据库研究室开发的p o l y b a s e 和s c o p e 系统以及北京理工大学开发的u n h d b 系统等【4 1 。 到了九十年代中期,即数据整合的第二阶段:随着i n t c r n e t 的出现,数据整合技术 得到了进一步的发展,出现了虚拟数据库和数据仓库两种新的数据整合方法。虚拟数据 库不再存储任何数据,而是将用户的查询翻译成一个或多个对数据源的查询,然后虚拟 数据库将数据源对用户查询的反馈进行综合处理,将结果返回给用户【2 1 。华中科技大学 研究的p a n o r a m a 和东南大学研究的v e r s a t i l e 系统都是把数据存储在各个数据源中,通 过统一定义的模式来进行查询,他们在虚拟数据整合方面都取得了很大的成果。数据仓 库是指来自几个数据源的数据副本存储在单一数据库中,存储在数据仓库中的数据在存 储之前一般要经过一些处理,如对数据进行清洗转换,将关系进行链接或聚集,并且要 使所有的数据都符合数据仓库的模式【5 1 。 随着信息的进一步发展,传统的数据整合技术已经无法适应人们快速获取更多数据 的需求,企业要求数据整合系统具有可扩展性,可以实现数据源的“即插即用”,于是“通 用异构数据源整合”的概念诞生。目前通用异构数据源系统的研究还处于起步阶段,还 没有真正的通用数据整合系统出现。人们对数据整合技术的探索从未停止,各种新兴技 术也不断应用到分布式数据整合系统中。例如:基于c o r b a 的数据整合、基于p 2 p 技 术的数据整合、基于x m l 技术的数据整合和基于中间件技术的数据整合。 1 3 本文的主要内容和章节安排 本文主要介绍了如何解决企业内部多个异构业务系统信息孤岛问题。为大量的分散 数据提供一个统一的访问接口,加强企业内部各个业务系统之间信息资源的共享和应用 集成,实现数据资源的有效整合和利用是当前企业信息化建设的重中之重。本文介绍了 2 第一章引言 当前比较成熟的数据整合相关技术,如基于数据库系统的整合、基于中间件技术、基于 x m l 技术等等,采用这些数据整合技术对企业内部多个业务系统的数据进行提取、转 换和加载,将数据集中到数据共享中心,再对这些共享的数据进行多层次、多角度的分 析,实现企业核心信息价值的利用,为企业管理者提供决策支持【2 】o 本论文共有七章: 第一章介绍本论文的研究背景、意义,国内外研究现状及本文所做的工作。 第二章介绍了几种数据整合模型,有基于数据库系统、基于中间件技术、基于x m l 技术等流行的几种数据整合技术,并分析对比了每种技术的优缺点。 第三章论述了数据整合的一些关键技术,比如数据的提取方式、数据的实时性以及 数据的质量控制等等,本章节就这些关键技术需要注意的问题进行了探讨。 第四章设计了数据整合的总体模型,提出了数据共享中心的概念,数据共享中心用 来存放各业务系统共享的数据,同时数据共享中心包括标准规范中心和业务数据中心。 第五章提出了数据整合共享平台的解决方案,介绍了平台设计的基本原则、设计模 式和层次结构,讲述了数据的集成过程和注意问题,最后介绍了数据的分析展示工具。 第六章结合企业数据整合实际情况,就数据整合中的难点问题即数据的增量提取进 行了详细示例和介绍。 第七章对本论文内容进行总结,并分析了下一步的研究方向。 3 湖北大学硕士学位论文 第二章企业信息化中数据整合相关技术 2 1 当前企业信息化现状 企业信息化是指企业广泛利用现代信息技术,充分开发和利用企业内部或外部的, 企业可能得到和利用的,并与企业生产经营活动有关的各种信息,以便及时把握机会, 做出决策,增进运行效率,从而提高企业竞争力水平和经济效益的过程。当前我国信息 化建设正迅猛发展,许多企业领导逐渐认识到企业信息化建设的重要性,都已经开始着 手企业的信息化建设。现在大部分企业的信息化水平已经经历了单个或多个业务系统的 引入阶段,已进入对多个业务系统的数据整合与信息深度利用层面上,因此对多个异构 数据源的整合已经成为当前企业信息化建设的关键步骤。目前对多个异构数据源的整合 有多种方法,有基于数据库系统的数据整合、基于中间件技术的数据整合、基于x m l 技术的数据整合等。由于当前企业之前已经引入了大量的数据库系统,且企业的核心数 据与信息大部分都已经存储在数据库系统中,因此基于数据库系统的数据整合是当前企 业信息化建设的首选方案。 2 2 基于数据库系统的数据整合 基于数据库的数据整合是当前企业应用较为广泛的一种数据整合技术。当前企业信 息化已经引入了大量的业务系统,这些系统大都基于数据库开发的。通过数据库来整合 这些系统可以最小限度的影响原系统,同时都是基于关系数据库模式的开发,各个系统 的兼容性较好。一般基于数据库的数据整合适用于同种硬件平台、操作系统平台。基于 数据库的数据整合可以有多种模式:以中央数据中心为核心的星型模式、每个业务系统 均为数据中心的环状模型、没有数据中心的虚拟数据库模式等等。 2 2 1 星型模式 星型模式是以一个数据中心为核心,将多个同构或异构的数据源连接在一起。各个 业务系统本身单独使用的数据仍存放在本系统中,而各业务系统需要共享的数据则通过 e t l 数据提取工具提取到数据共享中心。用户通过访问数据共享中心的数据即可实现对 多个业务系统信息的访问。星型模型的结构图如图2 1 所示: 4 第二章企业信息化中数据整合相关技术 客户端i业务系统l业务系统2客户端2 客户端3 业务系统3业务系统4客户端4 图2 1 星型模型 星型模型的优点是将共享的数据统一集中管理,对实现多个业务系统的综合查询访 问非常方便,数据访问效率和数据共享程度也较高。但数据中心和各个业务系统数据的 实时同步问题很复杂,特别是多个异构的数据库系统的整合,数据中心和异构业务系统 之间数据同步需要做很复杂的工作。 2 2 2 网状模式 网状模型中的每一个业务系统都可以看作是一个数据中心。将多个业务系统连接在 一起,每个业务系统之间都是直接相连。各个业务系统根据自身的业务需求将共享的数 据提取到本系统中,用户只需访问本业务系统中的数据即可实现信息的共享。网状模型 的结构图如图2 2 所示: 5 湖北大学硕士学位论文 客户端i 业务系统i业务系统2 客户端3业务系统3业务系统4客户端4 图2 2 网状模型 网状模型的优点是不需要增加额外的数据中心,各业务系统使用的数据都存放在各 自的业务系统中。缺点是数据共享程度不高,也存在数据的实时同步问题,同时对异构 数据源的支持程度不高。该模型适合于共享程度要求不高,对数据保密性要求较高的多 业 统 户 型 第二章企业信息化中数据整合相关技术 业务系统1 业务系统2业务系统3业务系统4 国曲。国,国 客户端1 客户湍2客户端3 客户端4 图2 3 虚拟数据库模型结构 虚拟数据库模式的优点是不需要增加额外的数据中心,也不需要进行数据的提取, 不存在数据的实时同步问题。缺点是数据查询分析层的设计和处理会非常复杂,同时系 统的共享程度和性能都取决于数据查询分析层的实现。 2 3 基于中间件技术的数据整合 j 在分布式异构环境中,通常存在多种硬件系统平台,在这些硬件平台上又存在各种 各样的系统软件。为了解决分布式异构系统的整合问题,人们提出了中间件( m i d d l e w a r e ) 的概念:中间件是一种分布式计算平台,涉及多种资源,包括各种操作系统、数据库、 网络协议甚至语言,其目标是在分布式计算环境中实现应用互连,资源共享,协同工作 和互操作。中间件【7 1 结构图如图2 - 4 所示: 7 湖北大学硕士学位论文 业务系统l业务系统2业务系统3业务系统4 客户端1客户端2客户湍3客户端4 图2 - 4 中间件结构图 其原理可说明如下:客户端上的应用程序需要从网络中某个节点处获取一定的数据 或服务,这些数据和服务可能处于一个运行者和客户端不同的操作系统的服务器上,客 户j j l 务器应用程序中复杂查找数据的那一部分只要通过调用中间件a p i 访问一个中间 件系统,由中间件完成到网络中查找目标数据源或者服务的任务,进而传输客户请求, 重组答复信息,最后将结果送回给应用程序【8 】。 中间件技术适合实现异构数据库系统的数据整合。中间件位于异构数据库系统( 数 据层) 和应用程序( 应用层) 之间,向下协调各数据库系统,向上为访问集成数据的应 用提供统一数据模式以及数据访问的通用接口。各数据库的应用仍然完成它们的任务, 中间件系统则主要集中为异构数据源提供一个高层次的检索服务。采用中间件技术来实 现数据整合不改变原始数据的存储和管理方式。 2 4 基于x m l 技术的数据整合 可扩展标记语言i 9 1 x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 是w 3 c 组织x m l 工作组于 1 9 9 8 年定义的。它用来描述一种称为x m l 的文件数据对象,同时也部分描述处理这些 对象的计算机程序的行为。x m l 是一种元标记语言,用户可以定义自己需要的标记, 这些标记必须根据某些通用的原则来创建,但是在标记的意义上具有相当的灵活性。采 用x m l 实现数据整合的原理结构图如图2 5 所示: 第二章企业信息化中数据整合相关技术 关系数据库平面文件v l多媒体信息 图2 5x m l 数据整合的结构图 其原理可说明如下:x m l 数据整合方式的核心是一个x m l 数据中心。通过x m l 数据转换接口将多个异构的数据源中的数据集中到x m l 数据中心,数据转换接口负责 对不同数据格式、协议方法、文件类型进行信息转换,信息以x m l 的格式存储在x m l 数据中心,用户根据统一的策略和定义对数据进行查询分析【1 0 】。 采用x m l 方式对数据进行整合的优势很明显:x m l 是一种非常通用的数据存储格 式,在不同的平台、操作系统、开发语言下几乎不需要改动就可以使用。x m l 采用层 次结构对数据进行管理,数据的存储非常规范,适合对复杂结构的数据进行描述。同时 基于x m l 数据整合,用户不需要依赖于单一的数据源( 如关系数据库) ,它与多种数据 源都有良好的兼容性,数据的查询分析展示和安全访问控制都非常方便。x m l 数据整 合在数据的同步和实时方面有些欠缺,同时数据转换接口的实施比较复杂。 2 5 其它方式数据整合 数据整合的方式多种多样,根据企业业务需求的不同,各个企业数据整合的方式也 不尽相同。但企业数据整合最终的目的都是一样的,都是实现数据的共享访问和分析。 不同行业会根据企业的实际情况选择合适的方式进行整合,比如基于c o r b a 技术的数 9 湖北大学硕士学位论文 据整合、基于p 2 p 技术的数据整合等等。 基于c o r b a 的数据整合:公共对象请求代理系统结构【u ( c o r b a ,c o m m o no b j e c t r e q u e s tb r o k e ra r c h i t e c t u r e ) 是对象管理组织o m g ( o b j e c tm a n a g e m e n tg r o u p ) 提出的应 用软件系统结构和对象技术规范,其核心是一套标准的语言、接口和协议,以解决分布 式计算环境中不同硬件设备和软件系统的互联,增强网络间软件的互操作性,解决传统 分布式计算模式中的不足等问题。c o r b a 仅是一个规范,不涉及具体的实现,这种数 据整合方式广泛地应用于电力行业的数据整合。 基于p 2 p 技术的数据整合:点对点技术【1 2 l ( p e e r - t o - p e e r ,简称p 2 p ) 又称对等互 联网络技术,是一种网络新技术。依赖网络中参与者的计算能力和带宽,而不是把依赖 都聚集在较少的几台服务器上。纯点对点网络没有客户端或服务器的概念,只有平等的 同级节点,同时对网络上的其它节点充当客户端和服务器。p 2 p 技术广泛应用于各种格 式音频、视频、数据文件的整合和共享,当前互联网中大量的网络视频共享均采用该种 方式进行信息的整合。 l o 第三章企业信息化中数据整合关键问题 第三章企业信息化中数据整合关键问题 3 1 数据的全量抽取与增量抽取 企业引入各个业务系统的时间先后不同,各个业务系统的数据可能分布在不同的物 理位置和网络环境。要实现多个业务系统之间数据的共享,首先要实现各个系统之间数 据的互通。比较通用而有效的方式是进行数据的抽取,即采用e t l 工具将数据抽取到 数据中心,将各个业务系统共享的数据集中存储在数据中心,单个业务系统对其它业务 系统的访问则转换为对数据中心的访问。通过各个业务系统和数据中心的关联,用户不 需要关心其它业务系统即可实现数据的共享。根据数据抽取方式的不同,可以将数据抽 取分为两类:全量抽取和增量抽取。 3 1 1 数据的全量抽取 数据的全量抽取有些类似与数据复制或数据迁移,它将各个异构数据源中的表或视 图数据从数据库中抽取出来,经过e t l ( 抽取、转换和加载) 工具进行抽取、转换和加 载,最终将符合标准规范的数据抽取到数据中心。数据的全量抽取方式比较简单,由于 抽取的数据量可能比较大,数据的全量抽取一般采用定时定期进行数据的提取。全量抽 取方式的优点是实现起来比较简单,大多数数据库系统对同构和异构数据库的全量抽取 支持度都非常好,数据的抽取效率也比较高。但是对于大量数据的全量抽取时,系统的 性能会有较大的影响,比如数据抽取的时间过长,影响原系统的运行效率等等,同时数 据的全量提取不能实现数据的实时性反馈,这些因素都使得数据的全量抽取应用很有 限。数据的全量抽取适合那些数据量不大同时系统对数据的实时性要求不高的业务系统 的数据提取。 3 1 2 数据的增量抽取 增量抽取是数据整合中使用最频繁的一种数据抽取方式。增量抽取只提取变化的数 据,即只将表中新增的或修改的数据抽取到数据中心。增量抽取的数据量较少,因此效 率较高,同时应该还能够达到一定程度的实时。增量数据抽取一般有两点要求:准确性, 能够将业务系统中的变化数据按一定的频率准确地捕获到:性能,不能对业务系统造成 太大的压力,影响现有业务。因此,如何捕获变化的数据是增量抽取的关键。目前增量 数据抽取中常用的捕获变化数据的方法有i l 3 】: 湖北大学硕士学位论文 a 触发器:在要抽取的表上建立需要的触发器,一般要建立插入、修改、删除三 个触发器,每当源表中的数据发生变化,就被相应的触发器将变化的数据写入一个临时 表,抽取线程从临时表中抽取数据,临时表中抽取过的数据被标记或删除。触发器方式 的优点是数据抽取的性能较高,缺点是要求业务表建立触发器,对业务系统有一定的影 响。 b 时间戳:它是一种基于快照比较的变化数据捕获方式,在源表上增加一个时间 戳字段,系统中更新修改表数据的时候,同时修改时间戳字段的值。当进行数据抽取时, 通过比较系统时间与时间戳字段的值来决定抽取哪些数据。有的数据库的时间戳支持自 动更新,即表的其它字段的数据发生改变时,自动更新时间戳字段的值。有的数据库不 支持时间戳的自动更新,这就要求业务系统在更新业务数据时,手工更新时间戳字段。 同触发器方式一样,时间戳方式的性能也比较好,数据抽取相对清楚简单,但对业务系 统也有很大的倾入性( 加入额外的时间戳字段) ,特别是对不支持时间戳的自动更新的 数据库,还要求业务系统进行额外的更新时间戳操作。另外,无法捕获对时间戳以前数 据的d e l e t e 和u p d a t e 操作,在数据准确性上受到了一定的限制。 c 全表比对:典型的全表比对的方式是采用m d 5 校验码。e t l 工具事先为要抽取的 表建立一个结构类似的m d 5 临时表,该临时表记录源表主键以及根据所有字段的数据 计算出来的m d 5 校验码。每次进行数据抽取时,对源表和m d 5 临时表进行m d 5 校验 码的比对,从而决定源表中的数据是新增、修改还是删除,同时更新m d 5 校验码。m d 5 方式的优点是对源系统的倾入性较小( 仅需要建立一个m d 5 临时表) ,但缺点也是显而 易见的,与触发器和时间戳方式中的主动通知不同,m d 5 方式是被动的进行全表数据 的比对,性能较差。当表中没有主键或唯一列且含有重复记录时,m d 5 方式的准确性 较差。 d 日志对比:通过分析数据库自身的日志来判断变化的数据。o r a c l e 的改变数据 捕获( c d c ,c h a n g e dd a t ac a p t u r e ) 技术是这方面的代表。c d c 特性是在o r a c l e 9 i 数 据库中引入的。c d c 能够帮助你识别从上次抽取之后发生变化的数据。利用c d c ,在 对源表进行i n s e r t 、u p d a t e 或d e l e t e 等操作的同时就可以提取数据,并且变化的数据被 保存在数据库的变化表中。这样就可以捕获发生变化的数据,然后利用数据库视图以一 种可控的方式提供给目标系统。c d c 体系结构基于发布者订阅者模型。发布者捕捉变 化数据并提供给订阅者。订阅者使用从发布者那里获得的变化数据。通常,c d c 系统 拥有一个发布者和多个订阅者。发布者首先需要识别捕获变化数据所需的源表。然后, 1 2 第三章企业信息化中数据整合关键问题 它捕捉变化的数据并将其保存在特别创建的变化表中。它还使订阅者能够控制对变化数 据的访问。订阅者需要清楚自己感兴趣的是哪些变化数据。一个订阅者可能不会对发布 者发布的所有数据都感兴趣。订阅者需要创建一个订阅者视图来访问经发布者授权可以 访问的变化数据。c d c 分为同步模式和异步模式,同步模式实时的捕获变化数据并存 储到变化表中,发布者与订阅都位于同一数据库中。异步模式则是基于o r a c l e 的流复制 技术。 3 2 数据的实时与定时 随着各个业务系统的运行,单个业务系统和数据中心的数据同步就变得格外重要。 通过e t li 具将单个业务系统的数据抽取到数据中心需要一个时间段,在某一时间间 隔内单个业务系统和数据中心的数据可能会出现不一致。因此,需要采用一定的措施来 现实数据的实时同步。 业务系统中的数据类型很多,对数据的操作也各不相同。有些数据对实时性要求非 常高,比如涉及到银行的电子交易数据记录,要求各业务系统和中心数据库数据的完全 同步,任何不可接受的延时都会导致企业的损失。而有些数据记录对实时性要求不高甚 至不需要实时,比如企业每天总体的销售额统计信息,只能在公司下属每个部门一天的 销售额出来之后进行统计,它对数据就不需要实时,只需要定时对数据进行汇总。因此, 要根据企业的实际业务需要来控制数据的实时与定时,这样才能提高整个系统的运行效 率。 数据的实时与定时与数据的抽取方式密不可分。数据的实时同步一般采用增量抽取 方式,增量抽取数据量小,速度快,可以达到接近实时的地步。银行的电子交易记录数 据量很大,全量抽取的时间较长,对原系统性能影响较大,同时客户的等待时间也非常 有限,增量抽取则可以在不影响原系统性能的前提下实现客户的需求。通过在原系统上 建触发器或事务,当系统数据发生变化时,变化的数据将会被记录到一个临时表中,通 过将临时表中的一条条记录快速的发送到数据中心,从而接近实时的现实数据的同步。 数据的定时同步方法很多,增量抽取和全量抽取都可以实现。可以通过关系数据库的任 务计划定时将数据增量提取到数据中心,也可以全量提取到数据中心,只要制定任务计 划时时间设置得合理。比如一天的销售额统计,只需要每天晚上定时将销售记录全量抽 取到数据中心进行统计。全量抽取的时间一般选择各个业务系统运行不频繁甚至停止运 行时,尽量不影响系统对外的运行效率。 湖北大学硕士学位论文 3 3 数据质量 数据质量是衡量一个业务系统规范程度的标志。数据质量问题广泛存在于源系统中, 数据整合的e t l 过程可以发现数据质量问题,对数据进行一定的修正,但它的作用很 有限,对一些干扰数据无法进行处理。要真正提高数据的质量,就必须对单个业务系统 的数据进行清洗,保证单个业务系统数据的质量。数据质量得不到保证的话,信息化过 程中其他流程的实施根本不可能达到预期效果。因此,对数据质量的控制至关重要。 3 3 1 影响数据质量的因素 ( 1 ) 缺乏科学、规范、完整的数据质量标准 建立系统初期,对录入数据的格式和来源没有统一明确的要求,缺少科学规范的审 核程序和标准,在录入后就成为问题数据;在数据加工、利用过程中形成垃圾数据。 ( 2 ) 设计时需求不明确,缺乏远见 许多业务系统建立时只是为了解决当前的需求,没有考虑设计对将来的影响。同时 由于需求的不断变化,对业务系统的修改没有考虑设计的连贯性,追求片面的解决当前 的问题,这样使得很多设计只能应用于单一的模块,产生的数据无法和其他的业务系统 进行关联。 ( 3 ) 不同的开发环境和平台 企业引入的业务系统由于不同开发语言、系统平台和数据库系统会导致数据类型的 不一致性。比如o r a c l e 和s q ls e r v e r 中的字段类型就会有一些差异,这些差异会影响 数据的关联和共享。 ( 4 ) 缺乏数据质量控制监督 企业很关心引入的业务系统处理数据的功能,而数据质量的控制和监督问题往往被 忽视。绝大多数单位在数据准备、录入阶段缺乏对数据严格规范的审核和监督,导致不 良数据入库,影响数据分析的真实性和整体效纠1 4 1 。 3 3 2 提高数据质量的措施 ( 1 ) 原始数据的正确录入 用户在业务系统中录入原始数据时,必须保证按照规范正确无误的输入记录信息。 这就要求业务系统首先要制定科学标准的数据规范,业务数据录入人员要严格遵守数据 1 4 第三章企业信息化中数据整合关键问题 标准;同时还要提高业务人员的专业素质,养成良好的业务操作规范。这样使进入业务 系统中的数据符合企业需求,确保数据信息没有因为自由形式的字段而被掩盖。 ( 2 ) 数据的校验 为了保证数据的质量,数据的校验是非常重要的。一个很专业的数据操作人员在进 行数据录入时,可能会因为专业知识不够或不小心输入不规范的数据,此时业务人员自 身察觉不到。这时就需要根据业务需求在应用系统中对数据进行校验,严格控制进入业 务数据库中的数据,为后期进行数据的集中分析提供良好的数据基础。 ( 3 ) 常规的数据库清理 为了进一步控制数据的质量,定期对数据库中的数据进行清理是至关重要的。有些 在逻辑上不规范的数据通过数据检查和数据校验是分辨不出来的,需要对数据的业务逻 辑进行合理性分析,对那些不符合逻辑的业务数据进行修正整理,从而规范所有的业务 数据,提高数据的质量。 ( 4 ) 数据整合与分析 单个业务系统数据质量提高后,在单个信息系统的基础上,通过数据整合将多个信 息系统中的数据进行集中分析,消除各业务系统之间的不一致性、重复性和多样性,提 高数据共享的质量。然后再通过数据挖掘对集中的信息进行深加工,从中抽取重要信息 或行业规律,并从不同的角度进行分析研究,将所发现的信息运用到信息管理、查询处 理、决策支持方面,从信息中挖掘更深层次的规律,现实信息利用的最大化【1 5 】。 湖北大学硕士学位论文 第四章数据整合总体模型设计 数据整合的方式很多,本文重点就企业信息化中常用的基于数据库系统的数据整合 进行模型设计。基于数据库系统的数据整合的核心是数据的处置方式,即数据中心的模 型设计。基于数据库系统的数据整合的核心思想是建立一个数据共享中心,在数据共享 中心存放所有业务系统共享的数据。单个业务系统需要访问其它业务系统的数据时,可 以通过关联本系统和数据共享中心的数据,达到访问其它业务系统的资源的作用,从而
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 货物供应年度合同范本
- 监控施工转让合同范本
- 物业分期合作合同范本
- 行政位与酒店协议合同
- 药品承包销售合同范本
- 网吧承包装修合同范本
- 省大区域经理合同协议
- 郑州购房网签合同范本
- 运输资质借用合同范本
- 灵工签约个人合同范本
- 2025广东深圳市罗山科技园开发运营服务有限公司第二批招聘4人笔试考试参考试题及答案解析
- 2025云南宣富高速楚雄市东南绕城高速元绿高速那兴高速高速公路收费员招聘341人笔试历年参考题库附带答案详解
- 2025医院安全隐患排查治理专项行动的实施方案(详细版)
- 彼得·蒂尔:硅谷教父的叛逆人生
- 2025外研版新教材英语七年级上册单词表(复习必背)
- 四级手术术前多学科讨论制度(2025年)
- 艺术设计专业英语李洪春教学课件全套
- 小学科学项目式学习教学设计案例
- 压铸模具基础知识培训课件
- 风电厂冬季安全培训课件
- 2024年华北电力大学公开招聘辅导员笔试题含答案
评论
0/150
提交评论