(计算机科学与技术专业论文)数据集成平台的研究与实现.pdf_第1页
(计算机科学与技术专业论文)数据集成平台的研究与实现.pdf_第2页
(计算机科学与技术专业论文)数据集成平台的研究与实现.pdf_第3页
(计算机科学与技术专业论文)数据集成平台的研究与实现.pdf_第4页
(计算机科学与技术专业论文)数据集成平台的研究与实现.pdf_第5页
已阅读5页,还剩79页未读 继续免费阅读

(计算机科学与技术专业论文)数据集成平台的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘臻 摘要 随着企业信息化建设的不断深入,企业研发各式各样的应用软件,而这些应 用软件各自设计自己的数据存储和访问方式,“数据孤岛 不可避免。因此,企业 的一个关键工作就是将企业内外的各类信息管理系统及各类数据进行有效集成。 数据集成可以为企业提供全面的数据共享,它是企业商务智能、数据仓库系统的 重要组成部分。 本文旨在通过对数据集成技术的研究,主要利用数据抽取和数据联邦技术建 立数据集成平台,著根据适应企业要求的数据标准,实现舞地异构数据库逻辑上 或物理上的集成,使得数据格式标准化、数据访问一致化、数据存储集中化。 本文将首先介绍数据集成的研究背景,接着讨论数据集成的关键技术,包括 数据抽取和数据联邦技术的实施过程。然后,本文重点以某企业的实际项目 基础数据平台的设计与实现,来讲述数据集成技术在实际中的应用。侧重讲解本 人参与实现的平台的元数据管理功能,统一视图和数据抽取这两种整合方式的实 现过程,以及利用消息中间件w e b s p h e r em q 监控数据整合工程实时信息的过程。 通过基础数据平台可以对异构数据源进耄予有效的整合,满足针对多个小型数据瘁 和业务数据的整合、交换管理以及数据的实时监控,实现面向数据服务的数据整 合、交换管理功能。曩前,基础数据平台已投入使用,具有一定的实用价值。 关键词:数据集成;数据抽取;数据联邦;e h ;e t l 分类号:t p 3 1 9 a b s t r a c t a b s t r a c t a st h ed e v e l o p m e n to fi n f o r m a t i o nc o n s t r u c t i o ni ne n t e r p r i s e s , t h ea p p l i c a t i o n s o t t w a r e si nt h ee n t e r p r i s ea r ed e v e l o p e dw h i c hh a v ed i f f e r e n td a t a b a s e st os t o r ea n dt h e d i f f e r e n ti n t e r f a c e st oa c c e s s , r e s u l t i n gi nt h e 蚪i n f o r m a t i o ni s o l a t e di s l a n d 拜a sar e s u l t , t oh a v ea l le f f e c t i v ei n t e g r a t i o nf o rt h ev a r i o u st y p e so ft h ee n t e r p r i s em a n a g e m e n t s y s t e ma n da l lk i n d so fd a t ah a sb e c o m ea ni m p o r t a n tj o bi nt h ee n t e r p r i s e d a t a i n t e g r a t i o nc a np r o v i d ed a t as h a r i n gf o re n t e r p r i s e s ,a n d i f sa l li m p o r t a n tp a r to f e n t e r p r i s eb u s i n e s si n t e l l i g e n c ea n d d a t am i n i n g t h ep a p e ra i m st oc o n s t r u c tad a t ai n t e g r a t i o np l a t f o r mb yt h ed a t ai n t e g r a t i o n t e c h n o l o g y , e 舀d a t ae x t r a c t i o na n dd a t af e d e r a t i o n 。a n dt h ep l a t f o r me a r lr e a l i z et h e l o g i c a la n dp h y s i c a li n t e g r a t i o nf o rt h eh e t e r o g e n e o u sd a t a b a s e sf r o md i f f e r e n tp o s i t i o n s a c c o r d i n gt ot h ed a t as t a n d a r d i z a _ t i o i l f i tf o rt h ee n t e r p r i s e , f i n a l l ym a k i n gt h e s t a n d a r d i z a t i o nf o rt h ed a t af o r m a t ,a n ds u p p o r t i n gt h eu n i f o r mi n t e r f a c ef o rd a t aa c c e s s , a n dm a k i n gt h ed a t as t o r a g em o r ec e n t r a l i z e d t h ep a p e rw i l lf i r s t l yi n t r o d u c et h er e s e a r c hb a c k g r o u n do fd a t ai n t e g r a t i o n , a n d t h e nd i s c u s st h ek e yt e c h n o l o g i e so ft h ed a t ai n t e g r a t i o n ,c o n t a i n i n gt h ed a t ae x t r a c t i o n a n dd a t af e d e r a t i o n 。a f t e rt h a t , t h ep a p e rw i l le m p h a t i c a l l ya n a l y s et h ed e s i g na n d i m p l e m e n t a t i o n f o rt h ef o u n d a t i o nd a t ap l a t f o r m ,t e l l i n gh o wt oa p p l yt h ed a t a i n t e g r a t i o nt e c h n o l o g i e st oap r a c t i c a lp r o j e c t t h ep a p e rf o c u s e s o i lt h ed a t a b a s e m a n a g e m e n t , t h er e a l i z a t i o np r o c e s so ft h eu n i f o r mv i e wa n dd a t ae x t r a c t i o n , a n da l s o o b t a i n i n gt h er e a l - t i m ei n f o r m a t i o nf o rd a t ac o n f o r m i t ya n de x c h a n g ep r o j e c t sb y m o n i t o r i n ga n dc o n t r o l l i n gt h em e s s a g em i d d l e w a r e c a l l e dw e b s p h e r em q 。t h e p l a t f o r mc a ns u p p l ye f f e c t i v ei n t e g r a t i o nf o rh e t e r o g e n e o u sd a t a b a s e s ,a n dp r o v i d e t h e c o n f o r m i t ya n de x c h a n g em a n a g e m e n tf o rs e v e r a lm i n i t y p ed a t a b a s e s , m e e t i n g t h en e e d o fs e r v i c e s - o r i e n t e dd a t ai n t e g r a t i o n n o wt h ef o u n d a t i o nd a t ap l a t f o r mh a sb e e np u t i n t ou s 瓯a n dh a sc e r t a i np r a c t i c a lv a l u e s k e y w o r d s :d a t ai n t e g r a t i o n ;d a t ae x t r a c t i o n ;d a t af e d e r a t i o n ;e 1 1 ;e t l c l a s s n o :稃31 9 v n 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。 同意学校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名卢晓露中就露导师签名 签字醐。0 9 年6 肘2 翻私棚签字醐2 一圆月 故。 溉叶 独创性声明 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研 究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 学位论文作者签名:卢晓露 步就露 签字日期:2 0 0 9 年6 月1 3 日 娜7 卑6 月7 今闫 致谢 本论文的工作是在我的导师冯凤娟老师的悉心指导下完成的,冯凤娟老师严 谨的治学态度、科学的工作方法给了我极大的帮助和影响。冯风娟老师在学习、 生活和工作上给予了我很多的关心和帮助,对我的实习、工作和论文提出了很多 宝贵的建议和意见。冯凤娟老师一贯和蔼可亲的态度和认真求实的工作作风将影 响我的一生。在此向冯风娟老师表示衷心的感谢。 在撰写论文期间,感谢曾经合作的项目组的同事对我论文中的研究工作给予 的热情帮助。 感谢田春子、高芳等同学的鼓励和支持。 另外也感谢我的家人,他们的理解和支持使我能够在学校专心完成我的学业。 弓 吉 1 1研究背景与意义 l 引言 在企事业单位的信息化建设过程中,各个部门根据自身的业务需求,分别开 发了各自的业务系统。这些应用系统拥有各自的数据存储和访闯方式,彼此之闻 相对独立,进而形成一个个“信息孤岛 。 此癸,由于现代企业的飞速发展和企业逐渐从一个孤立节点发展成为不断与 网络交换信息和进行商务事务的实体,企业数据交换也从企业内部走向了企业之 间;同时,数据的不确定性和频繁变动,以及曩前集成系统在实现技术和物理数 据上的紧耦合关系,导致一旦应用发生变化或物理数据变动,整个体系将不得不 随之修改。 随着企业管理水平的提高,企业对信息共享、信息维护方面的需求越来越追 切。数据共享,可以使更多的人更充分地使用已有数据资源,减少资料收集、数 据采集等重复劳动和相应费用。但是,在实施数据共享的过程中,出于不同用户 提供的数据可能来自不同的途径,其数据内容、数据格式和数据质量千差万别, 有时甚至会遇到数据格式不能转换或数据转换格式后丢失信息等麟手闯题,严重 阻碍了数据在各部门和各软件系统中的流动与共享。 因此,如何把各种有效的数据资源统一在一个数据平台里,使用户能够高效、 简明地操作各类信息,已成为一个重要的课题。数据平台需根据适应企业需求的 数据标准,统数据的管理与访问,实现企业应用软件间的相互访问和数据传输。 数据平台应达到如下目标: 1 ) 数据格式标准化。企业大量现存和在建软件都有各自的数据存储访问方案, 其中可能存在功能相同的数据库表,餐是表名、字段名、数据类型、约束条件等 可能存在差异。这给统一管理、存储带来很大的困难,通过数据平台的数据建模、 元数据管理能力,统一数据存储的标准。 2 ) 数据访问一致化。各种软件会以不同的方式,如j d b c 、o d b c 、a d o , 访问不同厂家的数据库,如o r a c l e 、s q l s e r v e r 、d b 2 、m y s q l 等,这给企 业软件建设的标准佬、规范纯带来很大的困难。数据平台的统一数据视图可以屏 蔽异构数据库的访问途径差异,构建一个容纳所有生产数据的虚拟容器,通过较 小酶系统开销,以轻量级的方式,统一数据访闯。 3 ) 数据存储集中化。对于一些实时憔要求较高,数据吞吐量较大的系统,需 北京交通大学硕士论文 根据统一的数据标准,将各业务数据库中所需的表项执行抽取、清洗、转换,集 中存储到中央数据库中。 总之,数据集成是把不同来源、格式和特点的数据在逻辑上或物理上有机地 集中,从而为企业提供全面的数据共享,是企业商务智能、数据仓库系统的重要 组成部分。 1 2国内外研究现状 数据集成的两种主要方法是:通过数据联邦技术进行分布式数据访问;将数 据移动到对应用程序更有效或更一致的位置,这种方法被称作数据合并或数据安 排。分布式访问对应的是企业信息集成( e i i ) 技术,而数据安排对应的是e t l ( e x t r a c t - t r a n s f o r m l o a d ) 和复制技术i i 】。e t l 是数据仓库的关键技术,e i i 数据联 邦技术可为应用层提供访问数据的全局统一视图。 在实际中,e t l 和e i i 技术经常结合使用,以满足企业信息集成的需求。信息 集成主要是为了数据共享,用于决策分析、信息管理以及基于集成信息的应用开 发,而这需要信息集成工具同诸如w e b s p h e r em q 消息、w e bs e r v i c e s 等集成,这 些服务有利于信息和应用的集成。 目前,国内外在数据集成方面已经有不少研究,不少数据库厂商也提供了数 据集成方面的解决方案。如i b m 的d b 2 联邦系统、s y b a s e 的d i ( d a t ai n t e g r a t i o n ) 、 b e a 的d s p ( d a t as e r v i c ep l a t f o r m ) 等各自的信息集成解决方案。许多数据库厂商都 提供数据抽取工具,如i n f o r m i x 的i n f o m o v e r 、m i c r o s o f ts q ls e r v e r7 的d t s 和 o r a c l e 的o r a c l ew a r e h o u s eb u i l d e r 等,这些工具在一定范围内解决了数据的提取 和转换。但这些工具基本都不能自动完成数据的抽取,用户还需利用这些工具编 写适当的转换程序。 在第三方产品中,m m 公司的w e b s p h e r ed a t a s t a g e 是一套相对比较完善的产 品。d a t a s t a g e 可以从多个不同的业务系统中,从多个平台的数据源中抽取数据, 完成转换和清洗,装载到各种系统里面。其中每一步都可以在图形化工具里完成, 同时可以灵活的被外部系统调度,提供专门的设计工具来设计转换规则和清洗规 则等,实现了增量抽取、任务调度等多种复杂而实用的功能。其中简单的数据转 换可以通过在界面上拖拉操作和调用一些d a t a s t a g e 预定义转换函数来实现,复杂 转换可以通过编写脚本或结合其他语言的扩展来实现,并且d a t a s t a g e 提供调试环 境,可以极大地提高开发和调试抽取、转换程序的效率。 在数据集成方面,国内有不少研究比较系统的成果,例如东南大学的g a l a x y 系统对各种异构数据源进行了集成转换以及查询优化等方面的分析研究【2 1 。在实际 2 弓i 富 应用方面,北京工业大学在信息化建设过程中利用i b md b 2 数据联邦技术建立中 央数据库,集中控制和实现各业务系统闻的数据交换【3 】。 1 3本文的主要工作及内容 本文在研究数据集成的相关技术和解决方案的基础上,搭建一个数据集成管 理平台,提供数据管理功能,建立露库或跨库闻的统一视图和数据抽取功麓,剩 用e i i 工具d b 2i n f o r m a t i o ni n t e g r a t o r 建立联邦数据库功能,以及利用i b m w e b s p h e r em q 这消息中闻件对e t l 工具i b mw e b s p h e r ed a t a s t a g e 进行数据抽 取工作的实时监控功能。 论文组织结构如下: 第一章弓l 言。主要介绍数据集成的研究背景与意义,豳内外的研究现状,以 及本文的主要工作。 第二章分绍数据集成的方法及相关技术。详细介绥了数据集成技术e i i 和 e t l 的原理及实施过程。 第三章介绍数据集成平台基础数据平台的总体设计。讲述? 项目需求、 系统设计目标、系统功能设计、接口设计、数据库设计以及相关技术方案。 第四章分析基础数据平台的主要功能模块( 数据管理、数据整合和数据监控) 的详细设计与实现过程。 第五章基础数据平台的测试情况介绍。 第六章总结与展望。 3 数据集成方法及技术 2 数据集成方法及技术 本章将介绍数据集成的方法和相关技术。对元数据的管理、数据抽取转换加 载和数据联邦技术进行详细介绍,着重讲述了e t l 和e i i 技术的特点、原理及实 旋过程。 2 1数据集成概述 数据集成是把不同来源、格式秘特点的数据在逻辑上或物理上有撬地集中, 其主要方法包括数据交换和数据整合。 数据交换 企业各部门的业务系统之间的数据和应用具有分散和异构的特点。数据分布 于各部门各自的计算机上,对应各自的应用和管理系统具有不同的结构。既有以 数据库方式进行结构他管理的数据,也有大量以菲结构纯文件方式管理的数据。 数据类型多种多样,包括文档报告、图形表格、数字照片、多媒体文件、g i s ( 地 理信息系统) 数字地图以及各类数据库。不阕部门和不同业务的应用系统常常采 用不同的数据库管理系统( 如o r a c l e 、s q l s e r v e r 、d b 2 等) 运行于不同的计算机 操作系统( w i n d o w $ 、u n i x 、l i n u x 等) 。 将所有这些分散异构的数据集成到一个统一标准的数据库系统中,并且统一 所有的各类应用是非常困难的,因此通过采用数据交换技术,将现有数据资源以 原有的格式存储于分布式数据服务器上,实现分散异构的数据资源共享管理和流 通,在数据共事平台上搭载现有业务应用和开发新的业务应用系统。 数据整合 对于分布在不同的业务数据库系统的业务数据,需要制定相应的整合策略及 规范,如箍取的数据源名称、数据模型种类、实体名称、属性名称、属性值范围、 整合依据的触发器类型或增量抽取的标识等,在该策略及规范的指导下,执行数 据的迁移或逻辑视图的映射,从而实现数据整合。 e l j 于各个业务系统的数据库模式容易存在异构、逻辑设计不合理,整合数据 过程容易出现同名异义及记录重复,所以,整合数据的关键是制定整合标准及步 骤,并在该标准的指导下,逐步清除数据源中存在的闯题,确保整合至数据仓库 中的数据是一致的、正确的。 数据整合涉及元数据模型管理,数撼抽取转换加载技术和数据联邦技术等, 关键技术有e i i ( 企业信息集成) 和e t l ( 抽取转换加载) 。e i i 采用联邦技术进 s 北京交通大学硕士论文 行分布式访问,可以为应用层访问提供统一的视图资源,屏蔽数据源之间的差异, 实现逻辑上的数据集成,为数据共享提供轻量级的实现;而通过e t l 技术可实现 物理上将来自不同数据源的数据集中到中央数据库中【。用户可以使用基于e l i 的数据联邦来编写应用程序,无需拷贝数据即可访问来自异构数据源的最新数据。 e t l 提供抽取、转换和装载数据的技术,从而满足用户提取和转换大量数据的需 要。 总之,数据整合需要按照数据整合的标准,将源数据库中的数据抽取转换加 载到目标数据库,或者采用数据映射技术建立统一视图。而当数据整合无法满足 需求时,数据交换技术将源数据库中的数据以原有的格式交换至目标库中,直接 共享数据。本章将主要讲述数据整合的内容。 2 2 元数据管理 对业务数据本身及其运行环境的描述与定义的数据,称之为元数据 ( m e t a d a t a ) 。元数据是描述数据的数据。从某种意义上说,业务数据主要用于支 持业务系统应用的数据,而元数据则是企业信息门户、客户关系管理、数据仓库、 决策支持和b 2 b 等新型应用所不可或缺的内容【4 j 。 元数据库中存储各类数据库的逻辑模型、逻辑模型与物理模型间的语义映射、 关系间的映射关系以及物理数据库的部署、连接参数。 元数据的典型表现为对象的描述,即对数据库、表、列、列属性( 类型、格 式、约束等) 以及主键外键关联关系等的描述。特别是现行应用的异构性与分布 性越来越普遍的情况下,统一的元数据就愈发重要了。“信息孤岛”曾经是很多企业 对其应用现状的一种抱怨和概括,而合理的元数据则会有效地描绘出信息的关联 性。 通过分析业务模型,把杂乱无序的数据结构统一成为合理的、关联的、分析 型的新结构。模型的重要之处在于对数据做标准化定义,实现统一的编码、统一 的分类和组织。标准化定义的内容包括:标准代码统一、业务术语统一。 元数据对于e t l 集中表现为:定义数据源的位置及数据源的属性、确定从源 数据到目标数据的对应规则、确定相关的业务逻辑、在数据实际加载前的其他必 要的准备工作,等等。它一般贯穿整个数据仓库项目,而e t l 的所有过程必须最 大化地参照元数据,这样才能快速实现e t l 。 在实际数据整合过程中,对于企业的业务系统各自对应不同的业务,拥有各 自的数据以及数据库管理的情况,首先需要经过大量的业务分析和数据分析,对 数据建立模型,并产生元数据模型存储。然后通过元数据制定抽取规则和映射规 6 数据集成方法及技术 财,根据业务需求对数据进行抽取和映射,数据经过传输后进行交换或整合。 2 3数据抽取 e t l ( e x t r a c t - t r a n s f o r m l o a d ) ,帮抽取、转换、加载,是实现数据集成的主 要技术。e t l 负责将分布的、异构数据源中的数据如关系数据、平面数据文件等, 抽取到临时中闻层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中, 成为联机分析处理、数据挖掘的基础。e t l 可用于构建数据仓库,现在也越来越 多地将e t l 应髑于一般信息系统中数据的迁移、交换和同步。 数据整合的核心内容是从数据源中抽取数据,然后对这些数据进行转化,最 终加载到目标数据库或者数据仓库中去,这也就是我们通常所说的e t l 过程。下 面介绍e t l 的实施过程l 。 2 3 1抽取分析 在实施整个e t l 过程的时候,首先必须解决的是擒取分析的闯题,抽取分析 主要定义了什么数据需要被抽取、确定数据源信息、数据格式以及其它相关抽取 信息。 确定数据源信息,因为所要抽取的数据可能来自不同的数据库和操作系统, 所以在这个阶段需要确定承载数据源的操作系统和数据库的名称和版本。此外还 需要确定数据源的有效性,通常包括:哪些数据楚最精确的、哪些数据是最完善 的、哪些数据是最及时的、哪些数据是最符合数据目标库模型要求以及那些最贴 近于原始数据源情况。 根据输入的数据源可以分为数据库抽取、文件抽取、消息抽取。 2 3 2抽取规则 抽取规则主要描述了数据抽取的顺序、部分抽取还是全部插取、抽取时阔等。 需要定义各个数据抽取的顺序。由于抽取的关系型数据之间可能存在依赖性, 所以确定数据抽取顺序缀重要,这样可以保证抽取的数据的一致性。 确定是否全部抽取,对于本数据集成平台来说,主要采用了基于捕捉表的增 量捶取,即使用数据库触发器枫制,建立数据表变化捕捉表,通过固步捕捉表来 实现增量抽取1 6 j 。 7 北京交通大学硕士论文 2 3 3数据转换 转换定义了数据源和目标库的映射关系。根据定义好的转换模型,对输入数 据进行转换,包括格式上和内容上的转换。 一方面是显式的转换,例如字符串操作,日期操作,数字操作,n u l l 值过滤, s u m 、c o u n t 等聚合功能函数。另一方面是数据格式的隐式转换,例如从字符转 为数字。 在实际设计中,数据平台采用了x m l 描述转换规则,这样做的好处在于在转 换分析的阶段,数据库开发人员只需要开发描述转换规则的x l v i l ,然后导入e t l 工具中,e t l 工具可以将x m l 解释为特定的s q l 语句对整个转换过程进行操作。 2 3 4数据加载 这一步所进行的工作是运行以上的处理步骤,将数据装入到目标数据库。主 要的工作包括确定数据装入的次序、载入初始数据等。 2 3 5数据清洗 从数据仓库的观点可以将数据清洗定义为:数据清洗是删除数据中的错误和 不一致的数据,并解决对象识别问题的过程。与数据转换不同,e t l 过程中的数 据清洗注重的是数据的质量,其目的是尽可能地去除脏数据以保证数据仓库中数 据的正确性。 2 3 6e t l 工具 传统的数据整合方式需要大量的手工编码,而采用m mw e b s p h e r ed a t a s t a g e 进行数据整合可以大大的减少手工编码的数量,而且更加容易维护。m m w 曲s p h e r ed a t a s t a g e 为整个e t l 过程提供了一个图形化的开发环境。每一个j o b 就是一个e t l 过程【1 7 1 。下面简要介绍i b mw e b s p h e r ed a t a s t a g e : 拥有出色的数据源连接能力。可以连接包括文本文件、x m l 文件、几乎 所有的数据库系统( o r a c l e 、d b 2 、s q l s e r v e r 、m y s q l 、i n f o r m i x 等) 、w e b s e r v i c e s 、w e b s p h e r em q 。 完备的开发环境。i b mw e b s p h e r ed a t a s t a g e 的开发环境是基于c s 模式 的,通过d a t a s t a g ec l i e n t 连接到d a t a s t a g es e r v e r 上进行e t lj o b 开发, 8 数据集成方法及技术 d a t a s t a g es 铂啊再与后台的数据库连接起来进行数据处理。这里有点 需要注意,d a t a s t a g ec l i e n t 只能安装在w i n d o w s 平台上面。而d a t a s t a g e s e r v e r 则支持多种平台,比如w i n d o w s 、r e d h a tl i n u x 、a i x 、h p - u n i x 。 d a t a s t a g ec l i e n t 有四种客户端工具。d a t a s t a g ea d m i n i s t r a t o r 用于管理并 建立项目;d a t a g t a g e d e s i g n e r 是e t lj o b 开发的核心环境,用于开发、编 译、执行e t l j o b ) d a t a s t a g e m a n a g e r 用于管理项目资源,可实现e t lj o b 的导入导出及备份:d a t a s t a g ed i r e c t o r 用于监测e t l j o b 的运行状态,设 置何时运行e t l j o b 。 d a t a s t a g e 的体系结构见图2 一l 。d a t a g t a g e 在实施中通常是用专门为各个数据 库和e r p 软件提供的专用组件( s 乜黔,ied b 2u d ba p ls t a g e ,o r a c l eo c il o a d s t a g e , o r a c l e o c ls t a g e , s a ss t a g e ,s t a g f o r s a p ) ,这些s t a g e 是直接调用各种数 据 图2 - 1d a t a s t a g e 体系结构 f i g u r e 2 - 1d a t a s t a g c a r c h l t e c t u r e j o b 开发环境d a t a s t a g ed e s i g n e r 如图2 - 2 所示。在利用d m a s m g e 进行数据抽 取的工作时,通常设计如下步骣来实现【6 】: ( 1 ) 当源表发生增、删、改变化时,通过触发器,在源表对应的变化捕获表中 记录变化: ( 2 ) 通过变化捕获表,将源表中新增或修改的数据,抽取至目标表中; 北京交通人学硕士论文 ( 3 ) 清空变化捕获表的数据。 第一步需要在源数据库中创建增、删、改操作对应的触发器。第二步和第三 步主要通过在d a t a s t a g ed e s i g n e r 设计j o b 来实现,首先将源表原有的数据加载到 目的表,当变化捕获表中有数据时,发送增量导入开始消息到m q 的消息队列, 接着按照变化捕获表中记录的操作类型( 增、删、改) ,执行增量导入,当导入结 束后,根据增量导入的情况,把删除记录的条数、增加记录的条数、更新记录的 条数等信息包装成消息发送至m q 的消息队列,表示增量导入结束。m q 的消 息将在应用层展现。最后,清空捕获表数据。 2 4 数据联邦 图2 - 2 w e b s p h e r e d a t a s t a g c d e s i g n e r 工作界面 f i g u 他2 - 2 w e b s p h e 陀d a t a s t a g e d e s i g n e r w o r ka l v a 数据集成的另1 方法是通过数据联邦技术进行分布式数据访问,它对应的是 e l l ( e n t e r p r i s e i n f o r m a t i o n i n t e g r a t i o n ) 技术。e i i 根据应用层的需要,为应用层提 供访问数据的全局统数据视图,使应用层对数据的访问不受数据格式、数据位 置和访问接口差异的限制。e l i 相比e t l 技术,具有实时性高、成本低、时间短、 风险小的优势”i 。在实际应用中,e i i 联邦技术和e t l 数据集中技术常常结合使用。 数据集成方法及技术 联邦技术能够统一访问任何格式( 结构化的和非结构化的) 存储的任何数字 信息。联邦的底层原理是,对予用户面言,他们使用的所有数据看上去是在一个 数据源中。通过呈现这个单独的源镜像,联邦技术使数据请求者不必直面与访问 不同位置的数据相关的所有复杂性,包括连接、语义、格式和访问方法。中间件 使用户或代表用户的应用程序可以透臻地访问信息,丽不必关心其物理实现。 i b m 的d b 2i n f o r m a t i o i li n t e g r a t o r 对联邦技术进行了增强,具有透明性、异构 性、高级功麓、底层联邦数据源的自治性、可扩展性、开放性帮优化等性麓【较。 2 。4 1联邦系统 这里主要允绍i b md b 2 联邦数据库系统( 见图2 3 ) ,它是一种特殊类型的分 布式数据库管理系统。一个联邦系统由以下内容组成:作为联邦服务器的一个d b 2 数据库实例:作为联邦数据库的一个d b 2 数据库;一个或多个数据源;访问数据 库和数据源的多今客户端( 用户或应用) 。可以通过联邦系统用一个s q l 语句内多 个数据源发送分布式请求,并连接返回的结果,就好像访问的数据源都在本地一 样。例如,可以通过一条s q l 语句联合查询分别位予d b 2u n i v e r s a ld a t a b a s e 、o r a c l e 中的表,以及x m l 文件中的数据【l 】。 o r a c l e 图2 - 3 联邦数据库系统体系结构 f i g u r e2 - 3f e d e r a t i v ed a t a b a s es y s t e ma r c h i t e c t u r e 北京交通大学硕士论文 2 4 2映射配置 在实施e i i 的过程中,首先要进行映射配置。映射配置的准备工作是映射分析, 即分析数据源数据库的版本信息、数据库表结构信息,以及哪些数据库表需要被 映射到服务器端数据库中。之后建立数据源表与联邦服务器数据库表的映射关系。 联邦服务器与数据源进行交互的机制是包装器。联邦服务器使用存放在库中 的被称为包装模块的程序来实现包装器,这些程序允许联邦服务器执行诸如连接 数据源、循环地从数据源中获取数据等操作。创建完包装器后可以使用服务器定 义和昵称来标识每个数据源对象的特征 9 1 。 映射配置的具体步骤为: ( 1 ) 配置连接数据源的环境。数据库服务器的位置,数据源环境变量等的配置, 确保能连上数据源。 ( 2 ) 创建包装器。一个包装器对应一类数据源。 ( 3 ) 为数据源创建服务器定义。每一个数据源是以服务器的形式注册到联合数 据库系统的。 为数据源创建用户映射。若想访问数据源服务器,需要在联邦数据库本地 的用户i d 、口令与相应的远程数据源的用户i d 、口令之间建立一个关联( 即用户 映射) 。 ( 5 ) 为表、视图创建昵称。对于所定义的每一个数据源服务器,要想访问其中 的表或者视图,必须为所要访问的每一张表或视图创建相应的昵称。之后,当对 数据源服务器进行操作时,就可以用昵称来替代表或视图原来在数据源处的名字 进行操作了。 配置数据源的流程如图2 4 所示。 1 2 数据集成方法及技术 2 4 3建立统一视图 图2 4 配置步骤 f i g u r e2 - 4c o n f i g u r a t i o ns t e p s 在配置好映射规则后,将建立企业统一视图。采用e l i 技术可以将业务逻辑与 具体的数据层的关联方式分离。数据连接的工作从应用层下放到信息集成层。在 这一层可以为各种类型的应用实现全局的数据服务。分布在各个业务系统异构数 据库中的表或视图通过信息集成平台的昵称,应用可以像操作本地表一样来操作 昵称。异构数据库中的数据的关联规则转化为信息集成平台表与表之闻的关联。 建立统一视图需要对元数据进行一定的处理和加工。例如,人员的标识信息 在不同的系统中各不穗围。通过在建立昵称或视图时进行数据类型的更改可解决 数据类型不统一的问题。对于人员可能在不同的系统中有不同记录的问题,需要 建立裾应人员的标识映射表,从而实现统的客户标识,并在此基础上建立联合 视图,逻辑整合不同系统的人员信息。如图2 5 所示。 1 3 北京交通大学硕士论文 源 图2 5 建立统一视图实例 f i g u r e2 - 5a ne x a m p l ef o re s t a b l i s h i n gau n i f o r mv i e w 2 4 4e i i 状态监控 在e i i 系统中,数据库系统监视器可以收集数据库活动、系统性能,以及应用 性能的信息。时间戳监视器开关可跟踪联邦数据库与数据源交互的相应时间。时 间戳开关跟踪的联邦数据元素包括:创建昵称的相应时间,删除相应时间,插入 相应时间,透明访问时间【1 1 ,查询相应时间和更新相应时间等。 2 4 5e i i 工具 i b md b 2i n f o r m a t i o ni n t e g r a t o r 1 0 】是i b m 实验室在d b 2d a t ai o i n e r 和 r e l a t i o n a lc o n n e c t 的基础上,经过多年研发而推出的新一代信息集成产品,是i b m 信息管理领域未来的一个重要战略发展方向【l 】。它具有如下特征: 透明性。联邦系统具有屏蔽功能,可帮助用户在访问数据时,觉察不到底 层数据源的差异、特质和实现方式,使得一组联邦数据源看上去就像一个 系统。 异构性。联邦系统具有联邦异构类型数据的功能。这些数据类型包括结构 化数据( 例如,各类关系数据库) 、半结构化数据( 例如,x m l 文档) 、 非结构化数据( 例如,自由格式文本) 。 1 4 数据集成方法及技术 可扩展性。联摇系统的联邦能力可扩展到几乎任何数据源。同时,联邦系 统采用丌放式的w r a p p e r 框架,提供w r a p p e r 开发接口和工具。 自治。联邦系统对数据源系统没有任何影响,即无需在数据源系统上安装 程序、软件,无需特有的接口。 联邦数据库是一个d b 2u n i v e r s a ld a t a b a s e 它提供如下方式与联邦系统进行 交换:d b 2 命令行处理器( c l p ) 、d b 2 命令中心图形界面、d b 2 控制中心图形界 面、应用程序、d b 2 家族工具。其中d b 2 控制中心( 如图2 - 6 所示) 允许执行 大多数必要的任务。如安装、配置及修改联邦系统。 图2 - 6 d b 2 控制中心界面 f i g u r e2 - 6 d b 2 c o n t r o l c e n t “i n t e r f a c e 基础数据平台的设计 3 基础数据平台的设计 本章以某企业的实际项目基础数据平台为载体,介绍系统的需求分析、 设计目标、功熊设计、接口设计、数据库设计和相关技术方案等内容。侧重讲解 数据管理、数据监控和数据整合这三个模块的内容。 3 1需求分析 数据平台绍为企业信息系统集成的基础软件之一,应为企业信患系统提供数 据重组、数据同步和信息共享的方法、规则、运行和开发环境,用予解决信息系 统的数据按需重搀和同步更薪阀题。该框架应提供一组数据同步服务、数据标准、 模型构造和数据封装工具,约束和规范数据模型的设计、数据库的开发和建立数 据标准,统一数据库数据同步的策略。 平台的主要使用要求有: 1 ) 提供数据建模手段。为共享数据库的数据模型重构提供手段; 2 ) 提供数据映射策略。解决数据库的数据标准不一致的阁题; 3 ) 提供数据获取手段。提供基于数据映射规则实施数据获取的能力; 奄提供元数据管理缝力。提供对元数据的管理能力; 5 ) 能按需进行数据查询。提供按需组织数据查询的能力,可在数据重构后快 速实现数据查谗与展现; 6 ) 提供数据配置管理能力。提供符合集成框架要求的数据配置管理能力; 7 ) 提供数据变化通告能力。提供基于数据库攀件变化的消息通告功能,使得 数据改变可及时通知相关的应用; 8 ) 提供多数据库处理能力。提供多数据库综合数据处理服务,应能够屏蔽异 构多数据库系统,为用户提供统一的逻辑数据库和统一的数据库访闻接 口,并可有效支持并发多用户的访问,具有强容错能力和可扩展能力; 辨建立联会共享数据库。提供用于存放来自劈构数据源的综合数据的联合共 享数据库,为应甩提供统一的数据视图。 3 2设计目标 基础数据平台作为综合的数据库管理和请求平台,可以实现对多种类型的数 据库元数据管理,数据服务发布、授权以及查看管理,数据交换和整合监控,数 1 7 北京交通大学硕士论文 据整合管理、授权以及查看管理,数据请求定制,基础数据和系统管理功能。通 过数据库管理平台,可以满足针对多个小型数据库和业务数据的整合、交换管理 以及数据的实时监控,报表的灵活定制功能,实现面向数据服务的数据整合管理 功能。系统框架见图3 1 。 数据服务设计了三种量级的数据集成方式。由业务数据库,中央数据库和数 据抽取软件构成了重量级的数据集成方式,它可以快速响应上层应用的数据访问, 但实现代价较大,适合决策分析系统使用。由各业务数据库形成的统一数据视图 构成了轻量级的数据集成方式。它以软件的方式构建了一个虚拟的数据视图,能 够快速响应业务系统数据库的变化和数据整合的需求变更,适合各部门已研制业 务系统涉及数据的更改和升级。以联邦服务器为核心的中量级集成方式,是上述 两种方式的折衷,业务系统的数据仍然存储在原数据库中,联邦服务器上保存有 各业务数据表的映射和一个数据缓存,接受数据请求后,先在缓存中检索,未命 中后再根据映射检索业务数据库。 3 3功能设计 图3 - 1 系统框架 f i g u r e3 - 1s y s t e mf r a m e w o r k 1 8 基础数据平台的设计 圈3 - 2 总体功能设计 f i g u r e3 - 2 t h eo v e r a l lf u n c t i o nd e s i g n 如图3 - 2 所示,系统按照功能结构来分,包括系统管理、数据管理、数据监控、 数据权限管理、数据请求管理以及数据整合管理。其中系统管理为其他模块提供 运行必需的基础数据、参数数据和权限管理等功能,数据权限管理依赖于数据管 理愆基础数据进行处理,数据请求管理的数据来源依赖予数据整合管理定义的数 据表和数据视图对象。各个模块的功能如表3 1 所示。 表3 1 所有模块简介 1 b l e3 1t h eb r i e f i n t r o d u c t i o nf o ra l lt h em o d u l e s 爹u s e c a s e 名称 唯一标识符 j f 。3 或镌| | 。哕秒:哆哆| 。豫。嗨 荔 ,一, 47 :,”一? t 。? 4 :,;,;锄# z 匆0 $ 罐d “j ,。-。i、i 一? e 一。慨w 一尹,t ,一r 倚剃一? 数据库管理 p t - s j k g l 对数据库、用户、表和表字段数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论