(计算机应用技术专业论文)数据仓库系统软件集成框架研究.pdf_第1页
(计算机应用技术专业论文)数据仓库系统软件集成框架研究.pdf_第2页
(计算机应用技术专业论文)数据仓库系统软件集成框架研究.pdf_第3页
(计算机应用技术专业论文)数据仓库系统软件集成框架研究.pdf_第4页
(计算机应用技术专业论文)数据仓库系统软件集成框架研究.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 通着数据仓库技术在实践中的。泛应用,如何实现不同数据仓库系统之问数据的 f 办f 亓】处理和交换,已经成为数据仓库产品供应商和国际化组织研究的主要课题。卜一 本文以数据仓库技术为研究背景,刘数据仓库软件系统的集成管理进行了研究。 本文分析了数掘仓库系统软件的基本特征,提出了利用描述驱动技术来实现数据仓库 系统的集成管理,描述了e t l 操作和分析处理的基本处理流程和相应的执行构件, 定义了集成框架巾数掘模式转换规则和数据清沈规则,构建了一个基于星型模式和剥 象模型的分析模型和相应的数据查洵语言,提出了集成框架系统构件问的数掘交换标 准,= f :定义了基j 二此标准的的数掘交换雨i 元数掘交换方法,探讨了集成框架标准构什 管理的摹本方法和权限管理,最后介绍了数据仓库集成框架系统在商业领域的应j f j 实 例e c h a i n 系统和工程试验领域的应用实例f t e d w s 系统。 关键i 司:数据仓库元数掘集成框架描述驱动 a b s t r a c t w h i l ed a t aw a r e h o u s et e c h n o l o g yh a sb e e nw i d e l yu s e di np r a c t i c e ,i th a sb e e no n eo f t h em a i nr e s e a r c ht o p i c st h a th o wt oi m p l e m e n tc o - o p e r a t i o na n dd a t ae x c h a n g eb e t w e e n d i f f e r e n td a t aw a r e h o u s es y s t e m s b a s e do nt h ed a t aw a r e h o u s et e c h n o l o g y , t h i sp a p e rm a i n l yd e a l st h ei n t e g r a t e d m a n a g e m e n to fd a t aw a r e h o u s es o f t w a r es y s t e m t h i sp a p e rd e s c r i b e st h eb a s i cf e a t u r e s a n d c o n l p o n e n t s o fd a t aw a r e h o u s e s y s t e m ,a n d d e a l sh o wt ou s ed e s c r i p t i o n d r i v e n t e c h n o l o g yt oi n t e g r a t ed i f f e r e n td a t aw a r e h o u s es y s t e m s ,h o wt oi m p l e m e n tt h ec h a n g e f r o mo n ed a t as c h e m at oa n o t h e r ,h o wt oc l e a nd i r t yd a t ai nd a t at r a n s f o r m a t i o np r o c e s s , a n dh o wt oe x c h a n g ed a t aa m o n gd i f f e r e n tc o m p o n e n t so rs y s t e m s a t l a s t ,t h i sp a p e r t a k e st w o p r o d u c t s t oi l l u s t r a t eh o wt o i m p l e m e n ts y s t e m s f o l l o w i n gt h e s ep r i n c i p l e sa n dm e t h o d s t h e s et w op r o d u c t sa r et h ee c h a i ns y s t e ma s a l l a p p l i c a t i o ni nc o m m e r c ed o m a i n ,a n dt h ef t e d w s s y s t e ma sa na p p l i c a t i o ni ne n g i n e e r t e s id o r a a i n k e y w o r d s :d a t aw a r e h o u s e ,m e t a d a t a ,i n t e g r a t e df r a m e w o r k ,d e s c r i p t i o nd r i v e n 南京航空航犬人学顶十学位论文 1 1 数据仓库技术的发展 第一章绪论 1 1 1 数据仓库化进程 如何有效的管理企业在运营过程中产生的大量数据和信息一直是信息系统工作 人员面临的重要问题。7 0 年代出现并被广泛应用的关系数掘库技术为缓解这一问题 提供了强有力的工具。然而从8 0 年代中期开始,随着市场竞争的加剧,信息系统用 户不再满足于用计算机仅仅去管理每同的事务数据,他们更需要的是信息一一支持决 策制定过程的信息。这利需求使得在8 0 年代中后期出现了数据仓库思想的萌芽,为 数据仓库概念的最终提出和发展打下了基础。 9 0 年代初期,w h i n l t l o n 首先在建造数据仓库一书中指出“数据仓库是面 向主题的、集成的、稳定的、随时间变化的数据集合,用以支持经营管理中的决策过 程。”1 4 a 4 , 6 0 这意味着数据仓库系统是数据的集合,是面向商业主题( 如销售) 而不是 面向一个商业过程( 如发行定单) ,并且数据仓库包括从多个事务性系统中收集的所 有与主题相关的信息。这些信息按照固定的时间周期收集和发布,并且这些信息变化 得并不快。 从信息技术的观点来看,数据仓库化的目的是实现在一个组织内将而碲的信息及 时地送给需要信息的人。这是一个不断变化前进的过程而不是一个一次性能完成的解 决方案,并且这个方案需要一个与面向事务性系统构建方法不同的设计方法。 数据仓库通过一致的命名规则、量度规则、物理属性和语义来集成事务性系统数 据粥j 。因此,构建数据仓库需要转换事务性系统的数据:集成、转换、译码、净化无 效数据等。这些过程需要自动的执行以便他们能够在一个j 下在运行的系统基础上进 行。数据信息加载到数据仓库中以后,要能够被信息分析人员浏览、分析。数掘仓库 系统提供了很多工具来辅助数据分析,这些工具包括报表生成器、联机分析处理 ( o l a p :o n l i n ea n a l y t i c a lp r o c e s s i n g ) 工具以及数据挖掘( d a t am i n i n g ) 工具等。 信息分析人员通过使用这些数据分析工具获得数据仓库主题数据库中蕴涵的商业信 息。 1 1 2 数据仓库体系结构 数据仓库系统( d w s :d a t aw a r e h o u s es y s t e m ) 由源数据、仓库管理工具、数据仓 库、分析工具以及用户五部分组成,其体系结构如图1 1 所示。数据仓库的主要元素 和与数掘仓库相关的主要外部实体包括: 1 、源数据是数据仓库系统数据的来源,源数掘一般是传统的事务性系统产生的 数据仓库系统软t 1 集成框架研究 数据和其他的外来数据。 2 、数据获取转换操作。由于源数据和数据仓库数据存储模式以及取值范田可能 不同,因此源数掘在装入数据仓库之前必须转换成数据仓库的数据模式,并列转换后 的数据进行清洗操作,以便除去数据中的脏数据( d i r t yd a t a ) 。 3 、数据仓库按照企业业务主题模式存储事务性系统信息和历史数据信息;数据 集市是指为了某种分析目的而组织在一起的数据信息:元数据( m e t a d a t a ) 是成功的 数据仓库的重要组成部分【3 ,它描述了数据仓库的数据和环境。根据使用对象和应用 范围,元数据可以分为两类1 5 , 6 】:一类是技术元数据( t e c h n i c a lm e t a d a t a ) ,技术元数 据支持开发、维护和管理i t 环境的所有分析、设计、丌发和管理人员,它是连接丌 发工具、应用程序和技术的技术纽带,它是对源数据及其内容、数据仓库主题、数据 转换及各种操作信息的描述;另一类是商业元数据( b u s i n e s sm e t a d a t a ) ,它帮助用户 查询信息、理解结果、了解数据仓库中的数据和组织,使企业环境的服务更易于为终 端用户所理解,它为商业目标和进程的解释提供便捷的测览、导航和数掘查询。 4 、数据分析工具是辅助信息分析人员分析数掘仓库数据的工具。通过这些工具, 信息分析人员可以有效地获得数据仓库或数据集市数据并分析数据中隐含的决策信 息。如果没有特别说明,本文后面章节中提到的数据仓库概念包含数据集市。 5 、数据仓库用户一般分为三类:数据仓库管理员、信息使用者和信息探索者i l ”。 信息使用者以一种可以预测的、重复性的方式来使用数据仓库平台,他们查看相对少 量的数据,获得特定的数据信息,信息使用者一般使用特定的报表工具来访问数据仓 库;而信息探索者以不可预测的、不定时的方式来使用数据仓库平台,他们查看海量 的详细数据,并考虑不同类型数据和同一类型数据不同显示模式间的管理,他们一般 利用决策分析工具和数据挖掘工具来访问数据仓库。 南京航空航天人学硕十学位沦文 源数据层仓库管理层数据仓库层数据分析层用户层 一元数据流 数据流 幽1 1 数据仓库系统结构图 1 1 3 数据仓库构件 出图卜1 可以看出,数据仓库系统中主要有三类构件:数据仓库管理构件、e t l ( e x t r a c t 。t r a n s f o r m a t i o n ,l o a d ) 构件以及决策分析和数据展示构件。其中: 数据仓库管理构件是数掘仓库系统正常安全运行的保障,他管理数据仓库中的数 据和元数据,以及调度和管理系统中的其他构件。 e t l 构件实现将事务数据向数据仓库数据移动。e t l 构件经过抽取、转换、净化 和加载等操作将事务数据按照数据仓库数掘组织方式存入数据仓库相应的主题数据 库中。 决策分析和数据展现构件是数掘仓库系统与用户交互的工具。信息用户通过这些 工具获得并分析数据仓库数据,以便获得数据仓库数据中隐含的信息。 数据仓库系统中的各种不同构件不仅仅是独立的具有特定功能的执行体,这些构 件协同工作( ”,构成一个完整的商务活动。实现数据仓库系统的大多数构件都是元数 掘驱动( m e t a d a t a d r i v e n ) 的 8 , 3 7 1 ,基于元数据驱动的构件具有很好的扩展性,能够 满足不同数据操作的需要。 1 2 目标系统研究现状及选题依据 1 2 1 选题依据 目前,许多公司如o r a c l e ,i b m ,m i c r o s o f t ,s y b a s e 等针对自己的产品提出了自 己的数据仓库解决方案( d a t aw a r e h o u s es o l u t i o n s ) 。虽然这些解决方案在一定程度上 一3 - 数据仓席系统软件集成框架研究 缓解了数据仓库系统丌发的不规范状况,但是他们仍有很多缺陷,表现如下: 兼容性差,这些解决方案一般都与特定( 或特有) 的工具绑定,无法或很难 兼容其他公司丌发的数据仓库工具: 数据库环境单一,这些解决方案的数掘存储一般都采用特定的数据库产品, 很难兼容其他公司的数据库产品,不具有数据仓库数据存储的一般性特征: 工具环境无关性差,这些解决方案中的数据处理工具一般都是直接与特定的 数据库绑定,直接操作数据库的数据字典信息和数据信息。这在一定程度上提高了数 据访问效率,但是却使数据处理工具依赖于数据库环境; 功能单一,这些集成框架提供的数据处理工具大多只能进行简单的数据分析 和显示处理,无法对应商业应用中复杂的和特殊的数据分析显示需求。 复用度低,数据处理过程层次划分不明确,很难实现数据处理方法的重用。 无统一的数据交换格式,在数据仓库数据和元数据传输过程中没有统一的, 被各供应商采纳的数据传输交换格式。 缺少商业元数据信息。这些方案的数据处理工具一般直接使用数据库管理系 统的数据字典信息,没有方便用户理解数掘仓库数据的用户视图。这要求信息分析人 员必须理解数据仓库数据库结构。 另外,由于数据仓库系统是一个应用系统并且用户需求个性化很强,不可能有现 成的能满足用户各种需求的解决方案,必须对应用系统进行集成丌发,以满足不同用 户需求。 在集成开发中,为了达到最佳的应用效果,丌发者可能会使用不同供应商的处理 工具构建用户数据仓库系统,因此集成技术已成为构建数据仓库系统的迫切需要1 2 ”, 这些技术能够容易地将不同供应商产品集成到一起工作。这个认识引发了很多厂商和 国际化组织致力于创造一个能被各供应商认可的数据仓库标准,以便实现不同工具的 集成,其中以o m g ( o b j e c tm a n a g e m e n tg r o u p ) 的c w m ( c o m m o nw a r e h o u s e m e t a m o d e l ) 为典型代表。 1 2 2 研究现状与目标分析 o m g 通过分析数据仓库系统,提出了一套数据仓库元模型,并提出个元数据 交换标准x m i ( x m l m e t a d a t ai n t e r c h a n g e ) ,以期达到对不同数据仓库系统集成的目 的。但由于c w m 仅对数据仓库构件进行了概要的分类,只能实现对一类处理构件的 集成,而对于处理构件内部执行实体的集成和数据交换没有作进一步阐述,它的处理 工具集成粒度与上述各个公司的解决方案相同,这在一定程度上降低了集成框架中处 理构件的复用度和数据交换能力。 基于如上原因,我们开展了对数据仓库集成框架的研究。通过对数据仓库数据存 储和处理的特征分析,我们构建个数据仓库框架系统,这个框架系统能够解决如下 问题: 南京航空航大人学硕十丫:何论文 可以出第三方产品集成和扩展的丌放体系结构【2 4 】; 管理数据仓库存储、数据转换传输、分析处理和系统管理的集成元数抓 调度、存储管理、性能监测、报警事件等核心服务管理: 能够实现对数据处理过程的复用: 能够实现异构数据处理构件之问数据和元数据的交换。 1 3 数据仓库系统集成框架研究内容 本立讨论了数据仓库系统集成框架的基本结构,对数掘仓库集成框架中e t l 工 具集成、决策分析工具集成、集成框架中数据交换标准以及其他系统集成技术进行了 探讨,并根据构建的集成框架系统在商业应用领域实现了同本e m s y s t e m 株式会社的 e c h a i n 连锁药局系统,在工程应用领域实现了贵航试飞试验工程数据仓库系统 ( f t e d w s :f l i g h t t e s te n g i n e e r i n gd a t aw a r e h o u s es y s t e m ) 。本文着重讨论了数扣;仓 库集成丰l i 架各个组成部分的构造和实现。 本文主要研究内容共分为七章。 第。章绪论,回顾了数据仓库发展过程和数据仓库化进程,分析了数据仓库系统 体系结构和基本组成构件,描述了数掘仓库系统软件集成框架研究的背景和目标 第一:章分析了描述驱动技术和元模型的基本特征,描述了数据仓库系统集成梃架 的构建过程和基本特征,给出了集成框架的体系结构和基本处理构件并定义了处理构 件的基本特征,以及集成框架的应用实例。 第- :章描述了e t l 工具的集成,分析了e t l 操作的操作流程,着重讨论了e t l 操作中的数据转换操作,并给出了一个数据映射规则定义,最后就e t l 操作软件包 的功能类进行了分析,并介绍了e - c h a in 系统中e t l 操作的实现方法。 第四章简要分析了数据仓库系统决策分析处理的基本流程和基本处理构件,并描 述了决策分析流程,给出了一个基于星型模式和对象模型的分析模型的定义以及相应 的数据查询语言。 第f i 章分析了集成框架数据交换标准特征,提出了利用x m l 文档来实现不同处 理构件之间数掘交换的方法,给出了星型模式的d t d 文档定义和数据交换模板d t d 文档定义,并给出了基于星型模型数据查询结果数据d t d 文档生成处理过程,简要 介绍了基于x m l 文档的数据发析f 方法:介绍了系统集成的其他技术指定了数据仓 库集成框架系统的适用范围。 第,i 章简要介绍了利用集成框架在商业应用领域的实现实例,并详细介绍了m 】: 棵试验数掘管理领域的应用实例一一试飞试验工程数据仓库系统的实现和特征。 第匕章对全文进行了总结,归纳了本文的主要论点和研究工作,并列以后的1 i j i :究 1 作进行了进一步的展望。 本文内容组织结构如图1 2 。 数据仓库系统软 ,j :集成框架研究 图1 2 论文内弈组织 南京航! 航火人学硕f :学似沦义 第二章数据仓库集成框架 框架是一个超越类库的抽象层次i ,一个面向对象的框架是一个可重用的设玑 对于特定的应用问题,应用开发者可以对其进行扩展或剪裁。一个框架不仅仅是个 类库,他是一组提供特定功能的类,这些类之间相互关联并且可以被用来建立某一特 定类型的应用。数据仓库集成框架是对数据仓库应用系统一般特征和组成部分抽象丽 成的具有特定领域特征的软件集成环境,他定义了构建数据仓库应用系统的基本功能 类,并提供了数据仓库系统组成部分之| 、日j 数掘和元数据交换的方法。 2 1 描述驱动( d e s c r i p t i o n - d r i v e n ) 技术 描述驱动系统【他l 是指以一种可识别的格式描述领域配置定义的系统。在描述驱动 系统中,定义和实例是分丌处理和管理的。这样,系统可以分别处理定义和实例。拙 述驱动系统定义了相应的数据模型来描述定义和实例。 在图2 1 的描述驱动系统元模型( m e t a m o d e l ) 体系结构中2 t l ”,实例和定义 是分丌管理的。在这个体系中,实例位于系统抽象层的最底层一实例层。为了实例化 一个模型对象,需要有一个相应的数据模式( s c h e m a ) 。这个模式描述了模型剥象的 实例信息,并列应于实例层的上一层模型层。同样,为了实现对象模式定义,需要柯 一个定义信息来描述对象模式信息,这个定义信息称为元模型( m e t a m o d e l ) ,刘应 于体系中的元模型层。 l 出【皿 m e t e m e t a - m o d e ll a y e r m e t ar m o d e il a y e r m o d e ll a y e r i n s t a n c el a y e r 图2 - 1 四层元模型体系结构 元模型是对一个应用系统的描述,因此为了集成不同的系统,如关系数据库管理 系统和对象数据库管理系统,需要一个更抽象的数据模型来描述各个系统特征。这个 数掘模型对应于元模型体系的第四层,即元元模型层。元元模型层是为元模型定义的 数据仓阼系统软什维成 捱粜 i 】f 究 姬1 j 模型语言。通过元元模型,刁i 周的系统可以成功地集成到起。 实现描述驱动系统的领域配置定义被称为元数据。关系数据库管理系统 ( r d b m s ) 是描述驱动系统的典型代表。r d b m s 中的数掘字典信息f 62 j 描述了天系 数据库表的结构信息和存储信息,是关系数据库的元模型( m e t a m o d e l ) ;关系则是 对关系数据库元模型信息的实例化;元组( t u p l e ) 是对关系模型的实例化。图2 2 显示了关系数据库管理系统中数据的层次结构。 m e t a d a t a b a s er e l a t i o i q sr e l a t i o n 1e v e lh t r r i b u t e sm o d e l k e y s d a t a b a s es t u d e n t s a p p l i c a t i o n l e v e lc o u r s em o d e j d a t a张三d a t a l e v e l计算机基础 幽2 2 天系数据库层次结构 在关系数据库层次结构中,元数据库层是数据库系统的核心,对应于元模型体系 结构中的元模型层,是对r d b m s 特点的描述。r d b m s 就是通过访问元数据库巾的 持久数据( 数据字典) 来管理和访问数据库数据。 根据元模型体系特征来描述数据仓库系统数据构件和处理构件,构建一套数据仓 库系统集成模型,利用这些集成模型来实现不同数据仓库工具的集成,即数据仓库集 成框架中的数据模型位于元模型四层体系结构中的第四层一一元元模型层。 2 2 数据仓库集成框架描述 数据仓库集成框架构建的目的是在一系列软件设计标准的基础上,构筑丌放的支 持数据仓库领域软件集成的软件环境,实现数据仓库领域应用软件对框架的即插即用 和应用软件问的数据共享;在领域应用构件库的基础上,支持用户动态构筑应用系统, 即实现虚拟应用( v i r t u a la p p l i c a t i o n ) 。开放性是软件集成框架的目标【1 8 1 ,丌放性的 基础是软件的标准化,对于一个领域来说,为了实现软件集成,至少需要以下标准: ( 1 ) 领域公共数据模型标准:( 2 ) 基于模型的数据存取与交换标准:( 3 ) 应用程序 巧:操作规范;( 4 ) 领域软件用户界面规范。 数掘仓库集成框架,是数据仓库管理和数据处理标准构件的集成系统。根据陔系 统的体系结构,它可以引用构件库中的处理构件和数据仓库中的各种主题数据,引川 的处理构件和数据实体构成一个标准的数据仓库处理单元,一系列的处理单元构成数 抛仓库系统的个标准处理过程( 软件执行包) ,完成完楚的数据处理。 南京航空航天人学硕十学侍沦文 2 2 1 数据仓库集成框架 构造应用系统集成框架的难点在于如何抽取一类应用的基本特征,提取其公用模 型作为集成框架的基本功能类。同时由于数据仓库系统应用领域在不断扩大,从原来 的商业决策领域扩展到工程数据管理领域,因此数据仓库集成框架必须能够容易扩 充,以便适应数据仓库实际应用的发展需求。因此集成框架元模型的管理和扩展也显 得尤为重要。 集成框架的构造主要有两种方法:i ) 自底向上法( b o t t o m u p ) ,自底向上法是 指从数据仓库应用系统出发,提取应用系统的基本处理流程,并将其模型化,作为集 成框架的基本功能类;i i ) 自项向下法( t o p d o w n ) ,自顶向下法是根据数据仓库系 统特征,定义一组数据对象和操作对象,构建相应的对象模型,将这组对象模型作为 创建数据仓库应用系统的模板类,并将其应用到实际应用系统中以验证框架系统组件 定义的讵确性和完备性。图2 。3 描述了这两种方法的差异。 厂弋石 七j ;。一 萝多 、 ,彳磊蒜八所赢赢八仁磊谳乃五赢心 竺竺竺! 竺竺竺! ! 竺兰竺! 图2 3 框架构建方法 在实际应用系统构建过程中,一般不可能只采用一种方法来实现系统集成,因此 我们采用b o t t o m u p 方法来分析和构建数据仓库应用系统集成框架,并结合t o p d o w n 方法来验证该集成框架在实际应用丌发中的适用性。 数据仓库系统的开发是一个周期长、迭代的系统开发过程。在这个丌发过程中, 应用系统经过不断地迭代,逐步接近系统丌发目标。在这个迭代过程中,不断提取数 据仓库系统的公有处理和操作,并提取其特征,形成标准的能完成特定功能的处理构 件( 对象) 。进一步抽象此处理构件,使其具有一般性特征,成为数据仓库集成框架 中解决某类问题的模板类。经过列数据仓库系统的分析,我们构建数据仓库系统一般 数据仓j 车系统软件集成框架研究 的集成环境如图2 - 4 所示。 数 据 仓 库 管 理 舅塑鳢避一一卜塑摆堡心 数据仓库分析主题构建与设计 数 分析处理i :贝 据 报表生成器 访 问 曲线生成器 j i :数据显示f :贝 一 _ 一 t 一_ r 一_ r 一_ r 一1i i 源数据模式if 转换模式li 调度 ii 数据模式ii 报表曲线分析f 数据模式管理( 持久性元数据对象) l 数据仓库管理f :具 控制流一元数据流e 令数据流 幽2 - 4 数据仓库系统集成环境 2 2 2 数据仓库集成框架基本特征 从图l ,1 和图2 - 4 中,我们可以看出,数据仓库中数据从数据源到数据仓库( 数 据集市) 直到数据发布,具有流动的单向性和存储的层次阶段性特征( 如图2 - 5 ) , 因此数据仓库中的处理单元( 软件构件) 般也具有输入为低阶段数据,输出为高阶 段数据的特征,由此我们给出框架中处理单元构件的描述,即处理单元构件又可抽象 视为三元组( d a t a l n ,p r o c e s s ,d a t a o u t ) 且d a t a l n 在存储阶段上低于d a t a o u t , 即满足数据流动的单向性,处理单元构件采用复杂对象模型,其中d a t a i n 和d a t a o u t 为数据实体,p r o c e s s 为处理构件。数据实体可以是具体类型的数据,也可以是元数 据( 即数据的描述,包括存储阶段和位置,类型描述,模式说明等) 。 源当数主 轻 数前据题度 据 采集加载 归类 数 - 仓 综 层据 库集合 层层 市层 析与 图2 - 5 数据仓库数据流动层次 以上给出了框架系统的基本特征描述,即数据流动单向性,存储阶段性,处理实 体作为复杂对象的嵌套复合性以及数据实体内容的双态性( 数据形态或元数据形态) 。 这样我们可以依据处理单元在阶段存储中的位簧和具体功能,分类定义框架中的基本 处理单元构件;通过数据构件的面向对象模型封装和数据仓储的数据模型,来屏蔽数 南京航空航天人学硕十学付沦文 据模型差异剥集成框架的影l 响,使得框架具有高的抽象度和广的数据模型适用性。 数据仓库集成框架中处理单元一般分为管理类构件、e t l 操作类构件以及数据分 析和发布类构件三类,分别进行数据仓库不同阶段的数据处理;数据实体的引入,一 方面使得处理单元与数据库管理相互独立,另一方面还使数据仓库的处理形成图2 6 所示的标准执行流程。图中数据查询和数掘存储模块一般由数据仓库所采用的d b m s 支持实现,如果数据实体支持该d 1 3 m s 的数据模型,并提供数据访问接口,则数据实 体可以越过数据查询存储模块,通过元数据直接操作数据仓库,图中虚线即表示数 据实体在这种元数据形态下的工作流程;在同数据处理层次中,处理单元实例化为 满足处理单元接口规范的不同的处理构件,以实现对不同数据处理方法的集成。 翮藿一 圈2 - 6 框架的标准执行流程 在集成框架中,处理构件库是符合框架处理单元接口规范的构件集合,用户根据 分析处理的要求,选择特定的处理构件,再指定处理的数据存储要求,生成数据构件 d a t a i n 和) a t a o u t ,组合上述构件生成处理单元构件,构件执行时处理结果保存于 d a t a o u t ,可以作用于数据仓库,也可以作用于用户界面,对于复杂的功能要求,可 以组合基本处理单元生成复合构件对应,另外还可以提供支持a s p 服务方式的构件, 框架的分布式构件计算环境体系结构如图2 7 。 图2 - 1 框架分布式构什计算体系结构 2 2 3 数据仓库框架构件 经过上述各节的分析,我们构建个数据仓库系统集成框架系统( 图2 8 ) 。在这 个框架系统中的数据处理构件分为如下几类: 管理类构件,这类构件主要管理集成环境中各种数据处理构件和数据实体, - 数据仓库系统软仆集成框架研究 以保障数据仓库系统的乖常运行,并维护用户定义的软件执行包以及数据仓库数据处 理和访问权限管理。管理类构件主要由系统管理员维护和使用。 仓库访问类构件,实现对数据仓库和数据集市的数据访问。仓库访问类构件 实现将客户端构件数据访问请求转换成对数据仓库的数据访问,并将结果数据对象传 送给客户端构件。 e t l 操作类构件,是数据仓库集成框架中主要构件之一,e t l 操作类构件也 是实现不同数据实体之间数据转换处理构件。集成框架中e t l 操作应用范围比一般 数据仓库系统广。数据仓库集成框架中数据实体的转换包括三类:源数据库数据到数 掘仓库数据的数据转换、集成框架不同构件接口数据实体( d a t a l n 和d a t a o u t ) 问的 数据转换和数据仓库主题数据库与数据集市间的数据转换。 数据分析和发布类构件,数据仓库的主要功能是辅助决策分析,因此数掘分 析( o l a p ) 和数据挖掘( d a t am i n i n g ) 是集成框架中重要构件。决策分析包是用户 根据自己的数据分析需求定义的决策分析类构件的执行序列。决策分析引擎执行决策 分析包,协调决策分析类构件的执行,从而完成用户决策分析操作,并采用报表、趋 势图或柱状图的数据显示方式向数据仓库分析用户发布分析结果。 日口 数据源 l 田b 饥 : 数据发布 图2 - 8 数据仓库应刚系统集成框架体系结构 通过对以上构件的集成管理,数据仓库集成框架系统可以有效实现数据仓库系统 的数据管理和分析处理操作,实现数据仓库系统构建的目的。 - 1 2 南京航空航天人学硕十学位论文 2 3 集成框架在实际中的应用 根据定义的集成框架处理构件、数据构件以及数据处理和交换规则,我们在商业 领域和工业试验领域实现了两个数据仓库系统。 2 3 1 日本e m s y s t e m 连锁药局系统( e - c h a i n ) 在日本,医院和药局是分丌经营的。病人持医院_ 丌具的处方签( 单) 到药局买药。 在早期,一般的交易模式是病人从一家医院诊断后,到另家药局去购药。随着同本 经济和社会的发展,同本的药局经营出现了一些新的情况: ( 1 ) 医院的专业化进程加快,越来越多的医院实现专业化的经营方式,出现许 多的专科诊疗所。这种现象的出现,要求药局也应该实现专业化经营的道路。 ( 2 ) 药价差额在减少。随着日本医疗制度的改革,药品利润正在减少,在这种 情况下,任何导致药品失效和不良库存都会引起总体利润的减少。 ( 3 ) 大型药店的出现对小药局冲击很大。 ( 4 ) 信息高速公路的发展,药品价格的透明化,使得药局经营也要透明化。 ( 5 ) 经营管理的重要性越来越大。优良的管理水平能够带来人力和物力的节约。 面对这些新的情况,药局必须走连锁经营的道路。这样做的好处在于可以充分利 用各家药局的诈常储备,互相紧急调剂药品;可以组织起来,以集团的方式集体采购 药品来得到优惠,同时可以将部分连锁药局的剩余药品调剂出去:充分利用网络的优 势,联合经营来抵制大药店的冲击,将影响减少到最小;通过对销售情况的分析,提 供经营管理的决策支持。因此需要构建一个好的决策分析系统来辅助药店的经营决 策。 f 1 本e m 连锁药局系统分成有两个子系统构成:连锁店铺和本部。 连锁店铺系统主要实现日常药品销售管理,包括在库管理系统、定货系统、经营 管理和会员管理系统、患者药历管理系统等功能。 本部功能实现对连锁店销售情况、库存情况信息的聚合,构成连锁药店药品信息 的数据仓库,并根据各个店铺的库存信息和药品期限信息来实现药品订购和销售的决 策支持处理,主要功能包括: 仓库管理系统。包括入库业务,出库业务,盘点业务,药品期限管理,毒药 管理业务等数据管理主题。 经营管理和会员管理系统。包括销售量分析业务,店铺分析业务,在库分析 业务,会员管理、财务会计等决策分析功能。 系统维护。 数据仓库系统软什集成框架研究 2 3 2 试飞试验工程数据仓库系统( f t e d w s ) 工程数据是在工程试验中产生的大量不规则数据,以往这些试验数掘是以数据文 件或印刷文档方式保存和管理的。随着工程试验的不断进行,尤其是具有科学试验性 质的工程试验的进行,人们希望能够从大量的历史试验数据中挖掘出一些隐藏的舰律 性的信息,并利用这些规律性的信息来指导进一步的工程设计和试验。同时随着试验 工具和试验手段的不断改进,试验中获得的数据格式也发生了变化,人们希望能够将 不同格式的试验数据统一保存管理,以便能够对同类试验数据进行比较。 但是传统的工程数据管理方式很难满足人们的这种需求,原因如下【2 1 5 l 6 ”l : 数据管理难度大,工程数据的数据类型复杂,采用数据文件方式和印刷文档 方式存储数据很难体现出各种类型数据的特点; 数据信息组织分散,传统工程数掘管理方法是以试验为单位存储数据,很难 实现对相同试验或相同试验科目的数据进行集中存储; 缺乏数据管理扩充能力口”,传统的工程数据管理系统采用固定表格方式存储 试验数据,系统无法管理改变格式后的试验数据; 缺少有效的数据分析处理工具,只能进行简单的数据展现,不能实现多试验 或不同试验间的数据比较。 我国的飞机试验已经积累了很多数据,但是这些数据都是采用分散存储的方式进 行保存【2 。试飞试验工程数据仓库系统( f t e d w s ) 以现有的飞机试验数据为主要数 据源,建立包含试飞试验数据和j x l 洞试验数据的试飞数据仓库( f d w :f l i g h td a t a w a r e h o u s e ) ,采用o l a p 的数据组织技术来建立数据分析模型,利用报表和图形的数 据展现方式来发夼分析数据,同时依据描述驱动技术来实现试飞数据仓库不同数据格 式和不同试飞机型间数据的集成和管理。 本章小结 本章首先介绍了集成框架系统构建的基本技术一描述驱动技术,并分析了描述驱 动技术元模型的四层体系结构;着重介绍了数据仓库集成框架构建的方法和基本特 征,给出了数据仓库数据处理构件的基本定义和数据仓库集成框架系统的体系结构, 描述了该体系结构的主要组成内容:最后就数据仓库集成框架在商业应用领域和工程 应用领域的应用系统进行了简单的介绍。本章是目标系统研究的总体内容和方案。 南京航空航天人学硕十学位论文 第三章e t l 工具集成 抽取( e x t r a c t ) 、转换( t r a n s f o r m ) 和加载( l o a d ) 是数据仓库系统数据处理的 关键操作i9 1 。e t l 操作的实质就是根据数据处理的需要将源数据对象经过e t l 处理 后加载到目标数据对象中。数据仓库系统中数据最初在数据仓库创建时装入数据仓库 中,并在数据仓库系统运行过程中定期析取。数掘仓库系统数据来源可以是数据库, 也可以是自由格式的文本信息】。本章将介绍集成框架中e t l 工具的集成。 3 1e t l 操作集成目标 e c h a i n 系统中,各个c h a i n 店都有自己的药品编号,为了有效实现药品销售信 息的共享,在c h a i n 店事务数据加载到本部数据仓库时必须进行药品编号的转换。同 时,c h a i n 店事务数据可能会出现无效数据,如销售的药品缺少包装信息等,在本部 数据仓库中出现这样的无效数据,将会影响对药品销售数据的分析,因此数据仓库系 统需要对将加载到数据仓库中的数据对象进行清洗操作,以除去数据中的脏数据。 数据转换操作是e t l 操作也是集成框架中的核心操作。数据转换操作的最终目 的是为传输数据到操作平台上准备数据【3 2 】,其中操作平台通常是个数据库管理系统 或数据处理构件。在集成框架中,数据实体的模式差异增加了仓库系统的集成难度。 数据转换操作根据转换规则将数据实体从一个模式转换成另外一个,有效解决了集成 框架中处理构件的数据交换和集成的问题。数据转换操作的体系结构如图3 1 所示。 幽3 - 1 数据转换处理体系结构 集成框架中,e t l 集成系统管理了数据仓库系统中e t l 操作流程所需要的基本 构件以及他们问的关系。e t l 操作集成要能够实现在不同类型( 关系、多维和对象) 数据实体问交互数据【9 】,e t l 集成系统的主要功能如下: 实现源数据对象和目的数据对象与数据处理的集成。这里的数据对象可以是 数据仓库系统软仆集成框架研究 各种类型的数据,如关系型数据、多维数据,对象数据以及有固定字段的文本文件等。 实现e t l 操作流程的集成和管理。e t l 流程主要采用“白盒法”和“黑盒法 两种集成方法【9 】。“白盒法”是指用户可以控制和修改e t l 的执行流程,定义源数据 和目的数据以及他们间的映射关系;“黑盒法”是指e t l 的执行流程列用户而言是 透明的,数掘转换和处理操作采用默认的执行流程和数据映射规则。 实现e t l 执行构件的分类管理。 3 2e t l 体系结构 3 2 1e t l 集成体系结构 通过31 节的描述,e t l 操作可以看作是数据复制技术的一种具体实现。从有信 息系统以来,数据复制技术就一直在系统实现中应用。以往,复制是由特定数据复制 需求驱动的活动,在没有考虑更广适用性的前提下设计和实现的。传统的数据复制方 法中,数据复制需求只在丌发的应用系统范围适用,并根掘这个需求设计丌发一个应 用程序,这个应用程序从数据源中获得数据,根掘数据转换需求对数据进行处理,然 后将处理后的数据加载到目标系统中。这种方法称为应用层复制( a p p l i c a t i o n l e v e l c o p y i n g ) l 】。大多数应用系统采用应用层复制技术来实现数据复制。 在数掘仓库系统中,由于数据源不确定,并且针对不同的数据源有不同的数掘转 换需求,采用应用层复制技术实现数据仓库系统e t l 操作将会增加数据仓库系统的 开发成本,降低处理构件复用度,增加动态添加数据源的代价。因此在数据仓库集成 框架中我们采用分阶段的数掘处理方式来实现数据转换处理的集成和数据处理构件 的复用。e t l 操作集成在数据仓库集成框架中的位置如图3 2 中阴影部分所示。 在e t l 操作集成框架中,e t l 集成器实现对e t l 操作的集成管理,管理e t l 处理构件和e t l 操作软件包的调度;e t l 流程实现e t l 操作类构件的集成、调度和 管理,一个e t l 操作流程和相关的数据信息构成e t l 软件包。在集成框架中,个 e t l 软件包对应着一个数据转换过程,e t l 软件包的调度方法有两种:时问驱动和 事件驱动。其中时间驱动方法是指在指定时间点调度执行e t l 软件包,如每天o :o o 、 每周闩1 0 :o o 等;事件驱动是指在某一事件发生时执行e t l 软件包,如药品信息表 发生修改操作时调度执行等。 南京航空航天人学硕十学何论文 幽32e t l 操作集成体系结构 3 2 2e t l 操作的逻辑流程 通过对数据仓库数据复制技术的分析研究,我们将数据仓库系统e t l 操作分为 如下几步: 1 、设定数据源数据信息 在数据仓库中,数据源是最小化定义口3 1 ,这里的最小化定义是指只定义了目标数 据实体所关心数据的描述信息。在连锁药局中,连锁本部只关心店铺数据实体中处方 来源信息和药品信息,而对于店铺中处方点数信息并不关心。所以在店铺数据库中处 方点数信息并不作为e t l 操作的数据源信息定义。 2 、设定目标数据信息 目标数据是数据处理单元的d a t a o u t 数据实体,如果d a t a o u t 实体对应数掘库管 理系统的数据模型,目标数据实体则直接作用于数据仓库,否则目标数据实体作用于 处理流程的下一个处理构件。 3 、源数据与目标数据的数据映射 当源数据和目标数据都定义好以后,下一步就应该定义源数据如何转换成目标数 据。这个映= 身寸关系要能够对应多种不同的数据类型处理,并能实现复杂的映射处理, 如根据一组源数据信息生成一个新的目标数据,e c h a i n 系统中根据患者保险表的保 险者番号( i n s u r e r c o d e ) 、本人家族标志( h o l d e r ) 、给付率( n o t b u r d e r a t e ) 、第一 公费负担者番号( f i r s t b u r d e r c o d e ) 和第二公费负担者番号( s e c o n d b u r d e r c o d e ) 通 过保险计算算法,生成相应的保险类别( 国保本人,国保家族、社保本人等) 。在3 24 节将详细介绍数据映射规则的定义。 数据仓库系统软件集成框架研究 4 、数据复制模式定义 数据复制模式是指数据处理构件对目标数据实体的操作方式,一般有三种:追加 ( a p p e n d ) 、替换( u p d a t e ) 和更新( r e f r e s h ) 。其中,替换是指用新的数据实体代 替旧的;而更新是指用新的数据实体数据替换原有数据实体中发生修改的数据。 5 、调度e t l 任务 在e t l 操作逻辑流程中,软件包的调度执行通常是与e t l 操作定义过程( 1 到 5 步) 分开处理的。并且e t l 操作是个重复的过程,根据定义的e t l 调度信息,在 设定的时问或事件发生时执行。 6 、获取源数据 数据获取操作是e t l 操作的第一步,他根据定义的源数据实体信息,从数据库 或其他处理单元的d a t a o u t 数据实体中获得需要进行转换处理的数据,并作为d a t a l n 数据实体送给数据转换处理单元。 7 、根据映射规则实现源数据与目的数据的转换 数掘转换处理构件根掘定义的处理规则,将d a t a l n 数据实体的数据转换成相应 的d a t a o u t 数据格式。转换操作在不同层次上进行。e c h a i n 系统中,连锁本部的数 据转换构件首先将店铺数据进行一致化处理,如药品编号统一等,然后分类处理店铺 数掘,最后执行数据聚集操作,将店铺数据存入数据仓库相应的临时主题库中。 8 、数据净化和清洗 在数据装载到数据仓库之前,需要对数据进行净化处理,除去不规范数据,保障 数据仓库数掘有效性和完整性。在f t e d w s 系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论