




已阅读5页,还剩63页未读, 继续免费阅读
(计算机软件与理论专业论文)电信企业数据仓库系统质量问题的研究与实践.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 数据仓库是支持仑业决策分析和实施c r m 的核心技术。保证数据仓库的 质量是指导企业维护并拓展客户关系管理的基础,但目前理论缺乏标准化和实 际应用。 首先,本文针对目前数据仓库系统设计的不足,对传统的数据仓库系统设 计思路进行了改进,指出了业务视角对于数据仓库系统的质量保证具有重要意 义:其次,以f c m 软件质量模型为基础,提出了数据仓库体系结构和质量模型 框架,将体系结构与质量因子完全联系起来,明确了数据仓库系统质量保证的 目标;然后,本文基于对数据仓库系统质量方面的研究,结合电信企业数据仓 库系统建设的实践,设计并实现了一个电信领域大型数据仓库系统质量检验的 全过程,提出了数据仓库系统质量检验的方法。最后,以电信企业经营信息分 析的其中一项关键内容为例,给出了质量检验的具体实施过程。 本文将质量因子与数据仓库体系结构联系起来,系统的对数据仓库系统进 行了全面质量检验,对于指导整个数据仓库系统设计、实施、运行和维护的全 面改进有着重要的指导意义。 关键词数据仓库软件质量数据仓库系统质量框架软件质量检验 a b s t r a c t d a t aw a r e h o u s i n gi so n eo ft h ec o r et e c h n o l o g i e st os u p p o r te n t e r p r i s eb u s i n e s s d e c i s i o na n a l y s i sa n di m p l e m e n tc u s t o m e rr e l a t i o n s h i p m a n a g e m e n t d a t a w a r e h o u s eq u a l i t ya s s u r a n c ei st h ef o o t s t o n et oi n s t r u c te n t e r p r i s e si nm a i n t a i n i n g a n dd e v e l o p i n gc r i t i c a l c u s t o m e r s h o w e v e r , c u r r e n tr e l a t e dt h e o r i e sn e e d s t a n d a r d i z a t i o na n ds u c c e s s f u lp r a c t i c ec a s e f i r s t l y , t h es h o r t c o m i n g so ft h ec u v i e n td a t aw a r e h o u s es y s t e md e s i g nw e r e a n a l y z e da n dt h ep r o c e s s e so f d a t aw a r e h o u s ed e s i g nw e r ei m p r o v e d t h e i m p o r t a n c eo fb u s i n e s sp e r s p e c t i v ef o rd a t aw a r e h o u s eq u a i l t ya s s u r a n c ew a s e m p h a s i z e d s e c o n d l 5b a s e do nf c m ,f r a m e w o r kf o ra r c h i t e c t u r ea n dq u a l i t ym o d e l w a sp r o p o s e d s o ,d a t aw a r e h o u s ea r c h i t e c t u r ew a sd i r e c t l yl i n k e dt oq u a l i t y d i m e n s i o n sa n dt h eg o a lo fq u a l i t ya s s u r a n c ew a sc l e a r e d t h i r d l y , b a s e do nt h e r e s e a r c ho nd a t aw a r e h o u s es y s t e mq u a l i t ya n dt h ep r a c t i c ei nb u i l d i n gt e l e c o md a t a w a r e h o u s es y s t e m ,at e l e c o md a t aw a r e h o u s eq u a l i t yc h e c kp r o c e d u r ew a sd e s i g n e d a n di m p l e m e n t e d a l s o ,q u a l i t yc h e c km e t h o d o l o g yw a sp r o p o s e d f i n a l l y , t h e q u a l i t yc h e c kp r a c t i c ep r o c e s s e sw e r ea d v i s e da f t e rt h ea n a l y s i so fo n eo ft h e e n t e r p r i s eb u s i n e s si n f o r m a t i o nk e yp e r f o r m a n c ei n d i c a t o r s t h eq u a l i t yd i m e n s i o n sw e r el i n k e dt ot h ed a t aw a r e h o u s ea r c h i t e c t u r e ,a n da t o t a lq u a l i t yc h e c kw a sm a d eo nd a t aw a r e h o u s es y s t e m t h i st h e s i sp l a y e da l l i m p o r t a n tr o l ei nt h ei m p r o v e m e n to ft h ed e s i g n ,i m p l e m e n t a t i o n ,o p e r a t i o na n d m a i n t a i n i n go f t h ee n t i r ed a t aw a r e h o u s es y s t e m k e y w o r d sd a t aw a r e h o u s e s o f t w a r eq u a l i t y d a t aw a r e h o u s es y s t e mq u a l 时f r a m e w o r k s o f t w a r eq u a l i t yc h e c k 电信企业数据仓库系统质靖问题的研究与实践 1 1 论文背景及目的 第一章绪论弟一早绢阢 2 0 世纪9 0 年代以来,国内外各行业掀起了一股数据仓库的热潮,数据仓库 技术作为一种高效的决策支持的手段为越来越多的企业所青睐。但是,在企业纷 纷建立数据仓库应用盼同时,随之而来的却是日益显现的令人痛苦的质量问题 ”】。数据仓库是支持企业决策分析和实旄c r m 的核心技术,保证数据仓库的质 量是指导企业维护并拓展客户关系管理的基础,低劣的数据仓库质量或者滥用数 据是企业投资的最大浪费。数据仓库的质量问题已经引起各行业的普遍关注,但 理论缺乏标准化和实际应用。在处理客户数据方面,一些专家提出了一些方法来 改善和提高数据质量,包括处理客户姓名、住址信息冲突的算法。也有一些专门 的工具为提高客户数据质量提供支持。但解决数据仓库质量问题不应该只局限于 改善数据质量方面。 电信行业是我国引入竞争相对较晚的一个行业,但竞争的激烈程度丝毫不亚 于其他行业。各电信企业都积累了庞大的客户和业务资料库,并纷纷开始搭建数 据仓库以增加竞争优势。但由于电信行业数据源庞杂且不规范、数据仓库构建环 节多且复杂、需求广泛且多变,致使整个数据仓库系统的质量难以保证,造成电 信企业信息资源浪费,投资回报率降低。因此,通过规范的、行之有效的、系统 的方法对整个数据仓库系统质量实施全面的监控和管理势在必行。 本文的主要思路是:针对目前数据仓库系统设计的不足,提出对传统的数据 仓库系统设计思路的改进,使其充分体现企业的业务知识( b u s i n e s sk n o w l e d g e ) , 使我们能够确定数据仓库质量的目标。并以f c m 软件质量模型为基础,提出数 据仓库系统的质量模型,给出数据质量的评测方法,最后以一个电信领域大型数 据仓库系统为实际应用,将质量模型应用于数据仓库质量的检验。将质量因子与 数据仓库体系结构联系起来,对数据仓库系统质量进行全面检验,从而指导整个 数据仓库系统设计实施和维护的全面改进,这就是本文的目的所在。 1 2t f 作内容及研究成果 本论文主要做了以下几方面的工作: 调研:包括现存的企业数据仓库的体系结构分析、电信企业业务运营支撑系 统、电信企业经营主题分析需求、电信企业业务流程和数据结构等。 北京邮砚大学硕士学位论文 电信企业数据仓库系统质量问题的研究与实践 理论研究:主要是对f c m ( f a c t o rc r i t e r i am e t r i cm o d e l ) 、d w q ( d a t a w a r e h o u s eq u a l i t y ) 、c w m ( c o m m o nw a r e h o u s em e t a m o d e l ) 、c m m ( c a p a b i l i t y m a t u r i t ym o d e l ) 、g q m ( g o a l - q u e s t i o n - m e t r i c ) 、t q m ( t o t a lq u a l i t ym a n a g e m e n t ) 等软件质量理论、数据仓库体系结构理论、元数据管理理论和软件工程方法的研 究并提出数据仓库系统质量模型。 实践:将数据仓库系统质量问题的研究成果应用于电信企业统一经营信息服 务系统( u n i t e db u s i n e s si n f o r m a t i o ns e r v i c es y s t e m ,简称u b i s ) ,对整个系统实 施全面质量检验,从而指导整个系统的改进。 在完成上述工作内容的情况下,获得的主要成果是:将质量因子与数据仓库 体系结构联系起来,提出了数据仓库系统的质量模型,实现数据仓库系统的全面 质量检验,从而完成了面向质量的数据仓库的设计和改进并在电信领域得到初步 应用,迈出了数据仓库全面质量管理的第一步。 1 。3 论文结构 第二章介绍了有关软件质量的理论基础。给出了软件质量的定义、m c c a l l 的f c m 软件质量模型,以及检验在软件质量保证中的熏要作用。 第三、四、五章介绍了本文的核心内容数据仓库质量模型。第三章针对 现有数据仓库系统设计的不足和“脏数据”的产生的分析,提出改进了数据仓库 系统设计的方法,侧重了业务模型的重要性。结尾基于g q m 软件工程方法给出 了数据仓库系统质量模型的原理。 第四章详细介绍了与质量因子相结合的数据仓库系统的设计方法。分三个层 次( 数据源级、数据仓库级和客户级) 和三个视角( 概念视角、逻辑视角和物理 视角) 对数据仓库系统建模,并给出了各个层次与视角及各个类之间的联系与整 合。 第五章介绍了数据仓库质量模型。基于f c m 软件质量模型,给出数据仓库 质量的考查角度( 质量因子) 和评测方法。质量因子包括:设计和管理质量、软 件实现与评估质量、数据装载质量、数据使用质量和数据质量。 第六章介绍了如何运用基于质量模型对数据仓库系统进行质量检验。以电信 企业统一经营信息服务系统( u b i s ) 为实际应用,完成对整个系统的组件和过 程的质量检验,并针对报表数据正确性这一质量因予给出了质量检验的实例。 第七章对本文作了简单总结,并对进步的研究工作提出了几个建议。 论文最后是致谢及参考文献列表。 北京邮电大学硕士学位论文2 电信企业数据仓库系统质量问题的研究与实践 2 1 引言 第二章软件质量相关理论 软件质量,是贯穿软件生存期的一个极为重要的问题。是软件开发过程中所 使用的各种开发技术和验证方法的最终体现口”。因此,在软件生存期中要特别重 视质量的检验与保证,以生成高质量的软件产品。本章介绍了软件质量的定义、 m c c a l l 等人提出的f c m 三层次式软件质量模型,以及软件质量检验的相关理论。 2 2 软件质量的定义 目前,有多种关于软件质量的定义: 蛳蛳= 篙糍筹咄i i b e s t e r f i e i d ,c b e s t e 曦l d - m i c h n a ,g b e s t e r f i e l d ,m b e s t e r f i e l d - s a e r e ,t o t a lq u a l i t ym a n a g e m e n t “与软件产品满足规定的和隐含的需求的能力有关的特征或特性的全 体”a n s i i e e es t d7 2 9 1 9 8 3 “所有描述计算机软件优秀程度的特性的组合”m j f i s h e r 也就是说,为满足软件的各项精确定义的功能、性能需求,符合文档化的开 发标准,需要相应的给出或设计出一些质量特性及其组合,作为在软件开发与维 护中的重要考虑因素。如果这些质量特性及其组合都能在产品中得到满足,软件 产品就是高质量的。软件的质量反映了如下三方面的问题: 能够满足用户需求的软件产品是高质量的软件产品( 概念) 。 高质量的软件产品要在开发中遵循一定的标准或规范( 从可维护性,可 复用性来考虑) 。 高质量的软件产品能够满足用户的隐含需求( 如可靠性,易用性等) 。 软件质量包含两层含义:产品质量和过程质量。产品质量是指所生产出来的 产品的质量,包括软件和系统以及组成他们的所有元素;过程质量是指为保证产 品质量而采用的实现过程( 包括措施和标准) 。本文主要侧重软件产品质量的研 究与实践。 2 3f c m 软件质量模型 软件质量是各种特性的复杂组合。它随着应用的不同而不同,随着用户提出 北京邮电大学硕士学位论文 3 电信企业数据仓库系统质量问题的研究与实践 的质量需求不同而不同。因此,有必要讨论各种质量的特性,以及评价质量的准 则和方法。 软件质量特性反映了软件的本质。讨论一个软件的质量问题,最终要归结到 定义软件的质量特性。而定义一个软件的质量,就等价于为该软件定义一系列质 量特性。通常用软件质量模型来描述影响软件质量的特性。已经有多种有关软件 质量的模型。它们共同的特点都是把软件质量特性定义成分层模型。在这种分层 模型中,最基本的叫做基本质量特性,它可以由一些子质量特性定义和度量。二 次特性在必要时又可以由它的一些子质量特性定义和度量。其中,m c c a l l 的软 件质量模型f c m ( f a c t o rc r i t e r i am e t r i cm o d e l ) 影响最大。 m c c a l l 等给出了一个三层次式模型的框架。如图9 所示。特性是软件质量的 反映,软件属性可用作评价准则,定量化的度量软件属性可知软件质量的优劣。 特件 面向管理观点的产品质量 评价评价评价 决定产品质量的软件屙陛 准则准则准则 度量度量度量定量化的度晕软件属性 图1f c m 质量度量框架模型 f c m 软件质量概念基于11 个特性之上,而这1 1 个特性分别面向软件产品 的运行( o p e r a t i o n ) 、修改( r e v i s i o n ) 和转移( t r a n s i t i o n ) : 运行:正确性( c o r r e c t n e s s ) 、可靠性( r e l i a b i l i t y ) 、可使用性( u s a b i l i t y ) 、 效率( e f f i c i e n c y ) 和完整性( i n t e g r i t y ) 。 修改:可维护性( m a i n t a i n a b i l i t y ) 、可测试性( t e s t a b i l i t y ) 和灵活性 ( f l e x i b i l i t y ) 。 转移:协作性( i n t e r o p e r a b i l i t y ) 、可移植性( p o r t a b i l i t y ) 和复用性 ( r e u s a b i l i t y ) 。 通常,对于各个质量特性直接进行评估是很困难的,在有些情况下甚至是不 可能的。因此,m c c a l l 定义了一些评价准则,使用它们对反映质量特性的软件 属性分级,以此来估计软件质量特性的值。 北京邮电大学硕士学位论文 4 电信= i = = 业数据仓库系统质书问题的研究与实践 2 4 软件质量检验 质量检验是质量保证活动的一个重要组成部分。它的目的有二:切实搞好 开发阶段的管理,检查各开发阶段的质量保证活动开展如何;预先防止软件差 错给用户造成的损失。具体作用表现为: 当开发阶段出现异常时,要从质量特性方面进行检验,看是否会给后续 工作带来影响,并对其判断好坏程度。从质量保证角度看,此项工作极 其重要; 、 虽然各开发阶段进展稳定,但由于工程能力不足等,软件产品可能不能 满足用户的质量要求,这时可通过检验对该产品作出评价,判断是否能 向用户提交该产品; 尽管各开发阶段进展稳定,但也要以一定标准检验产品,使其交付使用 后保持稳定的质量水平。 软件质量检验就是对软件质量特性方面进行检验,通过评价准则和度量,就 可以为软件质量作出评估。这同样适用于数据仓库软件的质量评估。 北京邮电大学硕士学位论文 5 电信企业数据仓库系统质量问题的研究与实践 第三章数据仓库体系结构与质量模型原理 3 1 引言 现有的数据仓库系统的设计普遍是从信息流的角度出发,考虑如何完成一个 端到端的信息加工过程,而它往往弱化了许多于业务相关的考虑,缺乏从全局企 业业务模型( b u s i n e s sm o d e l ) 出发,按照信息的本质组织数据仓库数据。另一 方面,企业的任何一个业务角色对质量都有着不同的要求。从而现有系统设计事 实上忽视了许多质量管理的问题。 本章针对现有数据仓库设计的不足和“脏数据”的产生进行分析,描述了改 进的数据仓库系统框架,强化了企业业务模型的重要性。分三个层次( 数据源级、 数据仓库级和客户级) 和三个视角( 概念视角、逻辑视角和物理视角) 初步介绍 了基于质量考虑的数据仓库体系结构,并给出了各个层次与视角及各个类之间的 联系与整合。最后提出了基于这种设计的数据仓库质量模型原理。 3 2 现存的数据仓库系统框架 如图2 ,目前的理论和实践都把数据仓库系统理解成为一种“信息源”一“实 体化视图,一“终端分析者,的信息流的结构。它包含的基本组件和过程有: 北京邮电大学硕士学位论文 6 电信企业数据仓库系统质量问题的研究与实践 图2 现存的数据仓库体系结构 数据源( s o u r c e s ) :作为数据仓库信息来源的一切数据存储; 包装器( w r a p p e r s l o a d e r s ) :将数据源中需要的且有效的数据装载入数 据仓库的过程或二| 具。即e t l 过程; 同标数据库( d e s t i n a t i o nd a t a b a s e s :) :数据仓库和数据集市: 元数据库( m e t ad a t a b a s e s ) :用来存储各个组件的信息的数据库。也称 作知识库( r e p o s i t o r y ) ; 系统管理代理( a d m i n i s t r a t i o na g e n t s ) :系统管理功能。如,数据仓库 设计、数据仓库过程调度和监控等; 客户端( c l i e n t s ) :展示统计分析结果。 这些组件和过程的可以根据用户的不同需求通过建模技术来实现。 图1 所示的体系结构是目前的数据仓库的基本理解。但是,质量是一个主观 要素,所以考察数据仓库的质量必须从考虑数据仓库的业务视角出发【3 1 。实质上, 图2 只包括了数据仓库项目的部分任务,没有体现企业的业务模型,因此它忽视 了许多质量方面的问题。图3 在图2 的基础上增加了业务考虑,从业务视角描述 了数据仓库体系结构和质量因素的关系: 图3 数据仓库系统的业务视角 由于种种客观条件限制,试图了解企业业务经营情况的分析者,不可能直接 去观察业务运作获取企业经营信息( 虚线箭头部分) ,他只能依赖于现有生产系 统,通过构建数据仓库方法来获取业务经营情况分析结果( 步骤) 。很显 然,这5 步中的任何一步出错都会导致整个数据仓库系统的质量出问题。而且, 分析者、运营部门和企业管理者可能对质量都有着各自不同的关心和理解。在某 种意义上讲,数据仓库的目标就是为分析者提供企业信息视图,从而提供决策支 北京邮电大学硕士学位论文 7 屯信企业数据仓库系统质量问题的研究与实践 持。因此,分析者所做出的决策的正确性来源于企业信息源的质量、数据仓库本 身的质量、数据集市的质量以及数据仓库各过程的质量。 3 3 数据仓库系统脏数据的产生 数据质量差的问题是在构建数据仓库时需要解决的最困难的问题之一,大多 数失败的数据仓库项目都是过分低估了数据质量问题而导致的。即使在数据仓库 方法学和最初的项目规划中考虑了数据质量问题,但是解决数据质量问题并非易 事,并且需要耗费比预期要多的时间。根据笔者数据仓库项目的经验,一般来说, 大多数数据仓库项目无法如期完成的很重要的原因就是数据质量的问题。因此, 必须对数据仓库系统的数据质量进行全面改善。据预测【1 ”,到2 0 0 4 年2 0 0 5 年, 数据质量将成为信息管理改进的焦点。数据质量将逐渐与企业业绩和价值挂钩。 “脏数据”,即数据质量差的数据。它进入数据仓库环境的方式多种多样, 不同数据仓库应用可能有着独特的脏数据的产生方式,但归结起来主要有如下四 种方式:源系统、集成过程、数据仓库中的数据过期、用户需求的改变。如图4 所示。 鬏 据。一 源囡 一国一擎 图4 脏数据进入数据仓库系统的四种方式 数据源 脏数据进入数据仓库环境的第一种方式是通过从遗留系统( o l t p 系统) 获 取。会有多种原因致使脏数据存在于源系统中:遗留系统的业务程序规则本身有 误:遗留系统程序员为了私有目的( 比如测试) 决定使用不符合业务规则的脏数 据;程序员或管理员发现了脏数据,但是由于某些原因,并不能修改这些错误数 据,等等。有些情况下,脏数据很难被发现,有时甚至是脏数据进入了数据仓库 环境以后,在使用这些数据的时候才能够被发现。 北京邮电大学硕士学位论文8 口 电信企业数据仓庳系统质拊问题的研究与实践 e t l 过程 脏数据进入数据仓库的第二种方式是发生在数据集成( e t l ) 时。在e t l 过程时,来自不同数据源的数据进入到数据仓库系统。这些数据源通常是完全不 同的,从来就没有为需要集成而设计。这些数据源之间的键结构、数据结构、信 息编码、数据定义和物理特征等方面是不兼容的。集成和转换程序的任务就是把 这些非常凌乱的源数据进行整理和统一。开发人员和管理员试图正确的合并和整 合这些数据,他们会对现有的两个遗留系统的数据整合编写规则,当后来需要添 加新的数据源到数据仓库时,原来的转换规则很可能被证明是不完整的或不正确 的。 数据仓库本身 脏数据存在的第三个原因是数据仓库本身,以前输入的数据已经过期。即使 某个公司有非常清洁的源系统,并且还有完美的集成和转换程序,然而在数据仓 库中仍然会有脏数据存在,就是因为以前正确的数据已经过期了。例如,在1 9 9 5 年,由于公司开展某种业务,输入数据仓库的数据是基于现有的会计系统。在 1 9 9 5 1 9 9 7 年都是使用这种方式和标准将数据输入到数据仓库中的。但是到了 1 9 9 8 年,公司的系统被替换成s a p 。在转换成s a p 时,公司改变了会计图表和 标准会计期限。于是在1 9 9 8 年,数据输入是基于s a p 对会计图表和会计期限的 解释。当分析者统计整个时间范围1 9 9 5 1 9 9 8 年时,会发现有大量的数据 不一致的情况发生。这个例子很好的描述了时间对数据仓库中数据质量的破坏。 用户需求的改变 脏数据进入数据仓库环境的第四个原因是用户需求的改变,或增加了对数据 质量有不同要求的用户。例如,用户提出需要加快报表数据刷新的频率。实际上 数据并没有发生改变,但是终端用户对数据实时性的要求有了改变。在这种情况 下,用户需求的改变产生了数据质量问题。 3 4 改进的数据仓库框架结构 除了缺少企业的业务信息,图2 中所示的体系结构的另一不足是,试图将逻 辑结构和物理结构相混淆。图5 给出了从三个视角和三个层面考虑的数据仓库框 架结构8 1 。三个视角:概念( 业务) 视角,逻辑( 数据模型) 视角,和物理( 分 布式信息流) 视角,三个层次:数据源层,数据仓库层和终端用户层。数据仓库 质量因素是与一定的视角,或者与视角之间一定关系相关的【3 】。 j 赢邮电大学硕士学位论文 9 电信企业数据仓库系统质量问题的研究与实践 图5 数据仓库框架的三个视角和三个层面 在图5 中,共有9 个组件,由1 2 种关系相连接,这些关系由元数据库中的 数据仓库代理( a g e n t s ) 来维护。下面分别针对每一个视角及其之间关系进行描 述。 概念视角 对于企业决策管理而言,数据仓库其实就是依据整个企业的信息资源 ( s o u r c e ) 和经营分析任务( c l i e n t ) 所构建的。如果把整个企业模型理解成一个 类结构的话,它的实例就是一个企业,它的信息用数据仓库来维护。依照这个观 点,信息源的概念模型其实也是是企业模型的概念视图的集合,企业模型的概念 也可以考虑信息源的概念来定义。在用户这一端,用户所关心的内容也可以被企 业模型的概念视图来描述。但是,用户分析需求不能够通过直接观察企业事实得 到,他们必须也只能依靠现有的实体化视图,例如,信息源。这样一来,我们面 临着如何将概念用户视图和概念源视图映射的问题。 此外,考虑到性能和安全的质量因素,用户视图通常是不允许直接访问数据 源的。因此,需要建立一套中间的企业模型的概念视图数据仓库概念模型。 这个数据仓库模型必须能够满足全部的用户视图的查询,就好像用户直接从数据 源视图得到结果一样。考虑到数据仓库系统的质量,可以根据l - 些因素来对其每 一部分评估,如精确性、及时性、完整性等。此外,数据仓库视图介于用户视图 和源视图之间,对信息质量同时产生了一个积极和一个消极的影响。积极影响是, 使用企业模型来进行数据清洁和整合。消极影响是,数据仓库视图更新过程中造 成的延时( 及时性经常因为o l a p 流程而遭到破坏) ,为信息的及时性造成了障 碍。 北京邮电大学硕士学位论文 1 0 电信企业数据仓库系统质量问题的研究与实践 逻辑视角 逻辑视角从数据模型的角度构建了数据仓库系统。遵循这一观点的研究人员 和开发者认为数据仓库其实就是从信息源开始,上层是其下层的实体化视图的集 合。在信息源这一端,逻辑视角面临的主要问题是,如何将异种数据源中的数据 整合到特定的数据仓库视图中。还需要同时考虑数据的初始化装载( 也被称作一 次性堆装入) 和增量更新维护。目前备受关注的所谓的自维护的数据仓库视图, 就是数据仓库本身包含足够的信息来维护它自身的全部视图,比如说,基础数据 产生了变化。不需要重返o l t p 系统去查看这些变化,数据仓库本身就可以捕捉 这些变化。在用户这一端,基于视图的查询优化和增量更新这两个问题仍然是关 键,但这时关注的是源数据的模型。特别是,多维数据模型的引入,以及聚合和 汇总等概念的产生,对算法和实体化策略都产生了重要影响。不同的数据仓库产 品针对这些概念有着不同实现方式。m o l a p 产品已经将数据仓库视图本身用多 维数据存储实现;r o l a p 产品使用关系型数据库来实现数据仓库视图存储,仅 在映射用户视图时才转换成多维数据模型。受逻辑视角影响的质量因素主要考虑 源和用户端数据模型的信息覆盖。另外,逻辑视角的查询和更新优化对需要传送 的数据也产生重要影响,因此直接影响系统的性能。例如,一个好的增量视图维 护算法可以将一个组织的每天需要传送的g b 级数据缩减到m b 级数据,冈此也 缩短了由于装载数据仓库而造成的o l t p 系统不可用的时间。 物理视角 物理视角将数据仓库体系结构理解成一个数据存储、数据转换器和通信通道 的网络结构,它的关注的质量因素是数据可靠性和性能。在信息源一端,主要的 问题是尽可能减少与o l t p 系统的接口,因此主要的研究工作包括复制策略、堆 装载中止的恢复和如何为各个组件分配相应的功能。例如,当需要调和数据差异 时,数据仓库本身可以完成这项任务,或者让负责调节的代理在本地缓存中完成。 在用户端,一个关键问题是为了更新最小化和查询的平均相应时间最小化,如何 合理配置实体化视图。正如图2 所示,数据集市的存在正是为了解决这一问题。 此外,为了最小化数据传输量,可以增加客户端的缓存来存放分析结果。 各视角之间的关系 总的说来,物理视角通常在行业使用,而概念视角通常主要限于研究。研究 和实践的结合在于逻辑视角。它们的侧重点不同,但是在力求数据仓库高质量这 一点上,这三个视角所关心的内容必定是一致的。 从概念一逻辑一物理的设计步骤是所有的数据库系统的设计任务,但是,数 据仓库系统设计需要考虑一些特定问题。从概念模型到逻辑模型时,需要面临两 个问题:如何根据富于业务含义的概念模型转变到数据模型( 例如关系型模 型) ;如何把连贯一致的概念模型分成独立的逻辑数据结构。从逻辑模型到物 北京邮电大学硕士学位论文 电信企业数据仓库系统质量问题的研究与实践 理模型需要完成如何将数据和转换任务指定到分布式、协同操作的软件代理的网 络结构中。在这一步,必须考虑到可靠性和性能,而一些语义方面的考虑也需要 间接的通过一些机制来保证。当把质量增加到数据仓库中,研究需要描述哪些特 定任务时,必须从三个不同视角来考虑。 现在的数据仓库解决方案主要将重点放在了信息源整合或者o l a p 应用建 模,但数据仓库体系结构模型的最终目标是建立一个普遍适用的数据仓库应用体 系结构框架。数据仓库应用由许多组件组成,例如,数据库、客户端等。组件之 间的关系通过数据仓库过程来实现,包括e t l 过程、o l a p 数据的使用等。另 外一种关系是对其他组件的控制。例如,数据仓库管理工具控制其他组件,并在 特定时刻调用它们。同时,组件将它们本身的当前状态反馈回来,并将它们运行 过程中出现的错误或异常通知管理工具。在数据仓库体系结构中,元数据库的作 用至关重要。元数据库用来存储数据仓库应用的抽象表示,存放了数据仓库组件 和过程的元信息。 图6 数据仓库设计方案 图6 是数据仓库设计过程的一种方案。数据仓库设计者使用元数据库,旨先 在概念级开发数据仓库应用,然后再物理实现。 3 5 数据仓库质量模型框架 对于数据仓库的设计和分析来说;必须将质量因素与数据仓库体系框架的组 件联系起来,才能全面施行数据仓库的质量检验和管理。首先,当数据仓库构建 之后,可以通过相关的质量因素对数据仓库进行评估和比较。数据仓库设计者因 而能够发现质量问题所在,从而完善旧的结构,即完成了质量检验过程。其次, 由于需要完成体系结构和质量模型的任务特定,因而就标准化了数据仓库应用的 开发过程,指导数据仓库的构建。另外,数据仓库体系结构和质量模型很好的支 持了数据仓库的维护过程。新的结构和组件可以先通过此模型进行测试,然后再 在数据仓库应用中实现。 我们将体系结构和质量联系起来的方法可以视作是将g o a l q u e s t i o n m e t r i c ( g q m ) 基于目标的软件度量方法的应用。每个l :t 标和一些问题联系起来, 北京邮电大学硕士学位论文 1 2 电信企业数据仓库系统质量问题的研究与实践 这些问题的答案是用来评估目标的。最终,每个问题是和一套度量相联系,用来 评估问题的答案”州; 图7 给出了数据仓库体系结构和质量模型的元模型,它描绘了如何将数据仓 库的体系结构和质量模型联系起来。图中,数据仓库元数据库( m e t a d a m b a s e ) 是关键,它包含了数据仓库各个组件与过程的元数据。质量维( 质量因子) 和数 据仓库体系结构模型都是用概念建模语言来描述的。质量模型在技术上的实现, 是通过在元数据库上建立视图( q u a l i t yv i e w ) 来实现的。质量视图是用质量维 ( q u a l i t yd i m e n s i o n s 。即,考查质量的角度) 来描述的,并且在实际系统中通过 测量得到相关质量维的度量值( m e t r i c s ) 来评估数据仓库质量。 c o n c e p t u a lm o d e l i n gl a n g u a g e = _ = f : 、g o a l 一一。 a n a l y s i s 厂i一一一一desigquality n | v 脚卜二:二二一:i i :,一二= 二 - _ _ - l l l , 。m e t r i c “- - 图7 数据仓库体系结构和质量模型框架 体系结构和质量模型可以通过两种方式来使用。一方面,数据仓库设计者和 管理员可以根据质量模型,来测试现存的数据仓库系统是否满足质量需求,从而 发现存在于系统设计中的弱点,完成对数据仓库系统的质量检验。另一方面,数 据仓库设计者可以使用本模型来为数据仓库建立质量需求。质量需求约束着系统 设计,这样数据仓库的开发流程是在质量需求的驱动下进行的。本文的体系结构 和质量模型只支持第一种方式,分析现存系统的弱点和错误。按照质量需求来设 计改进数据仓库的方法是下一阶段研究的任务。 北京邮电大学硕士学位论文 甲甲圈 一 亭 电信企业数据仓库系统质量问题的研究与实践 4 1 引言 第四章数据仓库体系结构 根据前文介绍数据仓库体系结构与质量模型原理,本章着重详细描述基于质 量因子的数据仓库体系结构设计,使用u m l 类图给出了三个视角及其整合的元 模型。 首先,根据数据仓库体系结构框架的三个视角,引入三个基类: c o n c e p t u a l o b j e c t 是概念视角中所有对象的基类; l o g i c a l o b j e c t 是逻辑视角中所有对象的基类: p h y s i c a l o b j e c t 是物理视角中所有对象的基类 图8 表示了用u m l 类图描述的数据仓库框架的基类。 图8 数据仓库体系结构模型的基类 数据仓库体系结构模型中的每一个类都是来自于类d w _ o b j e c t 。与质量模型 的关系由依赖于类o u a l i t y i n d i c a t o r 的属性c l a s s i f i e d b y 保证,使得任何一个 数据仓库组件都附加了质量指示器。d w o b j e c t 的质量指示器可以是多个。类 c o n c e p t u a l o b j e c t ,l o g i c a l o b j e c t 和p h y s i c a l o b j e c t 都是d w _ o b j e e t 的特化, 所以d w _ o b j e c t 的属性也被体系结构中的任何一个对象所继承。关于质量指示器 的详细讨论在第五章进行。 北京邮电大学硕士学位论文 电信企业数据仓库系统质量问题的研究与实践 4 2 概念视角 概念视角是在企业信息系统的业务模型( b u s i n e s sm o d e l ) 上的一个视图。 企业模型( e n t e r p r i s em o d e l ) 扮演了很重要的角色,它给出了一个企业概念级 对象的整体视图。如图3 所示,客户端模型和信息源的模型也可以理解为在企业 模型上建立的视图。概念视角的目标就是构建一个独立于数据物理组织形式的数 据仓库信息模型。图9 给出了数据仓库体系结构的概念视角的类图。 图9 数据仓库体系结构的概念视角 概念视角的两个核心类是m o d e l 和c o n c e p t 。m o d e l 泛化为类c l i e n t m o d e l s o u r c e m o d e l 和e n t e r p r i s e m o d e l ,它们分别表示了相应的数据源、客户端和企业 模型。s o u r c e m o d e l 和c l i e n t m o d e l 都会有多个实例,而e n t e r p r i s em o d e l 是只有一 个实例的类,因为整个只会有一个企业模型。m o d e l 可以包含一个或多个c o n c e p t , 代表现实世界中的概念,例如,业务领域:雇员、财务。市场等。c o n c e p t s 用扩 展描述逻辑来定义。为了实现概念的定义的存储,我们需要将c o n c e p t 特化: c o m p l e x c o n c e p t :复杂概念,由多个概念按照一定的语法和语义格式定义 a t o m i c c o n c e p t :简单概念,不可细分的概念; c o n c e p t c l a s s :概念的名称; c o n c e p t d o m a i n :简单值域。如,整数域和字符串域: r e l a t i o n s h i p :概念与概念之间的n 元关系。 每个概念都是两个类的实例: c o m p l e x c o n c e p t 或者是a t o m i c c o n c e p t 的实例 北京邮电大学硕士学位论文 1 5 电信企业数据仓库系统质请问题的研究与实践 c o n c e p t c l a s s 或r e l a t i o n s h i p 或c o n c e p t d o m a i n 的实例。 r e l a t i o n s h i p 具有属性类r e l a t i o n s h i p t y p e ,它描述关系的类型。类 c o n t a i n s s y n t a c t i c a l l y 的含义是指将复杂的概念依照语法定义成一个串存储起来。 4 3 逻辑视角 数据仓库的设计方法类似于传统的数据库设计。设计完概念模型以后,接下 来的任务是将其映射为逻辑视图。逻辑数据模型依照不同的数据库模式类型的不 同而4 i 同,这里只给出使用关系型模式的逻辑视角,其他数据模型( 面向对象数 据模式或多维模式) 可以类似的整合到该框架中。图1 0 给出了数据仓库体系结 构逻辑视角的类图。 图1 0 数据仓库体系结构的逻辑视角 逻辑视角部分的核心类是模式( s c h e m a ) 。与模型包含概念类似,模式 ( s c h e m a ) 包含类型( t y p e ) 。联系( r e l a t i o n ) 是t y p e 类的特化,含有多个属 性f i e l d s 。联系通过类c q r e l a t i o n 将逻辑视角连接到概念视角,c q r e l a t i o n 是一个特化的r e l a t i o n ,被定义为在概念模型c o n c e p t s 上的连接查询。比如,在 数据源模式中的一个m l m i o n 只能通过在相应的概念数据源模型的概念 ( c o n c e p t s ) 上作连接查询得到。客户模式和数据仓库模式中的r e l a t i o n s 也是类 似。c q r e l a t i o n 的c o n t a i n s s y n t a c t i c a l l y 属性类型是概念( c o n c e p t ) ,这些概念 是按照语法格式出现在连接查询表达式中的。与概念视角的分类类似,我们将逻 辑视角模式特化为c l i e n t s c h e m a , d w s c h e m a 和s o u r c e s c h e m a 。对于每一个客户 端模型和数据源模型,都分别是c l i e n t s c h e m a 和s o u r c e s c h e m a 的实例。此外, 北京邮电大学硕士学位论文1 6 逗 r 一要 电信企业数据仓库系统质最问题的研究与实践 只有一个数据仓库模式,因为我们一次只为一个数据仓库应用建模。 4 4 物理视角 业界特别关注数据仓库的物理视角,因为数据仓库物理视角的许多方面都是 有关数据仓库商务解决方案的。事实上,在数据仓库体系结构中的基本物理组件 就是代理和数据存储。代理是的功能就是控制其他组件或者是将数据进行转移; 数据存储就是将来自组件的数据存储起来的物理数据库。物理视角的基本类图见 图1 1 。 s o u r c e s t o r e 图1 1数据仓库体系结构的物理视角 物理视角的核心类是d wc o m p o n e n t 。通过属性h a s p a r t ,数据仓库组件可 以由其他组件组成。此外,组件可以将t y p e ( 逻辑视角的一部分) 传递( d e l i v e r s t o ) 给另外一个组件。通过属性t y p e 和h a s s c h e m a ,物理视角可以连系到逻辑视角的 t y p e 类和s c h e m a 类。属性h o s t 是指组件的物理位置c o m p u t e r 系统( 可能 还有其他属性,象i p 地址,操作系统,管理员等) 。物理视角的一类组件称作 a g e n t ,它可以通过属性n o t
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 阎良区企业网络营销方案
- 高空作业机械维修工专业知识考核试卷及答案
- 城市建筑楼顶改建方案设计
- 咨询互联网拓客优化方案
- 药学公众号课件
- 辅导员述职汇报
- 企管咨询培训拓展方案
- 咨询农作物解决方案问题
- 绍兴水泥墙拆除施工方案
- 办公楼出租的营销方案
- (正式版)JBT 14897-2024 起重磁铁安全技术规范
- 三D打印公开课
- 西方节日-英文介绍
- 动车组列车员(长)(职业通用)全套教学课件
- 机动车驾驶员安全教育培训课件
- 农机维护保养规范研究
- 内瘘球囊扩张术护理查房课件
- 义务教育物理课程标准(2022年版)测试题文本版(附答案)
- 黄帝内经课件
- 《我喜欢的动物》
- 2023下半年重庆巫溪县机关事业单位遴选27人笔试参考题库(共500题)答案详解版
评论
0/150
提交评论