




已阅读5页,还剩50页未读, 继续免费阅读
(计算机软件与理论专业论文)电信企业数据仓库信息建模完备性的研究与实践.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知, 除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研 究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书面使用过的材料。与我一同 工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名日期 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国 家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅:学校可以 公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇 编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论文注 释:本学位论文不属于保密范围,适用本授权书。 本人签名: 导师签名: 日期: 日期: 电信企业数据仓库信息建模完备性的研究与实践 电信企业数据仓库信息建模完备性的研究与实践 摘要 电信行业各大运营商为了提高自身竞争力,建设决策支持系统, 纷纷要求沉淀企业经营信息,积极构建企业级数据仓库,数据仓库 技术在电信行业的应用越来越广泛。数据仓库的信息模型指导着数 据仓库构建的整个过程,信息模型的好坏直接关系数据仓库建设的 成败。由于电信行业有业务数据种类繁多、用户经营分析需求广泛 多变的特点,因此,电信行业的企业级数据仓库需要构建具有信息 完备性的信息模型。 本文在构建电信企业信息完备的数据仓库的背景下,主要研究 了完备性信息建模技术在电信行业中的应用。阐述了数据仓库体系 结构和数据仓库信息建模方法,同时介绍了作者参加的中国联通统 一经营信息服务系统项目的信息现状,分析了产生现状的原因。针 对项目实施中的信息现状,作者提出了保证电信企业数据仓库信息 模型完备性的方法,并将该方法应用到中国联通统一经营信息服务 系统,保证数据仓库操作数据存储层信息模型的信息比较完备。 最后,作者对所作的研究工作进行了总结,指出信息完备性研 究中的一些成果,并对下一步的研究工作提出了一些看法。 关键词:电信企业、数据仓库、信息建模、信息完备性 第l 贞 电信企业数据仓库信息建模完备性的研究与实践 t e l e c o me n t e r p r i s ed a t a 硝砸h o u s e d 妤1 0 r m 声口i o nm o d e l i n gc o 口l e t er e s e a r c h a n da p p l i c a t i o n a b s 仃a c t b u i l d i n ga d a t aw a r e h o u s e s y s t e m c a r lh e l pc o m p a n i e st oi m p r o v et h e i rs e r v i c e l e v e l ,s t r e n g t h e nt h e i rc o m p e t i t i v ec a p a b i l i t y h e n c e ,i ti su r g e n t l yr e q u i r e do f b u i l d i n g b u s i n e s si n f o r m a t i o nd a t aw a r e h o u s e s y s t e m i nt e l e c o ma r e a s t h e a p p l i c a t i o n o fd a t aw a r e h o u s e t e c h n o l o g yi sm o r ea n d m o r ea b r o a d i nt h ep r o c e s so f b u i l d i n g d a t aw a r e h o u s e ,i n f o r m a t i o nm o d e l i n gi st h e k e yt o s u c c e s s t e l e c o m i n d u s t r y h a st h e s p e c i a l t i e so fv a r i o u s b u s i n e s so p e r a t i o nk i n d sa n dc h a n g e a b l e b u s i n e s s a n a l y s i sr e q u i r e m e n t s s o t h e e n t e r p r i s e d a t aw a r e h o u s en e e d st h e i n f o r m a t i o nm o d e lo fi n f o r m a t i o nc o m p l e t ei nt e l e c o ma r e a s t h em a l np u r p o s eo ft h i s p a p e r i st o s t u d yh o wt o b u i l dt h e c o m p l e t e i n f o r m a f i o nm o d e lo f d a t aw a r e h o u s ei nt e l e c o m 卸舰f i r s t l y 也er e l a t e db a c k g r o u n d i si n 乜o d u c e d t h e n t h ea l e h i t e c t u r eo fd a t aw a r e h o u s ea n dd a t am o d e l t e c h n o l o g yi s d i s c u s s e d s u b s e q u e n t l y ,t h ep a p e ri n v e s t i g a t e s r e a s o n so ft h eu n i f l e db u s i n e s s i n f o r m a t i o ns e r v i c e s s y s t e m ( u r n s ) a c t u a l i t y i ns u c c e s s i o n ,t h ep a p e rb r i n g s f o r w a r dt h em e t h o do fe n s u r i n g c o m p l e t e o ft h e e n t e r p r i s e d a t aw a r e h o u s e i n f o r m a t i o nm o d e l b a s e do nv a s tr e s e a r c h w o r k , m ep a d e rs t u d i e s 也ed a t a w a r e h o u s em o d e l i n gp r o c e s so ft h el i b i sp r o j e c ta n dd e s c r i b e st h em o d e l i n gs t e p s a n d p r i n c i p l e si nd e t a i l f i n a l l y 、t h em o d e l i n gs t e p sa r ea p p l i e di nu b i sa n de n s u r e c o m p l e t e i nd a t aw a r e h o u s ei n f o r m a t i o nm o d e l a tl a s tt h ep a p e r sc o n c l u s i o ni s 舀v e n a n ds o m e s u g g e s t i o n sa r ep r o v i d e df o r f u t u r es t u d y k e y w o r d s :t e l e c o me n t e r p r i s e ,d a t aw a r e h o u s e , i n f o r m a t i o n m o d e l i n g , i n f o r m a t i o nc o m p l e t e 第2 页 电信企业数据仓库信息建模完备性的研究与实践 1 1 背景 第一章绪论 从2 0 世纪9 0 年代初数据仓库概念的最初提出,到今天数据仓库技术在不 同行业的广泛应用,数据仓库技术已经走向成熟并对企业的发展起着重要作用。 数据仓库作为决策支持系统和联机分析应用数据源的结构化数据环境,所要研 究和解决的阀题是从数据库中获取信息的问题f 1 。企业的经营决策建立在理性 分析的基础上,而理性分析的基础是企业内部运营的各种数据:市场数据、生 产数据、管理数据,这些数据反映了企业运转的真实情况【l 】。通过对数据中蕴 含信息的提炼以及正确分析,才能够发现企业运转过程中存在的各种问题,进 行“企业诊断”、“对症下药”,提高企业效率,降低生产成本,增强市场竞争。 所以数据仓库面临的问题是从数据库中获取对经营分析、决策支持有帮助的数 据信息的问题。其中,如何保证获取完备的企业信息是解决问题的关键和基础。 随着中国加入w t o ,中国的电信行业越来越需要数据仓库技术的应用。因 为只有通过数据仓库,才可能全面了解和掌握客户的信息,并快速做出相应的 分析和决策,在竞争中立于不败之地。电信业与其他行业有很大的不同,自身 的特点是:业务数据种类繁多,涉及客户、服务、营业、帐务、计费、结算、 客服、信用控制等几大类信息:用户需求广泛而且多变。因此,电信行业更加 需要具有信息完备性的建模方法来构建企业级的数据仓库。 作者在研究生学习期间运用数据仓库技术参与中国联通统一经营信息服务 系统的建设和开发。在项目的实施中,我们往往从用户对分析型数据的需求来 构建数据仓库模型,而不是构建一个包含企业所有分析信息的企业级数据仓库, 这种做法导致项目中出现以下问题: 1 各个省份公司模型的重用性问题。各个省份对分析型数据的需求不同, 数据仓库模型各异,省份间模型的重用性不高。如果我们构建一个比较完备的 数据仓库模型,并可以满足多个省份对分析型数据的需求,那么就可以提高各 个省份公司数据仓库项目的开发效率。 2 信息模型的完备性问题。当用户提出新的分析型数据需求的时候,如果 模型不能满足新的需求,就需要我们重新分析需求、组织业务系统数据、添加 第5 页 电信企业数据仓库信息建模完备性的研究与实践 数据到中央数据仓库,这时部门集市才能从中央数据仓库获取满足新需求的分 析数据展现给用户。 3 联通各个省份公司信息模型不一致,如何屏蔽这种差异的问题。 上述三个问题导致我们需要研究数据仓库信息模型的完备性以及构建满足 完备性的数据仓库信息模型。 1 2 研究目的和研究成果 作者在参与中国联通统一经营信息服务系统的建设中主要负责数据仓库操 作数据存储层( o d s ) 的建模和抽取,转换装载规则的设计实现。操作数据存储 层的数据是整个数据仓库的数据基础,o d s 模型的设计好坏决定数据仓库能够 满足多大程度的用户分析型数据需求。在项目的建设中,我们从各省用户需求 的角度来构建各省的数据仓库o d s 模型,造成:1 ) 当项目完成后用户提出新 的分析型数据需求的时候,我们不得不从数据仓库底层开始,按照用户新需求, 重新构建接口文件规范、操作数据存储层模型、数据仓库模型,再根据新构建 的接口规范和模型来组织数据仓库数据,影响了后期开发的效率。2 ) 当开发不 同省份的数据仓库项目时,由于各省用户对需求的不同,各省数据仓库项目的 接口规范、信息模型、抽取规则各不相同,不能很好地重用已开发项目的接口、 模型、规则,影响了新项目的开发效率。针对上述现状,作者提出电信企业级 数据仓库信息模型的完备性方法。它的研究目的是从业务系统出发,分析业务 处理流程,抓住操作型数据的信息特征,确定面向操作型环境的实体、实体间 的关联、实体属性特征,并通过分析各省生产系统来扩充实体信息,构建比较 完备的数据仓库o d s 信息模型,消除各省模型的差异、提高项目的开发效率、 降低项目的开发成本。 本文的研究内容主要包括: 1 研究电信业务运营支撑系统、电信企业数据仓库体系结构。 2 研究数据仓库信息建模的一般方法和过程。 3 研究中国联通统一经营信息服务系统的体系结构和信息模型。 通过以上研究,作者提出电信企业数据仓库信息建模完备性方法,并将方 法应用到中国联通统一经营信息服务系统。在应用中以综合营帐系统为提供数 据仓库源数据的生产系统,侧重描述构建完备的信息模型的过程。本文的研究 成果主要是: 第6 页 电信企业数据仓库信息建模完备性的研究与实践 1 电信企业数据仓库信息完备性的定义,保证信息完备性的原则。 2 电信企业数据仓库完备性信息建模的方法、步骤,从业务系统的信息本 质特征组织数据仓库的信息模型,构建一个比较完备的企业级数据仓 库。 3 完备性信息建模在中国联通统一经营信息服务系统的应用。 1 3 论文结构 第二章介绍企业级数据仓库的体系架构及其特点,并引出电信企业的数据 仓库体系架构,最后介绍数据仓库信息建模的方法和一般过程。 第三章介绍作者参与建设的数据仓库项目中国联通统一经营信息服务系 统的体系架构和信息模型,描述在项目实施过程中的信息现状,指出现状中隐 含的问题,分析问题产生的原因并提出解决办法建设包含全部经营分析数据的 中央数据仓库,保证数据仓库信息模型的完备性。 第四章研究信息建模方法和步骤,提出保证数据仓库完备性的信息建模方 法。 第五章介绍信息建模完备性方法在中国联通统一经营信息服务系统 ( u b i s ) 的应用。针对电信业务系统综合营帐,运用保证完备性的信息建模方 法对业务系统进行业务活动分析,确定操作数据存储层信息模型的实体、实体 属性特征,构建保证完备性的信息模型。 第7 页 电信企业数据仓库信息建模完备性盼研究与实践 第二章数据仓库信息建模相关理论 2 1 企业级数据仓库体系架构 2 1 1 数据集市1 1 数据集市,或者叫做“小数据仓库”。如果说数据仓库建立在企业级的数据 模型之上,那么数据集市就是企业级数据仓库的一个子集。它主要面向部门级 业务,并且只面向某个特定的主题。数据集市可以在定程度上缓解访问数据 仓库的瓶颈问题。 数据集市是为了特定的应用目的,从数据仓库中独立出来的一部分数据, 也可称为部门数据或主题数据( s u b j e c ta r e a ) 。另外,在数据仓库的实施过程中, 往往可以从一个部门的数据集市着手,以后再用几个数据集市组成一个完整的 数据仓库。 一般地,数据集市主要从企业数据仓库获取数据,是终端用户和企业数据 仓库交互最多的地方。数据集市根据其所有部门的不同需求进行定形,各个部 门都拥有自己的数据集市,它们各不相同。 2 1 2 企业级数据仓库体系架构l l j 企业级数据仓库的构建过程,也就是数据集市与数据仓库的建设过程。因 实际情况的不同,会有不同的建设过程和顺序。一般地,企业级数据仓库的构 建方式有两种:“自顶向下”和“自底向上”。针对每种方式,企业级数据仓库 都有相应的体系架构。 “自顶向下”方法就是先建立一个企业级数据仓库,然后再在其基础上建 立部门级数据集市。其体系架构示意如图表二1 所示。在一个中央数据仓库中, 包含了企业所有部门的分析信息,数据高度地集成,访问统一控制,能够满足 所有部门的分析需求。数据仓库的设计与构建是从整个企业的高度进行考虑的。 第8 页 电信企业数据仓库信息建模完备性的研究与实践 曰曰国 图表二一1 “自顶向下”企业级数据仓库体系架构 这种结构的优点是数据仓库得到一致性控制,缺点是企业级数据仓库的规 模往往较大,其实施周期长,见效慢,费用昂贵。 “自底向上”方法是在充分考虑易扩展的前提下,从最关心的部分开始, 建立一些数据集市,再把它们汇集成个企业级数据仓库。其体系架构示意如 图表二2 所示。 曰国曰 图表二一2 “自底向上”企业级数据仓库体系架构 这种结构的优点是针对性强,易于实现,花费小,见效快,缺点是对多个 数据集市进行汇集会面临集成困难和数据质量问题。 2 1 3 电信企业级数据仓库体系架构 电信行业的一个重要特征是全程全网,统一的数据视图对于电信企业来说 尤为重要。所以电信企业会采用企业级数据仓库体系结构来构建数据仓库,同 时为了满足各部门对某些主题的业务分析需求,会按照主题,采用数据集市的 第9 页 电信企业数据仓库信息建模完备性豹研究与实践 方式对数据进行进一步的组织。所以在中央数据仓库的基础之上根据分析需求 会创建相应的数据集市,也就是采用“自顶向下”的企业级数据仓库体系结构。 其体系架构示意如图表二- 3 所示。 图表二- 3 电信企业数据仓库体系结构 图中数据集市的数据直接来自于中央数据仓库。采用这种方式,可以较好 地保持整体数据的一致性。为一些访问数据仓库十分频繁的关键业务部门建立 数据集市,较好地提高查询的反应速度。“自顶向下”的构建方式要求电信企业 级数据仓库成为包含企业所有分析信息的一个大型仓库,能够满足当前以及未 来的用户数据分析的各种需要,具有数据一致性、可扩展性以及信息的完备性。 2 - 2 数据仓库信息建模方法 2 2 i信息建模方法 信息模型是用来支持业务领域的数据结构和业务规则的规范,它表示一套 第l o 页 电信企业数据仓库信息建模完备性的研究与实践 业务信息的需求i2 1 。信息建模是描述信息结构和捕获业务规则的过程,是信息 系统设计的重要组成部分。 2 211 数据与信息 信息是现实世界在人脑中的抽象反映,是通过人的感官感知出来若经过人 脑的加工而形成的反映现实世界中事物特征以及诸事物之间相互联系的概念。 数据是一切文字、符号、声音、图像等有意义的组合,它是描述现实世界中各 种具体事物或抽象概念的可存储并具有明确意义的信息。信息和数据是两个相 互联系、相互依存、相互区别的概念,数据是信息的具体表示形式,信息是数 据的有意义的表现。事物、信息和数据自始至终贯穿于现实世界、信息世晃和 计算机世界p j 。 2 2 1 2 信息模型 模型是对现实世界特征的模拟和抽象。根据模型应用的不同目的,可以将 模型划分为两个层次:一类模型是概念模型,也称信息模型,它是按用户的观 点来对数据和信息建模,主要用于模型设计;另一类模型是数据模型,主要包 括网状模型、层次模型、关系模型等,它是按计算机系统的观点对数据建模, 主要用于模型实现p j 。 信息模型是对信息世界的建模,能够方便、准确地表示出信息世界中的常 用概念。企业在建立模型之前要先根据企业的功能模型开发和建立信息模型【4 。 2 2 1 3 信息建模方法嘲 信息建模方法是从整个系统的逻辑数据模型开始,通过一个全局信息需求 视图来说明系统中所有基本数据实体及其相互关系,然后,在此基础上逐步构 造整个模型,信息模型记录系统运作所需的信息实体,如:人员、地点、事物、 观念等,为分析现行系统提供信息的图形化表示。 信息建模就是现实世界向信息世界的抽象,它的表示方法很多,其中最常 用的是p p s ,c h e n 于1 9 7 6 年提出的实体联系方法( e n t i t y - r e l a t i o n s h i p a p p r o a c h ) ,该方法的要点有二个:一是选择实体和联系;二是表示实体和联系。 该方法用e r 图来描述现实世界的信息模型,e r 方法也称为e - r 模型。e r 模型是基于对现实世界的这样一种认识:世界由一组称作实体的基本对象以及 这些对象间的联系组成,将现实世界中事物的含义和相互关联映射到信息模型。 第1 1 页 电信企业数据仓库信息建模完备性的研究与实践 e r 模型包括的关键元素: 1 实体 在信息模型中的基本项目是实体。实体被看作是现实世界中一个原子项目, 表示客观事物的模型,它总是唯一地在应用环境的数据库模型中定义。例如, 一个人,人是一个原子实体或项目,因为他或她不能被迸一步分割而代表同一 事物,代表在现实世界中出现的各种人。被称作人的实体含有的信息足以唯一 地定义人。 2 实体属性 实体具有属性,有时也称为性质,用来描述实体的特征。 3 实体间的联系 以上定义只抓住了客观实体的静态含义。现实世界中,实体之间有联系。 关联定义了两个或多个实体间存在的联系( r e l a t i o n s h i p ) 。在一些情况下,两个 或多个实体间的联系可使用一个中间联接或多个联接,比如,两个实体p e r s o n 和c h i l d 有子女关系,则通过c h i l d 实体属性p a r e n ti d 与p e r s o n 实体属 性p e r s o n _ i d 联接确定谁是谁的子女。在另一些情况下,使用一个被称为联系实 体的实体来表示实体间的联系,联系实体拥有属性。比如,在银行业务中,客 户实体将资金存入帐户实体,为表示此联系,构造一个称为预存款的实体,预 存款实体有用于客户的属性,还有用于客户希望存入资金的帐户的属性。 一般用数据模式图描述模型的实体、实体属性和实体间的联系,如图表二 一4 所示。 图表二4 数据模式图 第1 2 页 电信企业数据仓库信息建模完备性的研究与实践 从图中可以看出,现实世界的实体可以分为两类:实体、联系实体。现实 世界的信息到实体、属性和联系的映射就形成了现实世界的信息模型。 2 2 2数据仓库信息建模方法和一般过程1 6 l 信息模型是数据仓库的核心,信息模型设计的好坏直接关系到数据仓库系 统建设的成败。在信息建模时需要充分调研企业各部门应用系统对统计分析型 数据的需求,并考虑到企业对将来要建设的客户信息分析和决策支持方面的需 求,按照业务数据的本质特征组建数据仓库。 数据仓库建横步骤一般需要经过三个过程,分射是概念模型设计、逻辑模 型设计、物理模型设计。在建模时还需有个准备过程,并且整个信息建模过程 共不是线性完成的。在进行概念模型设计前,首先需要明确系统涉及源数据的 业务范围和操作型应用系统的范围,再在理解生产系统数据的内容和关系的基 础上对业务数据进行分类,然后再依以下三个过程进行信息建模。 2 2 ,21 概念模型设计 进行概念模型设计所要完成的工作是 界定系统边界 屯 确定主要的主题域及其内容 概念模型设计的成果是,在原有的数据库的基础上建立了一个较为稳固的 概念模型。因为数据仓库是对原有数据库系统中的数据进行集成和重组而形成 的数据集合,所以数据仓库的概念模型设计,首先要对原有数据库系统加以分 析理解,看在原有的数据库系统中“有什么”、“怎样组织的”和“如何分布的” 等,然后再来考虑应当如何建立数据仓库系统的概念模型。一方面,通过原有 的数据库的设计文档以及在数据字典中的数据库关系模式,可以对企业现有的 数据库中的内容有一个完整而清晰的认识:另一方面数据仓库的概念模型是 面向企业全局建立的,它为集成来自各个面向应用的数据库的数据提供了统一 的概念视图。 概念模型的设计是在较高的抽象层次上的设计。因此建立概念模型时不用 考虑具体技术条件的限制。 1 界定系统的边界 第1 3 页 电信企业数据仓库信息建模完备性的研究与实践 数据仓库是面向决策分析的数据库,我们无法在数据仓库设计的最初就得 到详细而明确的需求,但是一些基本的方向性的需求还是摆在了设计人员的面 前: 要做的决策类型有哪些? 决策者感兴趣的是什么阅题? 这些闯题需要什么样的信息? 要得到这些信息需要包含原有数据库系统的哪些部分的数据? 这样,我们可以划定一个当前的大致的系统边界,集中精力进行最需要的 部分的开发。因而,从某种意义上讲,界定系统边界的工作也可以看作是数据 仓库系统设计的需求分析,因为它将决策者的数据分析的需求用系统边界的定 义形式反映出来。 2 确定主要的主题域 在这步中,要确定系统所包含的主题域,然后对每个主题域的内容进行 较明确的描述,描述的内容包括: 主题域的公共码键; 主题域之间的联系; 充分代表主题的属性组。 2 2 2 2 逻辑模型设计 逻辑建模是数据仓库实施中的重要一环,因为它能直接反映出业务部门的 需求,同时对系统的物理实施有着重要的指导作用。在这一步里进行的工作主要 有: 分析主题域,确定当前要装载的主题; 确定粒度层次划分; 确定数据分割策略; 关系模式定义; 逻辑模型设计的成果是,对每个当前要装载的主题的逻辑实现进行定义, 并将相关内容记录在数据仓库的元数据中,包括: 第1 4 页 电信企业数据仓库信息建模完备姓的研究与实践 适当的粒度划分; 合理的数据分割策略: 适当的表划分; 定义合适的数据来源等 l 分析主题域 在概念模型设计中,我们确定了几个基本的主题域,但是,数据仓库的设 计方法是一个逐步求精的过程,在进行设计时,一般是一次一个主题或一次若 干个主题地逐步完成的。所以,我们必须对概念模型设计步骤中确定的几个基 本主题域进行分析,并选择首先要实施的主题域。选择第一个主题域所要考虑 的是它要足够大,以便使得该主题域能建设成为一个可应用的系统:它还要足 够小,以便于开发和较快地实施。如果所选择的主题域很大并且很复杂,我们 甚至可以针对它的一个有意义的子集来进行开发。在每一次的反馈过程中,都 要进行主题域的分析。 2 粒度层次划分 数据仓库逻辑设计中要解决的一个重要问题是决定数据仓库的粒度划分层 次,粒度层次划分适当与否直接影响到数据仓库中的数据量和所适合的查询类 型。确定数据仓库的粒度划分,通过估算数据行数和所需的d a s d 数,来确定 是采用单一粒度还是多重粒度,以及粒度划分的层次。 3 确定数据分割策略 在这一步里,要选择适当的数据分割的标准,一般要考虑以下几方面因素: 数据量( 而菲记录行数) 、数据分析处理的实际情况、简单易行以及粒度划分策 略等。数据量的大小是决定是否进行数据分割和如何分割的主要因素:数据分 析处理的要求是选择数据分割标准的一个主要依据,因为数据分割是跟数据分 析处理的对象紧密联系的:我们还要考虑到所选择的数据分割标准应是自然的、 易于实施的,同时也要考虑数据分割的标准与粒度划分层次是适应的。 4 关系模式定义 数据仓库的每个主题郝是由多个表来实现的,这些表之间依靠主题的公共 码键联系在一起,形成一个完整的主题。在概念模型设计时,我们就确定了数 据仓库的基本主题,并对每个主题的公共码键、基本内容等做了描述。在这一 步里,我们将要对选定的当前实施的主题进行模式划分,形成多个表,并确定 各个表的关系模式。 第1 5 页 电信企业数据仓库信息建模完备性的研究与实践 用关系型数据库来实现数据仓库信息模型时,目前较常用的两种建模方法 是所谓的第三范式( 3 n f , 目pt h i r dn o r m a lf o r m ) 和星型模式( s t a r - s c h e m a ) 。 2 2 2 3 物理模型设计 这一步所做的工作是确定数据的存储结构,确定索引策略,确定数据存放 位置,确定存储分配。 确定数据仓库实现的物理模型,要求设计人员必须做到以下几方面: 要全面了解所选用的数据库管理系统,特别是存储结构和存取方法。 了解数据环境、数据的使用频度、使用方式、数据规模以及响应时间 要求等,这些是对时间和空间效率进行平衡和优化的重要依据。 了解外部存储设备的特性,如分块原则,块大小的规定,设备的i o 特 性等。 1 确定数据的存储结构 一个数据库管理系统往往提供多种存储结构供设计人员选用,不同的存储 结构有不同的实现方式,各有各的适用范围和优缺点,设计人员在选择合适的 存储结构时应该权衡三个方面的主要因素:存取时间、存储空间利用率和维护 代价。 2 确定索引策略 数据仓库的数据量很大,因而需要对数据的存取路径进行仔细的设计和选 择。由于数据仓库的数据都是不常更新的,因而可以设计多种多样的索引结构 来提高数据存取效率。 在数据仓库中,设计人员可以考虑对各个数据存储建立专用的、复杂的索 引,以获得最高的存取效率,因为在数据仓库中的数据是不常更新的,也就是 说每个数据存储是稳定的,因而虽然建立专用的、复杂的索引有一定的代价, 但旦建立就几乎不需要维护索引的代价。 3 确定数据存放位置 我们说过,同一个主题的数据并不要求存放在相同的介质上。在物理设计 时,我们常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类, 并将不同类的数据分别存储在不同的存储设备中。重要程度高、经常存取并对 响应时间要求高的数据就存放在高速存储设各上,如硬盘;存取频率低或对存 第1 6 页 电信企业数据仓库信息建模完备性的研究与实践 取响应时间要求低的数据则可以放在低速存储设备上,如磁盘或磁带。 数据存放位置的确定还要考虑到其它一些方法,如:决定是否进行合并表: 是否对一些经常性的应用建立数据序列;对常用的、不常修改的表或属性是否 冗余存储。如果采用了这些技术,就要记入元数据。 4 确定存储分配 许多数据库管理系统提供了一些存储分配的参数供设计者进行物理优化处 理,如:块的尺寸、缓冲区的大小和个数等等,它们都要在物理设计时确定。 这同创建数据库系统时的考虑是一样的。 第17 页 电信企业数据仓库信息建模完备性的研究与实践 第三章数据仓库信息完备性 在作者参与中国联通统一经营信息服务系统( u b i s ) 的项目建设过程中,发 现系统的中央数据仓库只是包括用户当前经营分析需求的数据信息,而没有提 供所有的经营分析信息,影响项目后期建设以及各省市项目开发的效率。为解 决项目建设中所遇到的这个问题,作者提出数据仓库信息完备性的概念和保证 信息完备性的原则。 3 1 电信企业级数据仓库一中国联通u b is 【7 】 8 1 中国联通统一经营信息服务系统简称u b i s ,以查询统计经营数据为核心, 其数据源于服务支撑系统中各生产系统中数据( 包括电子与手工数据) ,通过信 息展现( 包括提供数据接口访问方式) 为企业的其它系统提供业务和客户层面 经营信息服务的统计分析、决策支持,如为e r p 系统中用于企业管理的经营统 计信息提供数据来源,为将要建设的c r m 系统提供数据。 u b i s 系统伴随着以客户为中心的综合营帐系统进行同步建设,总体建设目 标就是要实现企业上下级组织机构( 总部一省分公司一地市级分公司) 间、各 部门间、各系统间的面向客户和业务,并以客户为中心的经营管理信息传递, 完成公司内部统一经营信息管理服务功能;以及为了减轻生产系统日益繁重的 生产压力,u b i s 系统还为生产型查询请求提供历史数据基础。 3 11u b i s 体系架构 中国联通统一经营信息服务系统由总部统一经营信息服务系统和各省分统 一经营信息服务系统两级构成。统一经营信息服务系统对经营信息的处理包括 三部分内容,分别是收集、存储、展现。其中,经营信息的收集指按照统一经 营信息基线产品规定的数据源接口标准,从服务支撑系统的生产系统数据源( 统 一客户资料系统、综合营业系统、综合帐务系统、客服系统等) 中进行抽取、 转换、装载,形成本系统所需的信息。经营信息的存储指对本系统数据仓库中 各级信息迸行组织、存储与访问控制管理。经营信息的展现使得总部统一经营 信息服务系统、省分其他系统以及省分、地市用户可以通过上层提供的各种应 用,利用w e b 、g u i 、a p i 等方式对经营信息进行查看和访问。 第1 8 页 电信企业数据仓库信息建模完备性的研究与实践 u b i s 系统是一个多层结构,主要分为数据采集层、数据仓库生成层、应用 逻辑层三大层次,如图表三一1 所示。 经营业务报表客户信息分析 应 统计报表散据服务数据挖期商业蕾理 望 彳产喜 固定格式 敷据立方体数据访问数据库 f报衰 数据仓库接口 彳产 。、,、,j塞 彳产鑫 数据抽取,转换、装载 k - t l 2 轰 彳产 5 i o d s 信息模型:o d s 的引入是为了避免d w 与各个专业系统直接接口,减 少了抽取的复杂性,同时o d s 的信息模型组织主要遵循企业业务事务处理 的形式,将各个专业数据进行集中。o d s 中数据按客户、帐务、结算、缴 费、计费详单、营业等主题组织。 d w 信息模型:为企业进行经营数据的分析,系统将数据按分析的主题组 织成多维库表的形式存放,d w 信息模型描述了经营数据多维库表的结构 信息。 d w 元数据信息模型:用来存储d w 多维库表的逻辑结构信息,和d w 商 业元数据信息。 报表信息模型:以文件或关系表的方式,描述系统产生报表的属性,如报 表产生日期、产生周期、提交部门、报表指标、指标解释等。与该模型对 应的数据是系统根据定义产生的各个报表。 转换规则信息模型:从采集源数据到提供经营数据给其它系统这个过程中 第2 0 页 电信企业数据仓库信息建模完备性的研究与实践 涉及到三个数据转换过程,分别是从专业源数据到o d s 、从o d s 到d w 、 从d w 到报表。系统以文件或库表的方式存储这几次数据转换的规则。与 该模型对应的数据是三次数据转换实际的转换规则。 系统管理信息模型:统一经营信息服务系统作为运营支撑系统中重要的子 系统必须具有完善的系统管理功能。系统管理信息模型就是用库表的方式 描述系统管理数据的结构信息。系统管理信息包括用于安全管理的信息、 用于系统调度的信息,还有系统日志等信息。 经营数据接口信息模型:以文件的方式对系统与总部、系统与其它经营信 息分析系统的数据接口进行定义。 系统o d s 信息模型申的数据来源于各专业系统按照接口信息模型定义的 格式和内容传送来的数据,d w 信息模型中的数据来源于o d s 信息模型中的数 据。系统产生的报表数据和总部要求的数据来源于d w 。d w 元数据信息模型 中的数据是指d w 信息模型的描述数据和本系统涉及的d w 商业元数据。转换 规则信息模型中存储依赖于接口信息模型、o d s 信息模型、d w 信息模型、报 表信息模型帝i 定的从接口源数据到o d s 、从o d s 到d w 、从d w 到报表的转 换规则。 3 2 u b l s 项目建设中的信息现状 在中国联通统一经营信息服务系统的项目建设中,我们采用两种方法来构 建数据仓库模型。 第一种方法是借鉴中国联通总部面向各省份公司定义的统一客户资料系统 ( u c i s ) 的信息模型规范来构建u b i s 项目的操作数据存储层( o d s ) 模型,这 种方法通用但并不是很成功。所带来的问题:1 ) 信息不完备。u c i s 信息模型 规范是中国联通总部公司为提供完整统一的客户资料并为经营决策提供可靠的 基础数据而统一制定的规范。由于模型是从统一客户资料数据需求的角度来构 建的,所以它实际上并不兼容各省份的综合营帐系统,而各省份对u b i s 系统 的分析型数据的需求往往是和本省份的综合营帐系统紧密联系的。比如,u c i s 模型中缺少综合营帐系统中卡资源信息,而u b i s 项目中有对卡资源销售情况 的分析需求。因此,根据u c i s 系统的信息模型构建的o d s 模型不能满足用户 的全部分析型需求,模型提供的信息是不完备的。2 ) 设计和实现从生产系统模 型到o d s 模型的映射规则比较困难。生产系统模型、处理流程、实体属性含义 由生产厂家制定,和根据u c i s 模型规范构建的o d s 模型在很多方面不同,因 第2 1 页 电信企业数据仓库信息建模完各性的研究与实践 此实现从生产系统模型到通用的o d s 模型的映射,消除模型的差异、保证含义 的一致比较困难。 第二种方法是从生产系统出发,生产系统有什么实体和属性,o d s 模型中 就有什么,o d s 模型是生产系统模型的拷贝。这种方法很成功但并不通用。因 为各省的生产系统不相同,导致各省的o d s 模型不相同。这种建模方法带来的 问题是:1 ) 信息不完备。方法只能保证当前省份的数据是完整的,但从整个数 据仓库的角度来看,模型并不完备。2 ) 模型重用性不高,影响模型的开发效率。 各省的模型根据自己的生产系统来设计,所以各有一套不同的数据仓库模型, 模型的重用性不高,各省的开发效率也就不可能提高,而且各省需要一个开发 小组负责开发和维护。 为改善u b i s 项目建设中开发方法所引起信息现状,作者提出数据仓库信 息建模完备性方法,先根据业务系统的核心业务流程采用信息建模方法构建一 个基准模型,然后根据各省的生产系统实际情况映射基准模型,对不能映射的 部分考虑增加实体和属性,采用迭代增量方式扩充、完善基准模型,保证模型 结构和含义的一致,最终得到一个完备的数据仓库信息模型,从而在项目实施 中消除各省模型的差异、提高项目的开发效率、降低项目的开发成本。 3 3 数据仓库信息完备陛的定义 任何一个系统都是对客观存在的现实世界的反映,系统的信息完备性是指 系统能够完整描述业务领域的数据结构和业务规则,再现现实世界的实体、属 性和实体间的关系。被表示的现实世界实体有遗漏吗? 现实世界实体的所有相 关成分是否都用模型表示出来了【9 j ? 数据仓库是一个面向主题的、集成的、非易失的、随时间变化的用来支持 管理人员决策的数据集合【】。1 。这些数据来源于面向应用的操作型环境( 生产系 统) ,经过一定的抽取、清洁、转换后装载入数据仓库。数据仓库信息完备性是 指从整个企业应用的角度出发,按照操作型系统原始数据的本质特征组织信息 模型,提供一个包含经营决策分析所需要的全部信息的数据仓库,当用户提出 新的分析型数据需求的时候,在数据仓库中可以找到相应的信息,而不必重新 查找生产系统、确定和组织相关数据信息。 在具体实施运作的时候,可以从2 个方面入手。一是从数据仓库高层的分 析型数据应用的方面,数据仓库信息完备性就是数据仓库可以满足决策分析人 员当前、未来提出的各种分析需求。由于当前需求的易变性、未来需求的不明 第2 2 页 电信企业数据仓库信息建模完各性的研究与实践 确性,从高层应用需求出发来实现数据仓库的信息完各性比较困难。二是从操 作型数据环境中的业务系统方面,数据仓库信息完备性就是数据仓库能够再现 业务系统的实体、实体关系、实体特征。由于业务系统中业务规则、数据结构 一般比较稳定,实体、实体间的关系变化不大,所以从操作型环境中业务系统 出发来实施数据仓库的信息完备性比较可行。 3 4 保证信息完备性的原则 为了实现数据仓库的信息完备性,保证方法的可行性,我们需要遵守一定 的原则: 1 数据仓库的信息完备性受数据仓库模型的完备性、生产系统提供数据的 完备性影响,生产系统提供的数据是否完备不在我们的可控制范围内,但是数 据仓库模型的完备性在数据仓库模型设计的时候是可以做到的,而且信患模型 是数据所依附的载体,是数据仓库的核心。所以首先要保证数据仓库信息模型 的完备性。 2 数据仓库的数据采集层是整个数据仓库的数据源,数据仓库其它层的数 据均来源于此,所以首先要保证数据采集层信息模型的完备性。 3 由于生产系统提供的源数据种类繁多、数据分散,数据仓库采用面向主 题的方式来组织数据信息,这是保证信息模型完备性的必要条件之一。 4 从业务系统的核心流程出发,采用信息建模方法和步骤,构建一个基准 模型,包含业务系统的全部实体、实体属性信息。 5 。分析各省生产系统,采用迭代增量式的数据仓库模型开发方法,在基准 模型的基础上构建信息完备的数据仓库信息模型。 上述数据仓库信息完备性原则也是我们在建设数据仓库项目的过程中保证 信息完备的工作着手点。 第2 3 页 电信企业数据仓库信息建模完备性的研究与实践 第四章数据仓库信息建模完备性 数据仓库信息建模完备性是指采用某种信息建模方法来构建数据仓库信息 模型,保证数据仓库的信息完备性。 按照数据功能划分数据仓库层次结构,可以把数据仓库分为数据采集层、 数据存储层、数据展现层,其中采集层是数据仓库的数据源,为存储层、展现 层提供数据。在中国联通u b i s 项目中,和采集层对应的是操作数据存储层 ( o d s ) ,它是u b i s 的数据基础,保证它的信息完备性就保证了u b i s 系统的 信息完备性,所以本章研究的是保证u b i s 系统o d s 信息完备性的信息建模方 法。 4 1 信息建模方法 在u b i s 系统o d s 层,保证信息完备性的信息建模方法的最终目标是o d s 层的信息模型能够完整再现操作型数据环境中业务处理规则和数据结构,体现 业务系统的实体、实体间关系和实体属性特征。所以,信息建模方法首先确定 业务系统功能,从功能分析入手,研究功能实现流程中的实体、实体行为、实 体状态,获取相应的实体信息,以面向主题的数据组织方式构建o d s 信息模型。 业务功能的实现流程描述了“如何做”的知识,侧重行为方面的内容,研 究分析功能实现流程中所有的实体及其在流程中出现的实体活动、实体状态的 变更,保证所获取的业务系统的实体、实体关系、实体属性的完备性,也就保 证了o d s 模型的实体、实体关系、实体属性的完备性。 4 2 信息建模步骤 保证数据仓库操作数据存储层模型的信息完备性的建模方法是对如何实现 模型信息完备的描述,具体的实施过程或步骤按照下面所列进行操作: 1 确定目的和范围 2 收集系统数据 3 描述业务功能 4 分析业务流程 第2 4 页 电信企业数据仓库信息建模完备性的研究与实践 5 确定系统实体 6 确定实体属性 4 2 1确定目的和范围 定义目的和范围是项目开发过程中一项很重要的初始化工作。在没有明确 开发目的的条件下所做出的成果,对用户基本没用。定义目的即定义需求说明, 需求说明应标识出需求来源,并对用户意图加以描述。完成目的的特征抽取后, 才有可能确定建模内容,即数据模型覆盖范围。模型覆盖的范围确定了讨论问 题的边界,模型中应包括生产系统的哪些部分、不应包括哪些部分。理想情况 下,范围应只包括那些与用户需求相关的领域。这一阶段定义的需求和选定的 范围只是一种尝试,在后面的生产系统业务数据分析以及迭代递增式的建模方 式中需要不断修正】。 确定u b i s 系统操作数据存储层模型的目的和内容,包括对模型所涉及的 范围进行限定。操作数据存储层模型的目的是构建种数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 城乡胰岛素抵抗差异的社会经济影响-洞察及研究
- 船舶智能检测技术-洞察及研究
- 职业健康监测与预警系统-洞察及研究
- 能源网络最短路径研究-洞察及研究
- 太阳能光催化材料-洞察及研究
- 农业大数据与物联网融合创新-洞察及研究
- 2024-2025学年北京市通州区高二下学期期末测试英语试题
- 3D打印在风电叶片制造中的应用-洞察及研究
- 基于纳米技术的妥布霉素递送系统-洞察及研究
- 化学中考模拟训练试题及答案
- 2025年衢州编外考试试题及答案
- 2025-2026学年苏少版(2024)小学美术一年级上册教学计划及进度表
- 水务局面试真题及答案解析:水利行业招聘面试实战
- 邮政储蓄网点一点一策实施方案
- 2025年飞行服务站无人机培训行业现状分析报告
- 智慧城市的数据中心基石建设方案
- 2025年中医理疗师考试题库及答案
- 强迫性障碍护理查房
- 物业对中介管理办法
- 骨科病人饮食护理课件
- 2025年财政知识竞赛考试题库及答案(共50题)
评论
0/150
提交评论