




已阅读5页,还剩64页未读, 继续免费阅读
(控制理论与控制工程专业论文)项目管理系统的数据仓库设计与研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华中科技大学硕士学位论文 摘要 随着信息技术的飞速发展,许多企业或部门都积累了大量的历史数据,但由于缺 乏有力的分析工具,使得重要的决定常常不是基于数据库中丰富的数据,而是基于 决策者的直觉,因此如何建立决策支持系统,提供决策者高效的数据分析能力的研 究就显得非常重要。数据仓库是近年来发展起来的- - i 数据处理和数据管理技术, 它的出现大大促进了决策支持系统理论方法的研究和应用的发展。应用数据仓库技 术建立决策支持系统,可以充分利用现有的数据资源,有效提高管理决策水平,基 于数据仓库技术的理论方法和应用研究已经成为当前决策支持系统的一个研究热 点。 , 本文首先对数据仓库技术进行了介绍,内容包括数据仓库技术的必要性、数据仓 库的概念、特点、基本体系结构、多维数据模型和支撑数据仓库的两项关键技术: 立方体物化选择技术、多路数据聚集技术。f 同时也对联机分析处理的基本概念、特 征和服务结构等进行了介绍。 、 结合开发科研项目管理系统的研究实践,本文重点阐述了数据仓库系统设计与实 现中的若干重要问题的解决方法。在数据仓库的设计阶段,主要有多维数据模型设 计、实现维度格结构的方法、基础关系数据库的设计以及如何处理变化的维等问题。 f 在前台应用与o l a p 服务集成的工作中,主要问题有如何访问多维数据、如何控制 o l a p 服务。数据抽取、清理与装载是一个建立数据仓库系统必须面对,但又相当繁 琐、复杂的过程,文章对本系统中这一过程的工作给予了详细描述。对于数据集市 与数据仓库的关系,本文也给予了一定的讨论,并提出了我们认为合适的开发策略。 另外,文章从效率和灵活性两个角度给出了基于数据库和基于数据仓库分析的性能 比较。、, 在实际设计中,文章详细论述了采用前述方法进行科研项目管理决策支持系统结 构模型的设计和数据建模,在介绍了数据仓库分析工具的基础上对本系统进行数据 查询和分析,同时探讨了数据仓库管理中的元数据管理、数据更新和复制等内容。 最后,本文对提高决策支持系统的效率应该开展的研究进行了展望。 关键词:数据仓库联机分析处理决策支持系统项目管理系统 一 一 一 一 华中科技大学硕士学位论文 a b s t r a c t w i t ht h e r a p i dp r o g r e s so fi n f o r m a t i o nt e c h n o l o g y , ag r e a td e a l o fd a t ah a sb e e n a c c u m u l a t e d i r o n i c a l l y , i m p o r t a n td e c i s i o n sa r eo f t e nm a d eo nt h ei n t u i t i o no fd e c i s i o n m a k e r s ,i n s t e a do ft h ea b u n d a n td a t as o u r c e h e n c e ,h o wt o b u i l dd e c i s i o n s u p p o r t s y s t e m s ,w h i c hc a np r o v i d ee x c e l l e n td a t aa n a l y s i sf u n c t i o n ,h a sb e c o m em o r ea n dm o r e i m p o r t a n t d a t aw a r e h o u s e ( d w ) i san e wt e c h n o l o g yo fd a t am a n a g i n gt h a td e v e l o p s v e r yf a s t i nr e c e n t y e a r s i t sa p p e a r a n c eh a sg r e a t l y a c c e l e r a t e dt h e d e v e l o p m e n to f d e c i s i o n s u p p o r ts y s t e m s ( d s s ) t h e o r y r e s e a r c ha n d a p p l i c a t i o n b yu s i n gd w t e c h n o l o g yi nt h ec o n s t r u c t i o no fd s s ,t h ee x i s t i n gd a t ar e s o u r c ec a l lb em a d ef u l lu s eo f a n dt h em a n a g e m e n tl e v e lc a nb e i m p r o v e de f f i c i e n t l y t h et h e o r y , m e t h o d a n da p p l i c a t i o n d i s c u s s i o nb a s e do nd w t e c h n o l o g yh a sb e c o m e ar e s e a r c h h o t s p o to f d s sc u r r e n t l y a st h ef u n d a m e n to ft h i sr e s e a r c h ,t h ef i r s tp a r to f p a p e rg i v e si n t r o d u c t i o n st od a t a w a r e h o u s ea n d o l a p c o n c e r n i n g d a t a w a r e h o u s e ,i t s n e c e s s i t y , c o n c e p t i o n , c h a r a c t e r i s t i c s ,b a s i cs t r u c t u r e ,m u l t i d i m e n s i o n a ld a t am o d e la n dt w ok e yt e c h n i q u e s i n c l u d i n g t h e s t r a t e g y o fc u b em a t e r i a l i z a t i o na n d m u l t i w a ya r r a ya g g r e g a t i o n a r e i n t r o d u c e d m e a n w h i l e ,t h eb a s i cc o n c e p t i o n ,c h a r a c t e r i s t i c sa n ds e r v i c es t r u c t u r eo f 0 l a pa r ea l s oi n t r o d u c e d b a s e do nt h er e s e a r c ha n dd e v e l o pp r a c t i c eo fp r o j e c tm a n a g e m e n ts y s t e m ( p m s ) , s o l u t i o n st os o m ei m p o r t a n tp r o b l e m sa b o u tt h e d e s i g na n di m p l e m e n t a t i o no fd a t a w a r e h o u s ea r ei l l u s t r a t e di nd e t a i l s w h i l ed e s i g n i n gt h ed a t aw a r e h o u s e t h ep r o b l e m s a r eh o wt od e s i g nm u l t i d i m e n s i o n a ld a t am o d e l ,h o wt oi m p l e m e n tt h eg r i ds t r u c t u r eo n d i m e n s i o n ,h o w t od e s i g nt h ef u n d a m e n t a lr e l a t i o n a ld a t a b a s ei nd a t aw a r e h o u s ea n dh o w t od e a lw i t ht h ec h a n g e so nd i m e n s i o n s w h i l ei n t e g r a t i n gt h ef o r e g r o u n d i n ga p p l i c a t i o n a n do l a ps e r v e r , t h ep r o b l e m sa r eh o w t oa c c e s st h em u l t i d i m e n s i o n a ld a t aa n dc o n t r o l t h eo l a ps e r v i c e d a t ae x t r a c t i o n ,c l e a n u pa n dt r a n s f o r m a t i o nb e i n gav e r yc o m p l i c a t e d b u ti n e v i t a b l e p r o c e d u r e ,t h i sp a p e rg i v e s ad e t a i l e d d e s c r i p t i o no no u rw o r ki n t h i s p r o c e d u r e t h ep r o p e rs t r a t e g yo f d a t aw a r e h o u s i n gi sa l s og i v e na f t e rd i s c u s s i o no nt h e r e l a t i o n s h i pb e t w e e n d a t aw a i e h o u s ea n dd a t am a r t m o r e o v e r , f r o mt h ep e r s p e c t i v e so f e f f i c i e n c ya n df l e x i b i l i 吼ag l a n c i n gc o m p a r i s o n o nt h ep e r f o r m a n c eo f t h ea n a l y s i sb a s e d i l 华中科技大学硕士学位论文 o nd a mw a r e h o u s ea n dt h ea n a l y s i sb a s e do nr e l a t i o n a ld a t a b a s ei sg i v e ni nt h e p a p e r i nt h ea p p l i c a t i o no ft h ea f o r e m e n t i o n e dt h e o r y , t h ed e s i g no fp m s sa r c h i t e c t u r ea n d d a t a m o d e l i n ga r ee l a b o r a t e d i nt h eb a s i co f t h e i n t r o d u c t i o no f a n a l y s i st o o l so f d ws u c h a so l a p , d ma n do l a m ,t h i sp a p e ra l s oi l l u s t r a t e ds o m em e t h o d si nd a t aa n a l y s i s m e a n w h i l e ,s o m ep r o b l e m si nt h em a n a g e m e n to fd ws u c ha sm e t e d a t am a n a g e m e n t d a t au p d a t i n ga n dd a t ar e p l i c a t i o na r ed i s c u s s e di nd e t a i l f i n a l l y , f u t u r er e s e a r c ha b o u t h o w t op r o v et h ee f f i c i e n c yo f d s si si l l u s t r a t e di nt h ep a p e l k e y w o r d s :d a t aw a r e h o u s e o n l i n ea n a l y t i c a lp r o c e s s i n g d e c i s i o ns u p p o r ts y s t e mp r o j e c tm a n a g e m e n ts y s t e m 1 1 1 华中科技大学硕士学位论文 1 1 课题研究背景 l绪论 我校科技处的科技管理系统是以项目管理为主,辅以成果、奖励、专利、论文管 理的综合信息管理系统。系统包括各项相关内容的输入、修改、删除、查询、统计、 维护等功能,通过校园网将学校各院系的科研机构和其他校级管理部门联系起来, 分散操作,集中管理,以求实现科研信息规范管理,信息共享,开放发展,实用方 便,形象智能的总体目标。 随着我校科研力量的不断壮大,科研工作的范围日益扩大,这对系统的性能提出 了更高的要求。管理系统因而也在不断的更新与完善中。新系统增加了项目经费的 汇总统计、论文报表统计、项目相关的统计报表等功能模块,还增加了项目、成果、 奖励、专利的互动输入功能。建立在信息查询和统计基础上的决策支持功能也被列 为该系统的一大新需求。为了让科技处长能及时把握学校各院系的项目、经费情况, 了解我校人员的科研水平,掌握从整体到个别的变化趋势,及时制订出相关的发展 策略,继续保持我校科研工作积极向上的发展势头,我们有必要简化编程和前台操 作,对原有的数据库进行更新和整理,引入先进的数据仓库技术,构建可持续提交 及时、综合分析信息的系统,提高其累积数据的信息附加值,以支持高层决策的需 要。 1 2 研究的目的及意义 本研究的出发点是探索满足校、处级决策者对科研情况的决策支持技术,研究数 据仓库的相关理论和使用方法,并以此来指导新系统的设计和开发。 1 2 1 研究目的 ( 1 ) 以历史累积数据为基础,面向决策分析的需要,重新清理数据、调整数据 组织,为科技处项目信息管理系统建立集成稳定的数据仓库,提高数据的可信度和 可利用性。 ( 2 ) 建立灵活、有效的联机分析处理工具来对数据仓库的多维数据进行分析处 理,为决策提供有力的支持。 ( 3 ) 系统管理者应该既可以直接在服务器端对数据仓库进行数据分析,又能够 在客户应用端方便地对数据仓库进行数据查询。 华中科技大学硕士学位论文 ( 4 ) 通过建立项目管理系统的实践,对数据仓库和决策支持系统的理论研究、 设计问题、实现问题作初步探索,找出一条切实可行的路子。 1 2 2 研究意义 自9 0 年代初,美国著名信息工程科学家w h i n m o n 提出数据仓库“1 的概念以来, 在国外数据仓库技术已经得到较为广泛的应用。在国内虽然也有一些案例,但与国 外相比,其实际效益、用户的满意程度都相去甚远。同时,建立d s s 是一个非常复 杂的过程,因为它是为决策者服务的,而决策者的需求又是不断变化的,所以必须 妥善解决系统设计中的若干关键技术问题。其中,d s s 的数据环境和信息处理技术是 系统设计和实施中的关键技术之一。数据仓库系统理论为d s s 提供了一种可靠的解 决方案,更能展示信息的本质。因此,本研究通过建立项目管理决策系统的分析和 实践,使系统具备了为最终用户提供灵活迅速的数据分析能力后,将为项目管理与 决策水平的提高,提供坚实的技术基础。另外,将数据仓库技术与d s s 结合,应能 为信息管理系统开辟出一片更广阔的天地,从而推动传统数据库技术的进一步发展。 1 3 文献综述 1 - 3 id s s 数据库系统 1 d s s 数据库系统的特点 决策支持系统的概念是7 0 年代提出的。所谓支持,是指d s s 支持和帮助决策者 作出决定,而不是用一个自动化的系统来代替他们。决策支持系统综合运用决策科 学的理论和方法,能够有效的改善决策者的决策能力,提高决策的科学性和信息化 程度,它主要用于支持高层或中层管理者进行非程序性问题决策的系统,现己得到 了迅速的发展。 从某种意义上可以说,一个决策过程是由数据驱动的,在一个具体的决策制定过 程中,则更要用到大量的数据。数据库系统是d s s 的一个重要组成部分。 如果按数据的主要用途来分类的话,在制订一个决策的全过程中,主要用到两类 数据:一类是驱动一个决策过程所用的数据,另一类是决策制定中所要用到的各种 数据,从数据管理的角度来看,由于前一种数据比较零散,难以把握,数据管理的 难度很大,所以一般d s s 的数据库管理系统不涉及这一类数据的管理问题,d s s 中 所说的数据库和数据库管理系统主要是对后一种数据而言。 一般情况下,任何一个d s s 都不能缺少数据库及其管理系统。d s s 中数据的主 要用途是支持决策制定过程,因此它与一般通用数据库中的数据不同。首先,d s s 中的数据是和决策过程密切相关的,一切数据都经过适当的加工、浓缩。其次,由 于d s s 一般面向高层决策,所以除了内部数据外,还要用到大量的外部数据。 与d s s 中数据的特点相对应的是对d s s 中数据库管理系统的特殊要求。d s s 中 华中科技大学硕士学位论文 的数据库管理系统除了要具备一般数据库管理系统的功能外,系统设计时还要着重 考虑以下凡方面问题1 2 j : ( 1 ) 面向决策支持过程组织和管理数据 d s s 中数据库的设置必须满足各种层次、各种类型、不周决策者的决策过程对数 据的要求。d s s 中的数据库管理系统应能根据决策活动的需要。把有关的数据面向 决策过程组织起来。因此,设计数据库系统时,系统的结构、数据库管理系统的功 能选择等等,都必须围绕着决策支持过程来进行。 ( 2 ) 面向模型、面向模型生成来使用数据 d s s 的一个特点是数据与模型的有机结合,模型也是d s s 的重要组成部分。在 制订决策过程中,总要用到各种模型,包括定量的、定性的等等。模型必须和所需 要的数据相匹配,才能被用于决策过程。所以,d s s 中数据结构的选择,必须考虑 到和有关模型的匹配问题,应最大地满足各种模型对数据结构的要求。 ( 3 ) 数据描述方式要面向不同的决策者 d s s 的用户由各层次的决策者和参与决策制定过程的有关人员构成,由于用户的 背景不一致,使用计算机的能力往往也有很大差别,因此d s s 中数据库的人机界面 必须设计成用户所熟悉的形式。数据描述画面应对决策者是透明的,使用他们熟悉 的语言和术语,一般d s s 中使用数据的量都比较大,按用户习惯设计人机界面,并 尽可能方便用户使用。 2 d s s 和m i s 数据库系统的比较 d s s 和m i s 的数据库及其管理系统在概念上有许多共同点,如数据库的某些功 能及其实现的方法,数据库管理系统的某些作用等,这主要是由于d s s 对数据库系 统的某些概念来自m i s 系统。但是,由于d s s 和m i s 之间存在着根本的区别,所 以它们对数据库的要求有本质上的不同。 d s s 在数据组织与管理以及数据库系统的设计与开发方面均不同于m i s ,主要表 现在以下几个方面p j : ( 1 ) 数据处理 m i s 主要处理那些反映当前信息及状态的数据,而d s s 是处理那些归档数据。 一般来说,归档数据是聚积起来的m i s 系统的旧数据。 d s s 以集合方式操作数据,而非以明细方式;m i s 则是以逐条纪录的方式修 改或访问数据。 d s s 访问那些不太具有访问可能性的归档数据;而m i s 访问的归档数据是那 些具有高访问可能性和相对低容量的数据。 d s s 是为作长远决策的管理工作服务的,而m i s 则是为作日常决策的具体事 务服务的。 华中科技大学硕士学位论文 d s s 加工数据不是简单的筛选、归并,而是数据的增值与统一。d s s 除了通 过对历史与现状信息、系统内与系统外的数据进行加工处理,掌握尽可能多且真实 准确的情报,进而发现问题外,还要产生如预测结果、决策方案的实施条件与产生 的后果及影响等增值数据。 ( 2 ) 数据源不同 d s s 数据不仅来源于系统内部,而且有大量的数据来源于系统外部,具有多 个数据源。不仅有可观的数据,而且可能存在主管的数据,这就需要d s s 对进入系 统的数据进行鉴别、修改和变换。 d s s 数据类型复杂,不仅有数值性数据、符号性数据,而且还存在模糊数据 和逻辑数据、图形图像和表格等类型。 d s s 具有大量的历史数据,任何数据都应带有相应的时间标记。 ( 3 ) 数据组织 d s s 系统需要为决策支持提供综合数据,这类数据的组织应当以企业中业务工作 的主题内容为主线,因为这样的组织方式能提供数据的全方位可用性,而m i s 的数 据组织因功能单一和过于规范化只能解决一些非常专业且很片断的问题,而且这种 组织方式只能对某一应用是最优的。 ( 4 ) 常规数据库管理系统的局限性 常规数据库管理系统所支持的数据结构比较简单,无法支持多媒体数据结 构。 常规数据库管理系统对数据结构形势要求严格,而d s s 有诸多非规范化数 据,不规划或不完整等数据。 常规数据库管理系统只具有静态特性,不能自行重组。 综上所述,d s s 在数据的处理、组织与管理方面均与m i s 有很大差别,并且常 规的数据库管理系统因其自身的局限性已无法满足决策支持系统对数据系统的要 求。而数据仓库技术正是一种适用于决策支持系统数据组织与管理的新技术。 1 3 2 数据库技术的最新发展 数据库系统所管理的数据是各个部门宝贵的信息资源,在信息化时代来临、 i n t e m e t 高速发展的今天,建设以数据库为核心的信息系统和应用系统,对于提高企 业的效益、改善部门的管理、改进人们的生活都具有实实在在的意义。数据库系统 已从第一代网状、层次数据库系统发展到第二代关系数据库系统和第三代以面向对 象为主要特征的数据库系统。 传统的数据库技术是以单一的数据资源,即数据库为中心的,进行从事务处理、 批处理到决策分析等各种类型的数据处理工作。然而,不同类型的数据处理有着不 同的特点,以单一的数据组织方式进行组织的数据库并不能反映这种差异,满足不 4 华中科技大学硕士学位论文 了数据处理多样化的需求。近年来,随着计算机得应用,特别是数据库应用的广泛 普及,人们对数据处理的这种多层次特点有了更清晰的认识。总结起来,当前的数 据处理可以大致地划分为两大类:操作型处理和分析型处理( 或信息型处理) 。操作 型处理也叫事务处理,是指对数据库联机的日常操作,通常是对一个或一组记录的 查询和修改,主要是为企业的特定应用服务的,人们关心的是响应时间,数据的安 全性和完整性。分析型处理则用于管理人员的决策分析,例如,d s s 、e i s 和多维分 析等,经常要访问大量的历史数据。两者之间的巨大差异使得操作型处理和分析型 处理的分离成为必然。这种分离划清了数据处理的分析型环境与操作型环境之间的 界限,从而由原来的以单一数据库为中心的数据环境发展为一种新环境:体系化环 境。 数据库技术一直力图使自己能胜任从事务处理、批处理到分析处理的各种类型的 信息处理任务。尽管数据库在事务处理方面的应用获得了巨大的成功,但它对分析 处理的支持一直不能令人满意,尤其是当以业务处理为主的联机事务处理( 0 l t p ) 应用与以分析处理为主的d s s 应用共存于同一个数据库系统中时,这两种类型的处 理发生明显的冲突。人们逐渐认识到,事务处理和分析必须将分析型数据从事务处 理环境中提取出来,按照d s s 处理的需要进行重新组织,建立单独的分析处理环境。 数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术m 。 数据仓库技术是近年来在数据库领域中出现的一种新技术,它是信息系统未来发 展的必然趋势,但是由于有关它的理论正在成型的发展过程中,并且它所涉及的领 域非常广泛,实施起来具有相当大的难度,因而还没有成为信息管理的主流技术, 但是随着对其研究的深入,数据仓库理论的日臻完善,以及人们对信息利用率认识 的提高,数据仓库技术已经也必然成为信息系统工程必不可少的关键技术。 1 3 3 国内外研究现状 从目前掌握的文献来看,国内的研究主要集中于数据仓库的架构问题。这些问题 包括数据模型建立的规则、数据仓库的架构、系统组成、数据管理等问题。同时, 也把数据仓库技术应用于实际,建立了一些成功的案例1 5 ”,如宝钢能源部智能决策 系统,上海三枪集团销售分析系统等,但该技术在国内尚未得到推广应用。 国外的研究除国内学者所涉及的这些方面外,对优化数据仓库的性能、提高数据 仓库支持分析的能力,降低运行成本方面开展了大量工作。如研究如何最优地产生 物化视图( m a t e r i a l i z e dv i e w ) ,利用多少辅助视图( a u x i l i a r yv i e w ) 可以使物化视图达 到自维持( s e l f - m a i n t a i n a b l e ) ,数据仓库的语义模型,数据仓库的安全性问题等等。 国外学者也进行数据仓库的应用研究。这一类研究通常都有较强的工程背景。他们 所关注的不仅是技术闯题,更多的是关注如何设计数据仓库系统使之适合企业复杂 的实际情况;如何衡量不同层次明户对数摒仓库系统满意稗度等。在技术实现上面, 华中科技大学硕士学位论文 很多数据库厂商都以自己的数据库产品为依托,提出了数据仓库的解决方案。同时 第三方厂商也分别提供实现数据仓库所必须的数据转换,力日载工具和分析查询制表等 工具。比较著名的有o r a c l e 公司的数据仓库解决方案,s y b a s e 公司的数据仓库 解决方案,i n f o r m i x 公司的解决方案,微软的基于s q ls e r v e r 7 的解决方案等。 1 4 本文的主要研究内容与结构 本文的主要内容是数据仓库系统的理论研究及其在信息管理决策系统中的应用。 全文共分为五章,各章的内容安排如下: 第一章简介课题的研究背景,简述研究的目的和意义,综述d s s 产生和发展现 状、数据库技术的最新发展,以及数据仓库技术在国内外研究的现状。 第二章介绍数据仓库技术的缘起和发展过程,阐述数据仓库的基本概念,包括数 据仓库的定义、五大特点、数据仓库的相关技术如粒度和分割的概念、数据仓库的 基本体系结构,数据仓库的星型、雪花等多维数据模型,接着给出开发数据仓库的 方法,最后是联机分析技术和相关的服务结构。 第三章研究数据仓库系统和决策支持系统的关系。在给出了数据仓库的设计方法 和过程后,分析了o l a p 数据的访问和服务控制,结合系统本身的特点详细阐述了 数据仓库数据抽取转换和装载的步骤,举例说明了处理缓慢变化和快速变化维的具 体方法。最后介绍了数据集市的概念和特点,将数据集市和数据仓库进行综合比较, 针对不同的系统提出是选择数据集市还是数据仓库的主张。 第四章是数据仓库理论与决策支持在项目管理决策支持系统中的应用研究。以学 校科技信息管理系统为背景,分析新形势下的更高需求,在此基础上进行新系统的 结构设计,提出可行方案,论述了采用前述理论方法进行系统模型的设计,包括数 据的对象建模和动态建模,数据仓库的分析工具如数据挖掘和联机挖掘等;同时还 探讨了本系统的数据查询和分析技术,包括使用m d x 接口技术和数据透视服务等; 晟后给出了数据仓库元数据的管理和数据更新方法。 第五章为全文总结与展望。 6 华中科技大学硕士学位论文 2 数据仓库与联机分析处理 2 1 数据仓库技术的引进 在过去几十年中,传统数据库技术,特别是o l t p ( 联机事务处理) 技术,主要是 为自动化生产、精简工作任务和高速采集数据服务的。它是事务驱动并面向应用的。 它的根本任务就是及时、安全地将当前事务所产生的记录保存下来。这些用途准确 地说只能归之为数据操作。随着社会的发展,人们进一步产生了利用现有数据进行 分析和推理,从而为决策提供依据的需求。尽管基于传统数据库的d s s 系统,在许 多领域中发挥了一定的作用,但随着数据量越来越大,查询越来越复杂,服务于o l t p 的数据库越来越难以满足分析的需求“1 。其主要体现有以下几个方面: 2 1 1 缺乏组织性 各个部门在进行分析的时候,为了不影响联机效率并取得对数据的全权控制, 都是利用自己的抽取程序将所关心的- - d 部分数据从原始数据库中抽取出来,再对 其进行分析。每个部门或单位都这样各行其是地进行抽取,并且在抽取的基础上还 有进一步的抽取。这种由失控的抽取过程产生的结构被称为“自然演化体系结构”, 可形象地称为“蜘蛛网”( s p i d e r w e b ) 。虽然网上任意两个节点的数据可能归根结底 是从一个原始库中抽取出来的,但他们的数据没有统一的时间基准,抽取算法各不 相同,抽取级别也不相同,并且可能参考了不同的外部数据。因而,数据的可信性 较差。 2 1 2 效率极为低下,数据难以转化为有用的信息 一个公司每阶段的业务都积累了大量的数据。然而,这些数据只是一种处于 原始状态的资源,管理层要想在此基础上生成一个报告,就会遇到很大困难。前面 提到,传统的应用于o l t p 的数据库是面向应用、事务驱动的。应用本来就是千差万 别、零散索碎的,而且为了提高性能,数据还常常被分散在多个子系统中。因而, 要利用支持o l t p 的数据库进行分析是十分困难的。分析所需要的主题内容可能分散 在许多应用中。同一字段在不同应用中又可能存在着同名异义、异名同义、单位不 同、字长不同等许多难以识别的矛盾。这给数据向信息的转化带来很大困难。将这 些零碎而且结构各不相同的数据统一起来,必须为各种数据类型定制转化程序,并 最终将所有数据集成以供分析之用。这必将是一项复杂而繁重的工作。 华中科技大学硕士学位论文 2 1 3 其他困扰着基于传统数据库d s s 的问题 比如,d s s 分析需要时间较长,而0 l t p 则要求尽快做出响应,如果进行一次大 规模的分析,对0 l t p 性能的影响是难以忍受的。又如,d s s 常常需要通过一段历史 时期的数据来分析趋势,而数据库中一般只存储短期数据,且各个应用领域的保存 期限也不一样,在分析时难以满足d s s 的需要。再如,d s s 分析本身就较灵活,通常 会从多种角度,任意组合多种条件去观察数据,这对习惯于处理预定义查询的关系 数据库丽言具有很高的处理难度。总之,随着时间的推移,人们越来越认识到,基 于传统数据库的d s s 不能很好地满足需要。 2 2 数据仓库的基本概念 数据仓库的目的是要建立一种体系化的数据存贮环境,将分析决策所需的大量数 据从传统的操作环境中分离出来,使分散的、不一致的操作数据转换成集成的、统 一的信息,企业内不同单位的成员都可以在此统一的环境之下,通过运用其中的数 据与信息,发现全新的视野和新的问题、新的分析与想法,进而发展出制度化的决 策系统,并获取更多经济效益。那么什么是数据仓库昵? 2 2 1 数据仓库的定义 随着社会的需求和计算机技术的不断发展,人们开始尝试对原来数据库中的数据 进行再加工,形成一个综合的、面向分析的环境,以支持科学决策的产生。由此, 数据仓库的思想、技术、产品逐渐开始形成。对于什么是数据仓库,许多人提出了 不同的看法。数据仓库概念的形成以p r i s ms o l u t i o n 公司副总裁whi n m o n 出版的 ( b u i l d i n g t h e d a t a w a r e h o u s e ) ) 书为标志。书中对数据仓库作了这样的定义:数据 仓库就是面向主题的、集成的、稳定的、不同时间的数据集合,用以支持经营管理 中的决策制定过程。这一定义主要是通过数据仓库中所包含的数据的特性来特征化 描述数据仓库。它认为数据的特征是数据仓库最本质的特征。 从应用的角度,我们更关心它用于何处并发挥何种作用。因此,可以描述如下: 由于更重视信息的价值,所以数据仓库技术是作为一种数据战略使用的方法产生出 来,它不等同于决策支持系统。它通过将大量分散的操作型数据归一处理、转换、 集成、聚集,提高数据的信息附加值,从而成为可提高对d s s 和e i s 应用支持的数 据信息平台。 概言之,数据仓库是一种语义上一致的存储,它充当决策支持数据模型的物理实 现,并存放企业战略决策所需的信息。数据仓库也常常被看作一种体系结构,通过 将异种数据源中的数据集成在一起而构造,支持结构化的和专门的查询、分析报告 和决策制定。 华中科技大学硕士学位论文 2 2 2 数据仓库的特点 wh i n m o n 的定义简短而又全面的指出了数据仓库的主要特征。四个关键词:面 向主题的、集成的、时变的、非易失的】,将数据仓库与其他数据存储系统( 如关 系数据库系统、事务处理系统和文件系统) 相区别。 1 面向主题 主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类 并进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及 的分析对象,是针对某一决策问题而设置的。面向主题的数据组织方式,就是在较 高层次上对分析对象的数据的一个完整的、统一的、一致的描述,能完整、统一地 刻画各个分析对象所涉及的企业的各项数据,以及数据之间的联系。 传统的操作型系统是围绕公司的应用进行组织的。对一个保险公司来说,应用 问题可能是汽车保险、健康保险、人寿保险与意外伤亡保险。公司的主要主题范围 可能是顾客、保险单、保险费与索赔。 目前,数据仓库的实现主要是基于关系数据库,每个主题有一组关系表或逻辑 视图实现。这些表和视图的内容与原来各个运行系统数据源的数据本质上是一致的, 但为了方便支持分析数据处理,对数据结构进行了重组,其中可能会增加一些数据 冗余。 2 集成的数据 数据仓库中存储的数据是从原来分散的各个子系统中提取来的,但并不是原有 数据的简单拷贝,而是经过统一与综合的。其一,数据仓库的数据不能直接从原有 数据库系统中得到。原有数据库系统纪录的是每一项业务处理的流水账,这些数据 不适合于分析处理。在进入数据仓库之前必须经过综合、计算,抛弃分析处理不需 要的数据项,增加一些可能涉及的外部数据。其二,数据仓库每一个主题所对应的 源数据在原分散数据库中有许多重复或不一致的地方,必须将这些数据转换成全局 统一的定义,消除不一致和错误的地方,以保证数据的质量。否则,对不准确、甚 至不正确的数据分析得出的结果,将不能用于指导企业做出科学的决策。 对源数据的集成是数据仓库建设中最关键,也是最复杂的一步。 应用问题的设计人员历经多年制定出来的不同的设计决策有很多种不同的表示 方法,没有什么应用在编码、命名习惯、实际属性、属性量度等方面是一致的,各 个应用问题的设计人员自由地做出他们自己的设计决策。当数据进入数据仓库时, 要采用某种方法来消除应用问题中的许多不一致性。例如考虑关于“性别”的编码, 在数据仓库中是编码为m f 还是o l 并不重要,重要的是,无论什么原始应用问题, 无论数据仓库如何进行编码,在数据仓库中应该一致地进行编码。如果应用数据编 码为x y ,当其进入数据仓库时就要进行转换。对所有的应用设计问题都要考虑同样 的一致性处理,比如命名习惯、编码结构、属性量度以及数据特点等。 华中科技大学硕士学位论文 3 数据不司更新 从数据的使用方式上看,数据仓库的数据不可更新,这是指当数据被存放到数 据仓库中后,最终用户只能通过分析工具进行查询、分析,而不能修改其中存贮的 数据,也就是说,数据仓库的数据对最终用户而言是只读的。由于数据仓库的查询 数据量往往很大,所以对数据查询、查询界面的友好和数据的表示提出了更高的要 求,因为对数据仓库进行查询分析的用户多是企业的高层领导,他们是所在领域的 专家,但对计算机却不一定熟悉。 图2 1 表示了操作型数据正规地是一次访问和处理一个纪录,可以对操作型环境 中的数据进行更新。但数据仓库中的数据呈现出非常不同的特征。数据仓库的数据 通常是一起载入与被访问的,但在数据仓库环境中并不进行一般意义上的数据更新。 操作型环境 非易失性 数据仓库 繇三鬏 l 一f 访问t 量十9 帐绀馘弋瓠。 图2 1 非易失性问题 从数据的内容上看,数据仓库存贮的是企业当前的和历史的数据,在一定的时 间间隔以后,当前的数据需要按一定的方法转换成历史数据,年代久远的、查询率 低的数据要从数据仓库脱离到廉价慢速设备上,对分析处理不再有用的数据需要从 数据仓库中删除。但这些工作是由系统管理员来做,或由系统自动完成。因此,也 可以说数据仓库在一定时间间隔内是稳定的。 4 数据随时间不断变化 数据仓库数据的不可更新是针对应用而言,即用户进行分析处理时不对数据进 行更新操作,但不是说,数据从进入数据仓库以后就永远不变。数据仓库中的数据 随时间变化而定期地被更新,每隔一段固定的时间间隔后,运作数据库系统中产生 的数据被抽取、转换以后集成到数据仓库中,而数据的过去版本仍被保留在数据仓 库中,如同“定期摄影术”每隔一周、一月或适当的间隔就照一张相;随着时间的 变化,数据以更高的综合层次被不断综合,以适应趋势分析的要求;当数据超过数 据仓库的存储期限,或对分析不再有用时,这些数据将从数据仓库中删去。 1 0 华中科技大学硕士学位论文 如图2 2 所示。数据仓库中的数据随时间变化的特征表现在以下几个方面: 数据仓库中的数据时间期限要远远长于操作型系统中的数据时间期限。操作 型系统的时间期限一般是6 0 9 0 天,而数据仓库中数据的时间期限通常是5 1 0 年。 操作型数据库含有“当前值”的数据,这些数据的准确性在访问时是有效的, 同样当前值的数据能被更新。而数据仓库中的数据仅仅是一系列某一时刻生成的复 杂的快照。 操作型数据的键码结构可能包含也可能不包含时间元素,如年、月、日等。 而数据仓库的键码结构总是包含某时间元素。 时间的变化 操作型环境数据仓库 时间期限:当前到6 0 9 0 天 时闻期限:5 1 0 年 纪录更新 数据的复杂快照 键码结构可能包括也可能不包括时间元素 键码结构包括时间元素 图2 2 随时间变化问题 关于数据仓库的结构信息、维护信息被保存在数据仓库的元数据中,数据仓库 维护工作由系统根据元数据中的定义自动进行,或由系统管理员定期维护,用户不 必关心数据仓库如何被更新的细节。 5 使用数据仓库为了更好的支持决策 建立数据仓库并不是要取代原有的操作型数据库系统,建立数据仓库的目的是 为了将多年来已经收集到的数据按一个统一的企业级视图组织、存贮,对这些数据 进行分析,从中得出有关企业经营好坏、客户需求、对手情况、以后发展趋势等有 用信息,帮助企业及时、准确地把握机会,以求在激烈的竞争中获得更大的利益。 2 1 3 数据仓库的相关概念 1 粒度 粒度问题是设计数据仓库的一个最重要方面。粒度是指数据仓库的数据单位中 保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程 度越低,粒度级就越大。数据的粒度一真是一个设计问题。在早期建立的操作型系 统中,粒度是用于访问授权的。当详细的数据被更新时,几乎总是把它存放在最低 粒度级上。但在数据仓库环境中,对粒度不作假设。图2 3 说明了粒度问题。在数据 仓库环境中粒度之所以是主要的设计问题,是因为它深深地影响着存放在数据仓库 中的数据量的大小,同时影响数据仓库所能回答的查询类型。在数据仓库中的数据 华中科技大学硕士学位论文 量大小与查询的详细程度之间要做出权衡。 高细节低粒度 例如:一个顾客一个月内的每 笔交易的细节 每月l o 个纪录 每月1 0 0 0 字节 低细节高粒度 例如:一个顾客一个月内的银行 业务的综合 每月1 个纪录 每月t 0 0 字节 图2 3 粒度的细节 图2 3 中左边是一个低粒度级,每个活动( 在这里是一次交易) 被详细记录下来。 到月底每个顾客平均有1 0 条纪录( 全月中每个交易都纪录一次) 。因而总共需要1 0 0 0 个字节。该图的右边是一个高粒度级,数据代表一位顾客一个月的综合信息,每位 顾客一个月只有一条纪录,这样的纪录大约只需1 0 0 个字节。显然,如果数据仓库 的空间很有限的话( 数据量总是数据仓库中的首要问题) ,用高粒度级表示数据将比 用低粒度级表示数据的效率要高的多。高粒度级不仅只需要少得多的字节存放数据, 而且只需要较少的索引项。然而数据量大小和原始空间问题不是仅有的应考虑的问 题。为了访问大量数据,其处理能力的大小同样也是应考虑的一个因素。 当提高数据粒度级时,数据所能回答查询的能力就会随之降低。换句话说,在 一个很低的粒度级上你实际可以回答任何问题,但在高粒度级上,数据所能处理的 问题的数量是有限的。在低粒度级上回答这个问题需要查询每一个纪录,所以需要 大量的资源来回答这个问题。但在高粒度级上,数据进行了很大的压缩,而且能够 提供一个答案。如果在高粒度级上包括了足够的细节,则使用高粒度级数据的效率 将会高得多。在管理数据的粒度问题中的权衡如图2 4 所示。在设计和构造数据仓库 之初就必须仔细考虑这种权衡。 高细节级 f = = = = = 习 ll il 、- 。- - 。_ - _ - _ , 低细节级 e j 圈2 - 4粒度的权衡是首要的,所以最佳解决办法是采用多重粒度级的形式 华中科技大学硕士学位论文 2 分割 在数据仓库环境中,问题不是要不要对当前细节数据进行分割,而是怎样对当前 细节数据进行分割。图2 5 说明了数据分割。 日 日日 日日日 数据分割 厂 1 9
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 贵州兴晔劳务有限责任公司招聘笔试题库2025
- 2025年中介租赁合同样本
- 2025【标准合同】设备采购合同
- 2025标准赠与合同范本
- 2025餐饮员工劳动合同
- 2025国际技术服务合同模板
- 火山课件教学课件
- 有机化学c考试题及答案
- 2025年宁夏回族自治区吴忠市社会工作者职业资格社会工作实务(初级)预测试题含答案
- 2025年反假币知识竞赛题库(附带答案)
- 小学《班干部培训》主题班会课件
- 百师联盟2026届高三上学期开学摸底联考数学试题
- 登革热课件PDF教学课件
- 2025年涉台知识竞赛试题及答案
- 黑龙江省哈尔滨市哈尔滨市第一中学校2024-2025学年度上高一期中考试语文试题
- 2025年广西壮族自治区招聘警务辅助人员考试真题及答案
- 2025年南阳唐河县国有企业公开招聘工作人员8名笔试备考题库及答案解析
- 园林养护服务公司简介范文
- 2025年北京市高考语文真题之名著阅读《红楼梦》
- 2025秋人教版(2024)二年级上册数学教学计划
- 医务人员职业暴露处理流程考核试题与答案
评论
0/150
提交评论