(管理科学与工程专业论文)数据仓库项目管理理论与方法研究.pdf_第1页
(管理科学与工程专业论文)数据仓库项目管理理论与方法研究.pdf_第2页
(管理科学与工程专业论文)数据仓库项目管理理论与方法研究.pdf_第3页
(管理科学与工程专业论文)数据仓库项目管理理论与方法研究.pdf_第4页
(管理科学与工程专业论文)数据仓库项目管理理论与方法研究.pdf_第5页
已阅读5页,还剩79页未读 继续免费阅读

(管理科学与工程专业论文)数据仓库项目管理理论与方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

昆明理工大学硕士学位论文 摘要 摘要 2 i 世纪知识经济环境下,各企业面临的竞争日益加剧。传统的批处理、联 机事务处理等信息系统只能支持企业的日常业务工作,对企业的经营管理决策 却无法提供支持。数据仓库技术的出现解决了企业面临的这种问题,为企业提 供了一个能够不受传统事务处理的约束、集成所有决策需求信息、高效率处理 决策分析数据的支持环境,为企业获得竞争优势提供了基础。 许多企业看到数据仓库有如此巨大的作用,纷纷上马建立数据仓库。然而 在数据仓库项目中,项目的管理者只注重数据管理、数据建模、数据质量等方 面。作为数据仓库的一个重要方面,项目管理却常常被忽视。许多企业管理者 也理所当然地认为:只要在数据仓库项目中安排最好的项目管理人员,就能很 好地完成开发任务。但事实并非如此。 数据仓库项目是一个极具动态性的项目,因为项目的需求不再像操作型系 统那样可以预先定义好。建立数据仓库的过程常常会导致需求的调整或者发现 新的需求。而且,参与数据仓库项目的工作人员颇具天赋但往往缺乏经验。新 型技术组件的复杂性和学习曲线通常都会被低估。技术方和业务方的管理者都 没有理解数据仓库项目的复杂程度,常常向开发组和项目管理者提出不合理的 要求。可以说,数据仓库项目对项目管理者来说是一个巨大的挑战。 本论文研究了数据仓库项目的特点,针对数据仓库项目中遇到的问题,提 出了数据仓库项目管理的思路。论文第一部分首先研究了项目管理理论和数据 仓库技术,并对数据仓库项目的特点作了全面细致的分析。论文第二部分详细 的阐述了数据仓库项目的组织管理、计划管理、组织管理、计划管理以及风险 管理。论文第三部分把前面章节的研究成果运用到农业银行的数据仓库项目中。 关键词:项目管理数据仓库风险管理 a b s t r a c t c o m p e t i t i o nt h a tc o m p a n i e sf a c eisb e c o m i n gm o r ea n dm o r es e r i o u s u n d e rt h ek n o w l e d g ee c o n o m y t h et r a d i t i o n a li n f o r m a t i o ns y s t e m ,f o r e x a m p l eo l t p ,h e l pt od e a lw i t hc o m p a n yo p e r a t i o n ,b u tt h o s ei s o n l yd e a l w i t hc o m p a n yr o u t i n e ,a n dc a n n o th e l pc o m p a n i e st om a k ed e c i s i o n t h e t e c h n o l o g y o fd a t aw a r e h o u s es o l y e st h e p r o b l e m s i tp r o v i d e s c i r c u m s t a n c e st h a t a n a l y z et h ec o m p a n yd a t aa n dg i v et h ei n t e g r a t i o n i n f o r m a t i o n , s ot h a t c o m p a n i e s c a nm a k ed e c i s i o na n dw i ni nt h e c o m p e t i t i o n m a n yc o m p a n i e st h i n kt h a tt h et e c h n 0 1 0 9 yo fd a t aw a r e h o u s ec a ns o l v e t h ep r o b l e m st h a tt h ec o m p a n i e sh a v en o td e c i s i o ni n f o r m a t i o n ,s ot h e y b e g i nt ob u i l dd a t aw a r e h o u s e i nt h ep r o j e c to fd a t aw a r e h o u s e ,t h e m a n a g e rp a ym o r ea t t e n t i o nt ot e c h n o l o g ie s ,f o re x a m p l ed a t am a n a g e m e n t 、 d a t am o d e la n dd a t aq u a l i t y ,a n dp a y1 i t t l et op r o j e c tm a n a g e m e n t m a n y p r o j e c tm a n a g e r st h i n kt h a ti ft h e ya r r a n g et h eb e s tp r o g r a m m e r s ,t h e p r o j e c t sw i l l s u c c e s s b u ti tisn o tl t r u e t h ep r o j e c to fd a t aw a r e h o u s ei sf u l lo fd y n a m i c ,b e c a u s et h ed e m a n d s o ft h ep r o j e c ta r en o tc o n f i r m n e wd e m a n d so f t e nc o m ef o r t hi nt h ec o u f s e o fb u i l d i n gp r o j e c t a n dt h ep e o p l et a k i n gp a r ti nt h ep r o j e c ta r es h o r t o fe x e r c i s e s om a n a g i n gt h ep r o j e c to fd a t aw a r e h o u s eisab i gc h a l l e n g e t op r o j e c tm a n a g e r p o i n t i n gt ot h ep r o b l e mi nt h ec o u r s eo fm a n a g i n gp r o j e c t ,t h ep a p e r s t u d yt h ec h a r a c t e r i s t icp r o j e c to fd a t aw a r e h o u s e ,a n dp r e y i d eag e n e r ic w a yt om a n a g et h ed a t aw a r e h o u s e t h ep a p e rc a nd i v i d et ot h r e ep a r t s f i r s t ,t h ep a p e rs t u d i e st h et h e o r i e s o fp r o j e c t m a n a g e m e n t a n dt h e t e c h n o l o g yo fd a t aw a r e h o u s e ,a n da n a l y z e st h ec h a r a c t e r i s t i cp r o j e c t o fd a t aw a r e h o u s e s e c o n d ,t h ep a p e r d is c u s s e st h e o r g a n iz a t i o n m a n a g e m e n t 、p l a nm a n a g e m e n t a n dr is k m a n a g e m e n t o fd a t aw a r e h o u s e p r o j e c t t h e1 a s t ,t h ea u t h o rc h o o s e sae x a m p l et od e e p l ya n a l y z eh o w t om a n a g ep r o j e c tb yu t i l iz i n gt h ea b o v er e s e a r c h i n gr e s u l t s ,a n dd r a w s i i 昆明理工大学硕士学位论文a b s t r a c t ac o r r e s p o n d i n gc o n c l b s i o n k e yw o r d s :p r o j e c tm a n a g e m e n td a t a w a r e h o u s e r is km a n a g e i 1 1 臣明理工大学磺士论文 y6 6 9 0 0 昆明理工大学学位论文原刨声明 昆明理工大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下( 或我个 人) 进行研究工作所取得的成果除史中已经注明引用的内容外,本论 文不合任何其他个人或集体己经发表或撰写过的研究成果对本文的研究做 出重要贡献的个人和集体,均已在论文中作了明确的说明并表示了谢意本 声明的法律结果由本人承担 学位论文作者签名:枸甲舍 日 期:。”i ,年0 月 7 甚 关于论文使用授权的说明 本人完全了解昆明理工大学有关保留使用学位论文的规定,即:学校有袄保留、邋交论文的复 印件免许论文被壹阏。学校可以公布论文的全部或部分内容,可以呆用影印残其他复制手段保存论 文 ( 保密论文在解密后应遵守) 导师签名 昆明理工大学硕士学位论文 第一章绪论 第一章绪论 1 1 问题的背景及研究意义 随着全球经济一体化发展,企业的规模越来越大,面临的竞争也越来越激烈, 企业管理者需要的决策信息也越来越庞大、复杂。传统的批处理、联机事务处理 等信息系统为企业的业务处理提供快速、准确的基本条件,同时也为企业积累了 大量有价值的业务数据。然而这些处理只能支持企业的日常业务工作,对企业的 业务数据无法进行有效的分析,以至无法为经营管理决策提供支持。在竞争压力 日趋严重下,企业的管理人员希望能够访问并综合各种来源的数据,能够通过充 分挖掘现有的数据资源获得有价值的信息,帮助企业管理者做出更好的管理决策。 数据仓库技术的出现解决了企业面临的这种问题,为企业提供了一个能够不受传 统事务处理约束、集成所有决策需求数据、高效率处理决策分析的支持环境,为 企业获得竞争优势提供保障。在实际的运用中,如在金融、电信等行业,数据仓 库技术也起到了降低企业的运营成本、建立更好的客户关系管理、提高产品质量 的作用。 数据仓库作用如此之大,以至于许多行业和企业纷纷成立项目组,建立数据 仓库来完善自己的决策支持系统。然而建设数据仓库是一项系统工程,不是一个 简单的技术问题。首先,数据仓库的建设是企业经营管理决镶与信息化结合的过 程,只有依照企业的管理决策的实际情况,才能建设一个支持企业管理决镱的数 据仓库。其次,数据仓库的建设还是各种先进的信息处理技术与企业管理决策结 合的过程,只有将o l a p 技术、数据挖掘技术与数据仓库中庞大的数据相结合,与 企业先进的管理决策方法相结合,才能使数据仓库在企业的经营管理决策中发挥 巨大的作用。在许多项目开发时,由于没有考虑数据仓库项目的上述特点,忽视 与数据仓库开发相配套的管理思维和决策方式。从而使得数据仓库对提高企业管 理质量的贡献率大打折扣,甚至导致项目的失败。因此,研究数据仓库项目管理 中遇到的典型挑战、风险,探索成功管理数据仓库项目的法则很有意义。 1 2 论文的主要研究内容 数据仓库概念提出后,国外研究机构纷纷投入大量的人力、物力,在数据仓 库概念、体系结构、联机分析处理、数据挖掘、决策支持系统等理论上作了大量 的工作。例如美国斯坦福大学数据仓库研究组,正在进行数据仓库原型研究。该 昆明理工大学硕士学位论文第一章绪论 项目的主要目标是研究和开发创建、维护数据仓库的算法和工具,这些算法和工 具能够使得从各种数据源,包括平面文件进行信息抽取和集成工作更加高效。国 内对数据仓库的研究就要稍滞后一些,但也出现了不少数据仓库研究的科研院所 和学术专家。如中国人民大学信息学院院长、博士导师,王珊教授就是从事数据 仓库与数据挖掘等方面的研究,发表了多篇数据仓库与联机事务处理方面的著作。 总的说来。对于数据仓库的研究,国内夕卜的学者主要集中在数据仓库的基本 理论( 包括数据仓库概述、特点及基本逻辑体系结构) 、数据抽取与集成技术、存 储及查询优化等方面,而对于数据仓库的项目管理却很少涉及。随着数据仓库逐 渐应用于企业中,对数据仓库项目管理的研究迫不及待。鉴于此,我选择了“数 据仓库项目管理”作为我研究生毕业论文的研究课题。 我的毕业论文主要研究如何在数据仓库项目中运用项目管理。本文首先阐述 项目管理的一般理论,然后说明数据仓库技术以及数据仓库项目中遇到的典型挑 战,最后研究了在数据仓库项目中如何运用项目管理的方法a 1 3 论文结构及内容 本文共分八章。具体章节安排和各章主要内容如下: 第一章是绪论,介绍基于数据仓库项目管理研究背景、目的和意义,然后介 绍论文的逻辑思路、结构安排和主要内容。 第二章是项目管理概述,包括项目的定义、项目管理的基本概念、项目管理 及其特点、项目管理过程、项目管理的内窖。 第三章是数据仓库技术概述。主要介绍数据仓库技术的产生、数据仓库的概 念特点、数据仓库体系结构以及数据仓库的关键技术t 第四章是数据仓库项嗣管理概述。这一章主要是介绍数据仓库项目的特点, 数据仓库项目成功要素、主要开发步骤以及数据仓库项目管理中遇到的主要问题 第五章是数据仓库项目组织管理。 第六章是数据仓库项目计划管理。 第七章是数掘仓库项n 风险管理。 第八章是案例分析。 2 昆明理工大学硕士学位论文第二章项目管理概述 第二章项目管理概述 运用项1 7 1 管理能处理需要跨领域才能解决的复杂问题,并使企业实现更高的 运营效率。项目管理与传统的管理方式不同,项目运作不是通过等级命令体系来 实施的,而是通过所谓“平面化”的结构。项目的组织( 即项目团队) 由来自不 同职能部门的成员组成,因而这个组织具有广泛领域的知识一不仅是技术知识, 而且对金融和预算、客户关系、合约以及后勤等都有深入了解。这种组织方式是 一种弹性的方式,需要时将专家召集到团队,任务完成后他们又回到各自的职能 部门。所以项目管理在时间、经费和人力有限的条件下,能高效率的完成项目任 务,改善管理人员的工作效率。 2 1 项目的定义及特点 项目是为完成某一独特的产品或服务所作的一次性努力。项目与常规任务之 间的关键区别是,项目只做一次。 项目一般具有以下基本特点: ( 1 ) 一次性。这是项目与常规任务的最大区别。项目有明确的开始和结束 时间,没有完全可以照搬的先例,将来也不会再有完全的重复。 ( 2 ) 独特性。项目可能是在以往的工作基础上的延续,或是为下面开肩新 的工作做铺垫。但大部分情况下,项目是从零开始的开创性工作,并且到某个具 体的终点结束。项目自身有具体的时间期限、费用和性能质量等方面的要求。因 此,项目的过程具有自身的独特性。 ( 3 ) 组织的临时性和开放性。项目开始时要组建项目组,项目执行过程中 项目组的成员和职能都在不断地变化,项目结束时项目组要解散。参与项目的组 织往往有多个,它们通过合同、协议以及其它的社会联系组合在一起。项1 7 1 组织 没有严格的边界。 ( 4 ) 后果的不可挽回性。项目不像其它事情可以重做,或失败以后可以重 来。这种属性决定了项目具有较大的不确定性,它的过程是渐进的,潜伏着各种 风险。项目要求有精心的设计、精心的制作和精心的控制,以达到预期的目标。 每一个项目都会受时间、范围、成本的约束,这些限制在项目管理中被称为 三约束。三约束都有各自的目标,并且相互制约,增加或减少一个约束的资源, 其他两个资源都要进行相应的调整。 昆明理工大学硕七学位论义 第二章项目管理概述 2 2 项目管理的概念 项目管理是指在项目活动中运用专门的知识、技能、工具和方法,使项目能 够实现或超过项目干系人的需要和期望。 项目管理具有以下特点: 1 项目管理是一项复杂的工作。 项目管理一般由多个部分组成,项目工作跨越多个组织,需要运用多种学科 的知识来解决问题:项目工作通常投有或很少有以往的经验可以借鉴,执行中有 许多未知因素,每个因素又常常带有不确定性;还需要将具有不同经历且来自不 同组织的人员有机地组织在一个临时性的组织内,在技术性能、成本、进度等较 为严格的约束条件下实现项目目标等等。这些因素都决定了项目管理是一项很复 杂的工作,而且复杂性与一般的生产管理有很大不同。此外,项目管理的复杂性 还表现在管理的项目具有不确定性和风险。 2 项目管理具有创造性 项目管理具有创造性。由于项目具有一次性的特点,因而既要承担风险又必 须发挥创造性。这也是项目管理与一般管理的主要区别。因此,在项目管理的前 期构思中,要十分重视科学技术情报工作和信息的组织管理,这是产生新构思和 解决问题的首要途径。 3 项目管理需要集权领导和建立专门的项目组织 4 项目经理在项目管理中起着非常重要的作用 2 3 项目管理的主要内容 现代项目管理的内容可以从两个已有的项目管理知识体系中发现。目前国际 上的两大项目管理知识体系是:以欧洲国家为主的体系一国际项目管理协会 ( i p m a ) ,和以美国为主的体系一美国项目管理协会( p m i ) 。 根据美国项目管理协会编写的项目管理知识体系“1 ,项目管理分为九大 知识领域,即范围管理、时间管理、成本管理、质量管理、人力资源管理、沟通 管理、采购管理、风险管理和整体管理。 1 项目整体管理 项目整体管理是为了正确地协调项目所有各级成部分而对各个过程的集成, 是一个综合性过程。其核心就是在多个互相冲突的目标和方案之间做出权衡,以 满足项目干系入的要求。项目整体管理幽以下三个关键性的子过程组成;第一个 是规划的子过程,称作制定项目计划:第二个是执行的子过程,称作项目计划执 4 昆明理工大学硕士学位论文 第二章项目管理概述 行:第三个是控制的子过程,称作整体变更控制。虽然所有的项目管理过程都在 某种程度上贯穿了项目全过程,但这三个过程却是完全贯穿于项目始终的。 制定项目计划一一利用其他规划子过程的结果,将其综合成一个首尾一致、 连贯的文件。 项目计划执行一一执行项目计划,实际开展列入项目计划中的各项活动,完 成其中的工序,执行其中的任务等。 整体变革控制一一协调贯穿、涉及或影响整个项目的变更。 2 项目范围管理 项目范围管理是项目管理的一个部分,是为了确保项目不但完成全部规定要 做的,而且也仅仅是完成规定要做的工作,最终成功地达到项目的目的。基本内 容是定义和控制列入或未列入项目的事项,项目范围管理的主要过程: 启动一一让组织投身于项目的下一个阶段。 范围规划一一编写一份书面范围说明书,作为将来项目决策的基础。 范围定义一一将主要的项目可交付成果划分为较小、更易管理的不同组 成部分。 范围核实一一正式认可项目的范围。 范围变更控制一一控制项目范围的变更。 3 项目时间管理 项目时间管理是项目管理的一个部分是为了确保项目按时完成的过程。项 目时间管理的主要子过程有: 活动定义一一找出为创造各种项目可交付成果必须进行的诸项具体活 动。 活动排序一一找出活动间的依赖关系,并形成文件。 时间估算一一对完成各个活动所需时间单位的数目进行估算。 制定时间进度表一一分析活动顺序、活动时间和资源要求,制定项目时 间进度表。 时间控制一一控制项目进度的变化。 4 项目成本管理 项目成本管理是项目管理的一个部分,是为了保证在批准的预算内完成项目 所必需的诸过程的全体。项目成本管理的子过程主要有: 资源规划一一确定为完成项目诸活动,要用何种资源( 人、设备、材料) 以及每种资源的数量。 垦塑型王盔兰堡主堂篁堕塞 苎三皇堡曼篁墨堡堕 费用估算一估算完成项目各活动所需资源的费用。 费用预算一一将总费用估算分摊到各工作细目上去。 费用控制一控制项目预算的变更。 5 项目质量管理 项目质量管理是为了保证项目能够满足原来设定的各种要求。其主要过程 是: 质量规划一一确定哪些质量标准适用于本项目,同时确定应如何达到这 些质量标准。 质量控制一一对项目各种结果进行监督,确定这些结果是否符合有关的 质量标准,进而找出办法,消除那些造成不良后果的原因。 质量保证一一对项目进展情况定期进行全面的评价,以便有把握使工程 项目能够达到有关的质量标准。 6 项目人力资源管理 项目人力资源管理是为了保证最有效地使用项目人员。其主要过程是: 组织规划一一确定、记录并分派项目角色、责任和互相通报关系。 招聘人员一一招收项目需要的人力,并将其分派到需要的工作岗位。 团队建设一一培养个人和集体的工作能力,提高项目管理水平。 7 项目沟通管理 项目沟通管理是在人、思想和信息之间建立联系,这些联系对于取得成功是 必不可少的。参与项目的每一个人都必须用项目语言进行沟通,并且要明白,他 们个人所参与的沟通将会如何影响到项目的攘体。项目沟通管理是保证项目信息 及时、准确地提取、收集、传送、存储以及最终进行处置。其中主要过程如下: 沟通规划一一确定利害关系者对于交流和沟通的要求:谁需要什么样的 信息,何时需要以及应怎样将其交到他们手中。 信息分发一一将所需的信息及时地提供给项目的所有利害关系者。 进度报告一收集并分发传送项目的进度信息。其中包括状况报告( 目 前情况) 、实施情况测算( 任务完成得如何) 、以及预测( 完成之后我们 将会达到的状况) 。 收尾善后工作一一提取、收集并分发传送表示项目完成的资料。 8 项目风险管理 项目风险管理是把有利事件的积极结果尽量扩大,把不利事件的后果降低到 最低程度。主要过程有: 6 昆明理工大学硕士学位论文 第二章项目管理概述 风险识别一一确定有哪些风险会影响到本项目,并将每一项风险的特征 都记录在案。 风险量化一一估计可能发生的范围及其发生的可能性大小。 提出应对措施一一确定对机会而采取的加强步骤和对威胁丽采取的减缓 步骤。 应对措旅控制一一对项目进展过程中风险出现的变化采取应对措施。 9 项目采购管理 项目采购管理是为了从项目组织外部获得货物或服务。主要过程包括: 采购规划一一确定要采购何物以及何时采购。 询价规划一一编制产品要求文件并找出潜在的来源。 询价一一根据具体情况,取得报价、标价或建议。 选择来源一一从可能的卖方中选择。 合同管理一一管理同卖方之间的关系。 合同收尾一一完成并结算合同,包括解决任何未决的事项。 2 4 项目阶段 任何组织从事项目活动时,一般都把项目分成若干个阶段,以便更好地进行 管理。项目划分为阶段也便于将项目与组织正在进行的日常业务更好地衔接起来。 项目一般可以分为四个阶段: 第一阶段是启动阶段。在启动阶段主要考虑的是项目的资源需求、项目实施 的条件、项目的范围确定以及项目涉及到的决策问题,如图2 1 所示。这个阶段 形成的文字资料主要有项目建议书或可行性研究报告,后者比前者更详细,更严 密。 资 源 资源 图2 1 项目启动阶段 时闯 昆明理工大学颂士学位论文第二章项目管理概述 第二阶段是计划阶段。这一阶段所要解决的问题主要有:确定项目目标( 也 称为功能定义) 、任务、工作、活动。之后明确主要活动,估算各个活动所需的时 间和费用:确定各个活动之间的关系;确定项目团队所需要的技能;规划项目的 组织结构;进行项目的r 程、时间安排以及编写项目计划书。计划阶段如图2 2 。 资 源 功能定义 图2 - 2 项目计划阶段 第三阶段是执行阶段,主要是具体实施项目计划。这时的管理重点是跟踪执 行过程和进行过程控制,以使项目按照计划有序、协调地实旌。当出现偏离预定 目标的情况时,要立即采用纠偏方案进行控制。当然。这一阶段仍需要根据项目 的实施情况,对项目的计划进行必要修改和补充,这就涉及到了变更控制。执行 阶段如图2 - 3 。 资 源 图2 - 3项目执行阶段 第四阶段是收尾阶段。收尾阶段的管理重点是对项目产生的结果进行计量, 8 昆明理工大学硕士学位论文 第二章项目管理概述 确定项目工作的完成程度、对项目结果进行检验、回顾项目的得失、吸收经验教 训,以改善以后项耳管理。收尾阶段如图2 4 所示。 资 源 图2 4 项目收尾阶段 9 昆明理工大学硕i j 学位论文 第三章数据仓库技术概述 第三章数据仓库技术概述 数据库在事务处理方面的应用获得了巨大成功,但它对分析处理的支持一直 不能令人满意。随着市场竞争的加大,企业急需集成现有数据,挖掘数据背后隐 藏的知识。为企业决策提供有力支持。数据仓库将分布在企业网络中不同系统的 商业数据集成到起,充当决策支持数据模型的物理实现,为决策者提供各种类 型的、有效的数据分析,起到决策支持的作用。 3 1 数据仓库技术的产生 数据库系统作为数据管理手段,从它的诞生开始,就主要用于事务处理。经 过数十年的发展,这些数据库在事务处理应用上获得了巨大成功并且保存积累了 大量的同常业务数据。然而,随着社会的发展,应用不断进步,加之市场竞争的 激化,企业家们便发现单靠拥有联机事务处理系统已经不足以获得市场竞争的优 势。他们不满足于这些简单的数据操作,而想进一步利用现有的数据对自身业务 的运作以及整个相关市场的态势进行分析和推理,为决策提供有力的依据。 事务处理环境不适台决策支持应用的原因主要是: 1 事务处理和分析处理的性质不同 在事务处理环境中,用户的行为特点是数据的存取操作频率高而每次操作处 理的时间短;联机事务处理强调的是数据更新处理性能和系统的可靠性,并不关 心数据查询的方便与快捷。在分析处理环境中,用户的行为模式与此完全不同, 某个d s s 应用程序可能需要连续几个小时,从而消耗大量的系统资源。联机分析 和事务处理对系统的要求不同,同一个数据库在理论上难以傲到两全,将具有如 此不同处理性能的两种应用放在同一个环境中运行显然是不适当的。 2 历史数据问题 事务处理一般只需要当前数据,在数据库中一般也是存储短期数据,不同数 据的保存期限也不一样,即使有一些历史数据保存下来了,也处于脱机状态,被 束之高阁,未达到充分利用,形同虚设。但对于决策分析而言,历史数据是相当 重要的,许多分析方法必须以大量的历史数据为依托。没有历史数据的详细分析, 是难以把握商业企业的发展趋势的。d s s 对数据在空间和时间的广度上都有了更 高的要求,而事务处理难以满足这些要求。 3 数据集成问题 全面而正确的数据是有效分析和决策的首要前提,相关数据收集得越完整, 1 0 昆明理工大学硕士学位论文 第三章数据仓库技术概述 得到的结果就越可靠。因此,决策支持不仅需要整个企业内部各部门的相关数据, 还需要企业外部、竞争对手等的数据。 事务处理的目的在于使业务处理自动化,一般只需要与本部门业务有关的当 前数据,而对整个企业范围内的集成应用考虑得很少。尽管每个单独的事务处理 应用可能是高效的,但这些数据却不能成为一个统一的整体。对于需要集成数据 的决策支持应用来说,必须自己在应用程序中对这些纷杂的数据进行集成。可是, 数据集成是一项十分繁杂的工作,都交给应用程序完成会大大增加程序员的负担。 并且,每做一次分析,都要进行一次这样的集成,将会导致极低的处理效率。 4 数据动态集成问题 静态集成的最大缺点在于,如果在数据集成后数据源中数据发生了改变,这 些变化将不能反映给决策者,导致决策使用的是过时的数据。对于决策者来说, 虽然并不要求随时准确地探知系统肉的任何数据变化,但也不希望他所分析的是 几个月以前的情况。因此,集成数据必须以一定的周期( 例如2 4 小时) 进行刷新。 显然,事务处理系统不具备动态集成的能力。 5 、数据综合问题 尽管在事务处理系统中积累了大量的细节数据,一般而言,d s s 并不对这些 细节数据进行分析。这主要有两个原因:一是细节数据数量太大,会严重影响分 析的效率:二是太多的细节数据不利于分折人员将注意力集中于有用的信息上。 因此,在分析时,往往需要对细节数据进行不同程度的综合。而对于事务处理系 统来说如果这种综合涉及多个数据库表,这样的一个过程可能非常复杂,且耗费 大量资源。如果企业的数据分布在若干个系统中,这样的数据整合过程几乎难以 完成。此外对于事务处理系统,根据规范化理论,这种综合往往还因为是一种数 据冗余而加以限制。 3 2 数据仓库的概念和特点 数据仓库的经典概念是由w h i n m o n 在其b u i i d i n gt h ed a t aw a r e h o u s e 一书中给出的:“数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合, 用以支持经营管理中的决策制定过程。” 从w h i n m o n 关于数据仓库的定义中,可以发现数据仓库具有以下一些特征: 1 面向主题性。主题是一个抽象的概念,是在较高层次上将企业信息系统中 的数据按不同类别,不同侧面进行综合、归类。数据仓库中的数据都是围绕着某 一主题,如顾客、供应商、商品等,组织展开的。 昆明理工大学硕士学位论立 第三章数据仓库技术概述 2 数据集成性。数据仓库根据决策分析的要求,将分散于各处的源数据进行 抽取、筛选、清理、综合等工作,形成存储在数据仓库的数据。 3 数据的时变性。数据仓库必须能够不断的捕捉业务系统中的变化数据,将 那些变化的数据追加到数据仓库中去,也就是在数据仓库中不断生成业务数据库 的快照。以满足决策分析的需要。 4 数据的非易失性。数据仓库的数据大多表示过去某一时刻的数据,主要用 于查询,所以不必实时进行更新。 5 数据的集合性。数据仓库必须以某种数据集合的形式存储起来。 6 支持决策的作用。不同层次的管理人员可以利用数据仓库的数据进行决策 分析,提高自己工作的管理决策质量和效果a 3 3 数据仓库的体系结构 从数据仓库的概念结构上看,数据仓库应包含数据源、数据准备区、数据仓 库数据库、数据集市知识挖掘库以及各种管理工具和应用工具。数据仓库的总体 结构见图3 1 。 圈3 1 数据仓库总体结构图 数据仓库在创建以后,首先要从数据源中抽取所需要的数据到数据准备区 中,在数据准备区中经过数据的净化处理,再加载到数据仓库中,最后根据用户 的需求将数据发布到数据集市知识挖掘库中。当用户使用数据仓库时,可以通过 昆明理工大学硕士学位论文 第三章数据仓库技术概述 o l a p 等数据仓库应用工具向数据集市知识挖掘库或数据仓库进行决策查询分析 或知识挖掘。 3 3 1 数据仓库的总体参考框架 数据仓库的总体层次结构( 见图3 2 ) 应该有数据仓库基本功能层、数据仓库 管理层和数据仓库环境支持层组成。 数据仓库基本功能层 数据仓库管理层 数据仓库环境支持层 图3 + 2 数据仓库的总体参考框架 数据仓库的基本功能层应该包含从数据源抽取数据,对所抽取数据进行筛 选、清理,将清理后的数据加载到数据仓库中,根据用户的需求设立数据集市, 完成数据仓库的复杂查询、决策分析和知识的挖掘等功能。 数据仓库的管理层包含数据管理与元数据管理两部分。数据管理与元数据管 理主要负责对数据仓库中的数据抽取、清理、加载、更新与刷新等操作进行管理。 只有使这些操作正常完成,才。能源源不断地为数据仓库提供新的数据源,才能使 数据仓库的使用者正确地利用数据仓库进行决策分析和知识挖掘。 数据仓库环境支持层主要包含数据传输和数据仓库基础两大部分。这两大部 分对于数据仓库的创建和使用来说是必不可少的,设有这两个数据仓库的支持环 境,数据仓库的创建与使用是无法实现的。 3 4 数据仓库的数据组织 3 4 1 数据仓库的数据组织结构 数据仓库是存储数据的一种组织形式,它从传统数据库中获得原始数据,先 按辅助决策的主体要求形成当前基本数据层,再按综合决策的要求形成综合数据 层( 又可分为轻度综合层和高度综合层) 。随着时间的推移,由时间控制机制将当 前基本数据层转为历史数据层。可见数据仓库中逻辑结构数据由3 层到4 层数据 组成,它们均由元数据组织而成。一个典型的数据仓库的数据组织结构如图3 - 3 。 昆明理工大学硕七学位论文 第三章数据仓库技术概述 圈3 3数据仓库的数据组织结构 高度综台 数据 轻度综合 数据 当前细节 数据 早期细节 数据 在数据仓库中的数据分为四个级别:早期细节级、当前细节级、轻度综合级、 高度综合级。源数据经过综合后,首先进入当前细节级,并根据具体需要进行进 一步的综合后进入轻度综合级乃至高度综合级,老化的数据将进入早期细节级a 3 4 2 数据仓库的数据组织形式 在数据仓库发展过程中,出现了不同的数据组织形式,这里介绍几种简单的 组织形式。 简单堆积文件 简单堆积文件就是将每天由数据库提取并处理后的数据逐天存储起来。 定期综合文件 在定期综合文件这种方式中,数据存储单位被分成日、周、月、季度、年等 多个级别。数据被逐一地添加到每天的数据集合中,当一个星期过去了,每天数 据被综合成周数据,以此类推,周数据被综合成月数据 定期综合文件的组织方式使得数据量比简单堆积文件方式大大减小,但是由 于数据被进行高度地综合,使得数据的细节在综合中丢失。因此,定期综合文件 昆明理工大学硕士学位论文第三章数据仓库技术概述 的形式是牺牲数据的细节换取数据量级的减小。 3 5 数据仓库的关键技术及基本概念 数据仓库并没有严格的数学理论基础,也没有成熟的基本模式,且更偏向于 工程,具有强烈的工程性。因此,在技术上人们习惯于从工作过程等方面来分析, 并按其关键技术分为数据的抽取、存储与管理以及数据的表现即前端数据访问和 分析工具等三个基本方面。 1 数据的抽取 数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境, 它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储 介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、 调度和监控等方面。数据仓库中的数据并不要求与联机事务处理系统保持实时同 步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成 败对数据仓库中的信息的有效性至关重要。 2 存储和管理 数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了 它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么 产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。 3 数据的表现 数据表现实际上相当于数据仓库的门面,其性能主要集中在多维分析数理统 计和数据挖掘方面。而多维分析又是数据仓库的重要表现形式,近几年来由于互 联网的发展,使得多维分析领域的工具和产品更加注重提供基于w e b 前端联机分 析界面,而不仅仅是在局域网上发布数据。 由以上的关键技术引出了各级数据模型、粒度划分、分割、元数据、两种o l a p 实现方式、微建模技术、m d x 语言、数据挖掘等基本概念 昆明理工大学硕士学位论文第四章数据仓库项目管理概述 第四章数据仓库项目管理概述 项目本身不能管理项目,开发工具对此也无能为力,只有项目管理者才能真 正管理项目。在任何项目中,项目管理者都充当着极其关键的角色,尤其是在强 调整体性和一致性的数据仓库环境中更是如此。对于传统i t 项目而言,数据仓库 的开发基于一种全新的系统开发模式之上。这种开发模式的核心是交叉组织企业 的业务功能,并由此生成整体性数据。新的开发模式对传统的管理项目的思维方 式提出了挑战,需要项目管理者采用新的项目管理技巧更为直接和强有力的控制 项目过程。 4 1 数据仓库项目的特点 数据仓库的开发需要从企业的视角出发“1 ,将散布于业务系统中的各项基本 业务细节重新组织并为其设计新的应用程序。这里所说的业务细节,包括各个 业务系统中数据以及数据如何存储、各项功能之间的关系、功能所展示的业务行 为以及以数据值表示的企业智能等。这种新的开发模式对数据仓库项目的范围、 复杂性、预算、耗时、人员以及信息交流产生了巨大的影响,也生成了一些不同 于其他项目的特点。 1 用户需求不明确 用户需求是数掘仓库开发的出发点。由于数据仓库项目技术性比较强,并且 用户还不了解d s s 系统的基本概念或者对d s s 系统还没有比较感性的认识,所以 用户很难提出需求。 2 项目要素不稳定 在数据仓库项目中,许多在传统项目下相对稳定及可预测的因素将会经常 地、动态地变化。例如范围、工具性能、主办人、预算水平、人员配备等要素都 比非数据仓库项目有了更加频繁的变化。 3 项目数据驱动性 数据仓库的主要目的是提供包括趋势分析在内的战略性分析。为支持这种类 型的分析,数据仓库中必须存放很多年份的历史数据。这使目标数据库变得非常 庞大,也意味着数据库的设计必须依照另外的方式。还有数据仓库是一个单独的 环境,目标数据库中数据的整体性非常重要。所以与传统项目相比,数据仓库项 目中整合逻辑数据模型与采集全面准确的元数据很重要。另外,源文件中的脏数 据对数据仓库项目危害也很大。它可能影响数据的整体性和一致性。 1 6 昆明理工大学硕七学位论文 第四章数据仓库项目管理概述 4 2 数据仓库项目成功要素 4 2 。1 成功的标准 数据仓库在各行业的失败标准不一致,因而无法确认数据仓库是否真的失 败,但可以知道什么时候失败了。一个超出预算、拖延数年、只能提供零星功能 的项目当归于失败之列。下列一些表现方式也是失败的标志; 开发资金耗尽。 用户对数据质量及查询工具极不满意,数据仓库性能极差。 只有极少数用户使用数据仓库。 数据仓库中的数据不完整而且难以扩展,抽取步骤不连贯。 在开发数据仓库时,应当列出项目成功标准,并得到技术和业务部门负责人 的批准。这样能保证每个人都在同一套标准体系下工作。以下是一些数据仓库成 功标准: 1 投资收益率 投资是指实现数据仓库所花费的资金。数据仓库项目的投资回报可通过以下 途径实现:数据仓库的运行能降低成本或提高生产率或增加收益。 2 数据仓库投入运行 判断数据仓库成败最简单的标准之一就是看使用数据仓库的用户数量以及 数据仓库能够提供的查询和报表数量。如果查询和报表很有规律地被使用,就说 明用户从数据仓库中得到了好处。 3 数据仓库的有用性 询问用户:数据仓库带来什么好处? 数据仓库是否起刊提高工作效率的作 用? 数据仓库是否起到提升决策质量的作用? 4 按时完工 5 在预算内完工 6 提升用户满意度 用户可能来自企业内部、外部或二者兼有。在所有的情形下,开发数据仓库 的目标是使用户满意,包括:对功能、性能、数据质量以及决策水平的满意。 7 最优的业务性能 数据仓库可以为企业提供高质量的、完备的以及及时的信息,促使企业实现 提高自身生产力的目标。 8 实现预定目标 昆l 弱理工大学硕士学位论文 第四章数据仓库项目管理概逮 9 解决业务难题 1 0 发现业务机会 1 1 高适应性( 对变化做出快速的反应) 。 4 2 2 关键成功要素 关键成功要素( c s f ) 是指对项目的成功具有决定性作用。关键成功因素提 供了衡量项目质量及完整性的标准,只有理解了什么是最重要的,项目管理者才 能为其安排足够的预算资金、资源、时闻以及管理力度。以下的要素对数据仓库 项目的成功起到关键的作用口1 : 1 循序建立数据仓库 数据仓库不能也不应该以爆炸方式建立,相反,它是一个不断演化的体系。 必须在迭代( 小迭代) 的基础上建立,随着时问的推移演化成一个强壮的、定义 清晰的、质量高的数据仓库。 2 与用户交流 与用户交流,可以了解客户的业务以及确定数据仓库的需求。 3 用户积极参与 用户参与的有以下三种方式: ( 1 ) 开发人员建好数据仓库,用户只是使用它。 ( 2 ) 用户提出需求。 ( 3 ) 用户参与到项目的所有方面。这意味着用户不仅仅参与到提出需求和 测设产品两个阶段,而且还参与到这两阶段之间的所有开发步骤之中。 用户在项目中的行为将是项目成败的关键要素,而用户的参与度则是其行为 的最好说明。因此,第三种方式是最成功的方式。 4 有实力的主办人。 主办人最好来自业务部门,应当有良好的人事关系,能够提供充足的资金, 并具备运用项目所需其他资源的能力。最重要的是,主办人必须要有使用数据仓 库解决具体问题的强烈愿望,而且他相信数据仓库将为企业带来巨大的收益。 5 团队组织技巧 6 合理的时间表。 不现实的时间表是导致项目失败最为常见的原因之一,这些时间表大多是在 没有征的项目管理者及团队成员同意的情况下就强行实施的。 7 正确的控制程序( 控制变化) 。 1 8 昆明理工大学颈士学位论文 第四章数据仓库项目管理概述 在数据仓库项目的范围内总是存在许多变化,但这个范围必须得到控制,而 且变化控制必须在处理系统中生效。 8 合适的开发工具 工具必须满足企业、用户及项目的需要。工具之间不需要再编写接口程序或 特殊代码就能很好的协同工作。 9 通用的数据定义 每个部门对业务术语都有自己的一套定义,这些定义常常互不相同。部门负 责人总是假设每个人都认同他对业务的理解及对主要业务术语的定义。大多数职 员也乐意对业务术语的含义表示沉默。这样就不可能获得不同部门对于数据定义 的协调,所以每个项目度不得不从头开始收集各种不同的业务术语并将其一致化。 1 0 转化规则 当数据从源文件进入数据仓库时,大多都要进行转化,一些数据可能和其他 数据进行集成并重新编码,或者在其他方面被改变。转化规则对于用户期望得到 的数据有关键性作用。 1 1 用户培训 数据仓库用户必须得到培训,而且培训要适应用户的不同层次以及每用户 计划使用数据仓库的方式。除了学会使用工具软件,用户必须了解数据。对于高 层用户,还必须深入了解数据结构。 4 3 数据仓库开发策略 数据仓库是一个面向数据分析型处理的数据环境,数据仓库的数据具有四个 基本特征:面向主题的、集成的、不可更新的、随时间不断变化的。因此开发数 据仓库时,需要集成不同系统中众多的源数据。在开发中,用户需求不断变化, 主题不断增加。这些都导致数据仓库项i i 耗时长、花费大、风险高,所以分阶段、 循环的方式开发数据仓库系统是一个很有效的方法。 一般可以将数据仓库项目可以分为三个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论