(计算机应用技术专业论文)数据仓库技术在学生成绩分析系统中的应用.pdf_第1页
(计算机应用技术专业论文)数据仓库技术在学生成绩分析系统中的应用.pdf_第2页
(计算机应用技术专业论文)数据仓库技术在学生成绩分析系统中的应用.pdf_第3页
(计算机应用技术专业论文)数据仓库技术在学生成绩分析系统中的应用.pdf_第4页
(计算机应用技术专业论文)数据仓库技术在学生成绩分析系统中的应用.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(计算机应用技术专业论文)数据仓库技术在学生成绩分析系统中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中北大学学位论文 数据仓库技术在学生成绩分析系统中的应用 摘要 随着信息化的飞速发展,信息量的超指数上升使传统数据库的检索查询机制和统计 学分析方法已远远不能满足现实的需要。在这样的背景下,数据仓库和数据分析技术便 应运而生。数据分析方法的提出使人们有能力认识数据的真正价值,即蕴藏在数据中的 信息和知识。数据分析已经和数据仓库的研究结合起来并为高级的决策服务。因此数据 仓库及其相关技术的研究,自然成为信息科学学术界的热点问题。 本论文首先介绍了本课题的研究背景、研究内容和研究意义,论述数据仓库和联机 分析处理技术的研究现状,包括它们的研究内容、常用方法及发展方向。 其次,研究了数据仓库的开发原理,并对体系结构、数据组织、开发过程进行详细 地阐述。详细介绍数据仓库开发过程中的模型设计技术,并分析模型设计技术的优缺点 及概念模型、逻辑模型、物理模型的模型设计。 第三,分析了基于数据仓库技术的学生成绩分析系统的设计原则、设计方法和总体 设计框架及模型设计。 第四,详细论述从数据仓库数据库、多维数据集的构建方面设计一个基于数据仓库 的学生成绩分析系统,并以我校的学生成绩为依据对本系统的有效性和可行性进行验 证。 关键词:数据仓库,决策支持对象,模型设计,学生成绩分析,o w c 中北大学学位论文 t h e a p p l i c a t i o n o fd a t a w a r e h o u s i n g i ns t u d e n ts c o r e a n a l y s i s s y s t e m a b s t r a c t y a n gx l a o w e nh a nx i e w i t ht h ed e v e l o p m e n to fi n f o r m a t i o n ,l a 唱ee x p o n e n ta s c e n do fi n f o r m a t i o nc a p a c i t y m a k et h et r a d i t i o n a ld a t i v er e t r i e v a lq u e r ym e c h a n i s ma n ds t a t i s t i c sa n a l y s i sm e t h o d sc a n n o tm e e tt h en e e do fr e a l i t y u n d e rt h i s b a c k g r o u n d ,d a t aw a r e h o u s ea n dd a t aa n a l y s i s t e c h n i q u ee m e r g ea st h et i m e sr e q u i r e d a t aa n a l y s i sm e t h o d sw e r ep u tf o r w a r da n dw h i c h m a d ep e o p l eh a v ea b i l i t yt ok n o wt h eg e n u i n ev a l u eo fd a t a ,n a m e l yt h ek n o w l e d g ea n d i n f o r m a t i o ns t o r e di nd a t a t h e r e f o r e , t h er e s e a r c h e so fd a t aa n a l y s i sa n dd a t aw a r e h o u s eh a v e c o m b i n e df o re x c l u s i v ed e c i s i o ns e r v i c e s od a t aw a r e h o u s ea n di t sr e l a t e d t e c h n i q u e s n a t u r a l l yb e c o m e t h eh o t p o i n ti nt h ei n f o r m a t i o na c a d e m i c f i e l d f i r s t l y , a f t e rt h eb a c k g r o u n d ,c o n t e n t sa n dm e a n i n go ft h i sp a p e ri si n t r o d u c e d ,t h ec u r r e n t s i t u a t i o no fd a t aw a r e h o u s er e s e a r c ha n do n l i n ea n a l y t i c a lp r o c e s s i n gt e c h n i q u e ,i n c l u d i n g t h e i rr e s e a r c hc o n t e n t s ,c o m m o n w a y s a n d d e v e l o p m e n t t r e n da r ed i s s e r t a t e d s e c o n d l y , t h ed e v e l o p m e n tp r i n c i p l eo fd a t aw a r e h o u s ei ss t u d i e d ,m a i n l yi n c l u d i n gt h e s y s t e ma r c h i t e c t u r e ,d a t ao r g a n i z a t i o na n dd e v e l o p m e n tp r o c e s s t h e nt h em o d e ld e s i g n t e c h n i q u e si nt h ed e v e l o p m e n to fd a t aw a r e h o u s ea r ei n t r o d u c e di nd e t a i l ,a n dt h em e r i ta n d s h o r t c o m i n g o fm o d e l d e s i g nt e c h n i q u e s ,c o n c e p tm o d e l ,l o g i c a lm o d e la n dp h y s i c a lm o d e l i s a n a l y z e d t h i r d l y t h ed e s i g np r i n c i p l e ,m e t h o d s ,g e n e r a lf r a m ea n dm o d e ld e s i g no fs t u d e n ts c o r e a n a l y s i ss y s t e mb a s e do nd a t aw a r e h o u s et e c h n i q u ei sa n a l y z e d f i n a l l y , as t u d e n ts c o r ea n a l y s i ss y s t e mb a s e do nd a t aw a r e h o u s ei s d e s i g n e df r o mt h e c o n s t r u c t i o no fd a t aw a r e h o u s ed a t a - b a s ea n dm u l t i d i m e n s i o n a ld a t as e t t h ef e a s i b i l i t ya n d 中北大学学位论文 v a l i d i t yo f t h i ss y s t e ma r ev a l i d a t e da c c o r d i n gw i t hs t u d e n t s s c o r eo fo u r u n i v e r s i t y k e y w o r d s :d a t aw a r e h o u s e ,d e c i s i o n s u p p o r to b j e c t ( d s o ) ,m o d e ld e s i g n ,t h e a n a l y s i so fs t u d e n ts c o r e ,o f f i c ew e bc o m p o n e n t 中北大学学位论文 本人声明 我声明,本论文及其研究工作是由本人在导师指导下独立完成的,在完成论文时所 利用的一切资料均已在参考文献中列出。 签名:塑毙皇日期:曼噬主:丝 中北大学学位论文 1 1 研究背景 1 绪论 目前,许多高校的管理信息系统已经完善,学生各个方面的信息被记录地越来越全 面,但是8 0 的信息只是简单地存储在数据库中,隐藏在这些数据中的潜在信息闲置, 不能被充分利用 1 - 3 l 。在数据库中学生成绩分析从定性的角度考虑不是很精确,而数据 仓库是从定量的角度精确地展现学生成绩分析的各个方面数据。我校已经保存了大量的 学生成绩信息、教师教学信息及教学计划等详细数据。这些数据真实地反映了我校的教 学情况,可供教务管理人员进行各类统计报表和信息蠢询( 如它可以给出某学期某门课 程考试未通过或成绩优秀的学生情况) ,但对这些数据所隐含的价值没有挖掘利用( 例 如:不能找出那些考试未通过及成绩优秀的学生在哪些方面有些什么不同的特征,以及 怎样合理建议考试未通过的学生提高成绩) 。这样难以为管理决策( 包括人事管理、学 生管理) 提供科学依据,而学生成绩分析数据仓库正是为解决这一问题而设计的。 1 2 数据仓库的研究现状 1 。2 1 数据仓库的产生 随着信息化的飞速发展,信息量的超指数上升使传统数据库的检索查询机制和统计 学分析方法已远远不能满足现实的需要。许多数据来不及分析就过时了。也有很多数据 因其数据量极大而难以分析数据间的关系。在这样的背景下,数据仓库和数据分析技术 便应运而生。数据仓库的产生和发展为数据分析技术提出了新的要求和挑战。数据分析 方法的提出使人们有能力认识数据的真正价值,即蕴藏在数据中的信息和知识。数据分 析已经和数据仓库的研究结合起来。为高级的决策支持服务是数据仓库的最终目的。因 此数据仓库理论及其相关技术的研究,自然成为信息科学学术界的热点问题。 数据库系统作为数据管理手段( 4 - 5 ,从它的诞生开始,就主要用于事务处理。经过 中北大学学位论文 数十年的发展,在这些数据库中已经保存了大量的日常业务数据。传统的业务系统一般 是直接建立在这种事务处理环境上的。数据库技术一直力图使自己能胜任从事务处理、 批处理到分析处理的各种类型的信息处理任务,后来人们逐渐认i j , n ,在目前的计算机 处理能力上,直接使用事务处理环境来支持决策是行不通的。近年来,随着数据库技术 的应用和发展,人们尝试对数据库中的数据进行再加工,形成一个综合的、面向分析的 环境,以更好地支持决策分析,数据仓库( d a t aw a r e h o u s e ,简称d w ) 正是为了构建这 种新的分析处理环境而出现的一种数据存储和组织技术。数据仓库弥补了原有数据库的 缺点,将原来以单一数据库为中心的数据环境发展为一种新环境:体系化环境。如图1 1 所示。数据仓库的建立并不是要取代数据库,它要建立在一个较全面和完善的信息应用 基础上,用于支持高层决策分析,而事务处理数据库在企业的信息环境中承担的是日常 操作性的任务。 操作型环境全局级部门级个人级 注:“一“为数据的抽取方向 图l _ 1 数据仓库的体系化环境 1 2 2 数据仓库的概念及基本特点 2 0 世纪8 0 年代中删“”,“数据仓库之父”w i l l i a mh i n m o n 先生在其建立数据仓 库一书中定义了数据仓库的概念,随后又给出了更为精确的定义:数据仓库是一个面 向主题的、集成的、非易失的、随时间变化的用来支持管理人员决策的数据集合。从这 里我们可以看出数据仓库不仅仅是一个数据集合,还是一个决策支持系统,它将来自多 个数据库或其它数据源的信息进行重新组织与集成,并为上层的某一主题应用提供统 的用户接口,供最终用户直接完成对数据的查询、分析与决策。实际上,数据仓库并不 2 中北大学学位论文 是一种产品,而是一种体系结构,它是一个含有多种技术的灵活环境。它有以下的四个 特点【8 】: ( 1 ) 面向主题的 数据库系统是以优化事务处理的方式来构造数据结构的,对于某个主题的数据常常 分布在不同的事务数据库中。这对于决策支持来说是极为不利的,因为这意味着访问某 个主题的数据实际上需要去访问多个分布在不同数据库中的数据集合。因此,数据仓库 将这些数据集中于一个地方,在这种结构中,对应某个主题的全部数据被存放在同一数 据表中,这样决策者可以非常方便地在数据仓库中的一个位置检索包含某个主题的所有 数据。通过按主题的数据组织方法,数据仓库极大的方便了数据分析的过程。 ( 2 ) 集成的 全面而正确的数据是有效地分析和决策的首要前提,相关数据收集地越完整,得到 的结果就越可靠。而当前绝大多数企业内现有的业务数据库系统中的数据是分散而非集 成的,主要是由于事务处理应用分散、“蜘蛛网”问题、数据不一致问题、外部数据和 非结构化数据。要实现集成就必须对数据进行清洗和转化,并且决策所需要的不是静态 的集成,而是动态的集成。静态集成最大的缺点在于数据集成后数据源中的数据发生了 变化,这些变化将不能反映给决策者,导致决策者使用的是过时的数据。因此数据仓库 必须使集成数据以一定的周期进行刷新,使决策者能够使用新增的数据。 ( 3 ) 稳定的 在数据仓库中,数据一旦被写入就不再变化了。数据仓库可以看成是一个虚拟的只 读数据库系统。数据仓库在数据存储方面是分批进行的,定期进行提取过程为数据仓库 增加记录,但是这些记录一旦加入,就不再从系统中删除,也就是所有用户只是以只读 的方式访问数据仓库,因此数据仓库不需要在开发读写控制上投入过多的精力。 ( 4 ) 随时问变化 由于数据仓库中的数据只增不删,使得数据仓库中的数据总是拥有时间维度,数据 仓库实际上就是记录系统的各个瞬态,并通过将各个瞬态连接起来形成动画,从而数据 分析的时候再现系统运动的全过程。 3 中北大学学位论文 1 , 2 3 数据分析技术 数据分析技术是建立在一定数据基础上的,进行分析的方式和方法。通常包括: o l a p ( o n l i n e a n a l y t i c a lp r o c e s s i n g 联机分析处理) 、数据挖掘、统计分析、联机挖掘 ( o l a mo n l i n ea n a l y t i c a lm i n i n g ) 等技术内容。数据分析技术不一定需要建立在数据 仓库基础上,但是有了数据仓库之后,数据分析的效率和能力将大大提高。前面已经介 绍了建立数据仓库的目的是为了进行决策分析,因此数据仓库的应用过程离不开数据分 析技术。通过与数据分析技术的结合,才能够发现许多前所未有的分析结果,并为企业 的科学决策提供依据。本文主要讨论o l a p ,在1 3 节做详细介绍。 1 2 4 数据仓库的发展现状 数据仓库是2 0 世纪9 0 年代初提出的概念,到9 0 年代中期已经形成潮流。在美国, 数据仓库已经成为仅次于i n t e r n e t 之后的又一技术热点。数据仓库是市场激烈竞争的产 物,它的目标是达到有效的决策支持。大型企业几乎都在建立自己的数据仓库,数据库 厂商也纷纷推出自己的数据仓库解决方案。业界尚不存在可靠的、完善的、被广泛接受 的数据仓库标准,这也影响了数据仓库项目的实施。目前,国外企业已建立和使用的数 据仓库应用系统都取得了明显的经济效益,在市场竞争中显示出强劲的活力。但是,国 内的数据仓库市场却一直不太景气,虽然最近几年情况发生了很大的变化,些大型企 业相继实施了数据仓库计划,涌现出一些成功的数据仓库应用范例。但是中国与发达国 家的差距仍然很大,仍有加大的趋势,中国加入w t o 后,如何开拓国内的数据仓库市 场,提高国内企业的竞争能力,成为国内企业关注的重点,下面就中国数据仓库市场不 成熟的原因以及怎样开拓国内的数据仓库市场给出一些探索性的意见。 中国数据仓库市场不成熟的原因可归纳为以下几点; ( 1 ) 数据积累不充分:实现在线分析处理的前提是要有大量的数据,特别是历史数 据。但目前我国除了银行、电信等少数行业以外,数据积累都不够充分。 ( 2 ) 数据仓库市场需要培育:与传统数据库市场相比,建立数据仓库市场需要更多 4 中北大学学位论文 的培育,美国人用了5 6 年的时间,才使这个市场成熟起来,澳大利亚借鉴了美国人 的经验,少走了些弯路,用了将近2 年的时间,就把这一市场培育起来。有了美国和 澳大利亚的经验,中国的数据仓库市场也许会很快成熟起来,但至少目前还需要培育。 ( 3 ) 技术人才匮乏:数据仓库应用主要是一个建立的过程,实践性非常强。因此, 软件供应商绝不能满足于把数据仓库引擎和开发工具卖出去,而是需要大量有经验的技 术支持人员。从国内( 包括外企) 的情况来看,真正能够完整实施数据仓库方案的人才严 重匮乏,因此制约了国内数据仓库市场的发展。 ( 4 ) o l a p 前端工具不适合中国用户:目前数据仓库市场上的工具基本上没有国产的, 由于文化背景的差异,西方人的数据展现习惯和中国人有很大差别,因此,几乎所有的 前端工具都难以满足国内最终用户的需要。 数据仓库的发展方向: ( 1 ) 数据仓库技术方面的发展,主要是数据抽取、存储管理、数据表现和方法论等 方面。在数据抽取方面,将主要集中在系统集成化方面:在数据管理方面,将使数据库 厂商明确推出数据仓库引擎,作为服务器产品与数据库服务器并驾齐驱;在数据表现方 面,数理统计的算法和功能将普遍集成到联机分析产品中,同时与i n t e m e t f w e b 技术紧 密结合,推出适用于i n t r a n e t 、终端免维护的数据仓库访问前端;数据仓库实现过程的 方法论将更加普及,将成为数据库设计的一个明确的分支,成为管理信息系统设计的必 备。 ( 2 ) 计算机应用发展中对数据仓库的倾向是数据仓库发展的推动力。传统的联枫事 务处理系统并不单独考虑数据仓库,但实际应用对数据仓库所能够提供的功能却早有需 求,使这些系统既不能充分发挥联机事务处理功能,又在数据分析方面受到限制,因此 应用技术是朝着更加细化,更加专业的方向发展。在新一代的应用系统中,数旅仓库在 一开始便被纳入系统设计的考虑中,联机分析应用于普遍的事务处理系统之中。 ( 3 ) 在市场上,从厂商和用户两个方面看数据仓库的发展。对于提供数据仓库产品 和解决方案的厂商来说,不提供完整解决方案的厂商可能被其他公司收购能够持续发 展的厂商大致有两类:一是拥有强大的数据库、数据管理背景的公司;二是专门提供面 向具体行业的、关于数据仓库实施技术咨询的公司。 5 中北大学学位论文 1 _ 3o l a p 技术的介绍 联机分析处理( o l a p ) 的概念最早是由关系数据库之父e e c o d d 于1 9 9 3 年提出的 9 - 1 3 。当时,c o d d 认为联机事务处理( o l t po n l i n et r a n s a c t i o n a lp r o c e s s i n g ) 已不能满足 终端用户对数据库查询分析的需要,s q l 对大数据库进行的简单查询也不能满足用户分 析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结 果并不能满足决策者提出的需求。因此c o d d 提出了多维数据库和多维分析的概念,即 o l a p 。 o l a p 是一类软件技术,它使分析人员、经理、管理人员通过对信息( 维数据) 的 多种可能的观察形式进行快速、稳定、一致和交互式的访问,以便管理决策人员对数据 进行深入观察。 为用于市场分析和预测,数据仓库中的数据一般都是按照主题组织的多维数据,并 提供用于o l a p 的查询引擎。多维数据模型中,有一些分析对象被称为度量,这些度量 的语义依赖于提供上下文语义的维的信息。在o l a p 的多维数据模型中关键的操作是对 度量属性在某些维上的聚集操作,多维数据分析算法研究的核心也就是如何高效地实现 在维上的聚集操作。 1 3 1o l a p 的多维数据分析方式 在多维数据模型中,数据组织成多维,每维包含了概念分层定义的多个抽象层。这 种组织为用户从不同角度观察、分析数据提供了灵活性。多维分析是指对以多维形式组 织起来的数据采取切片、切块、旋转、钻取等各种分析动作,以剖析数据,使用户能从 多个角度、多个侧面、多个层次来观察数据仓库中的数据,从而深入地了解包含在数据 中的信息内涵。o l a p 操作:( 1 ) 切片切片可以分为两种形式,一是在多维空间的某一 维上取定维成员,得到比原有空间少一维的多维空间。二是选定多维空间的某两维,在 这两维上取某一区间或任意维成员,而其余维度都取定一个维成员,这样就得到一个二 6 中北大学学位论文 维平面。( 2 ) 切块切块有两种形式。一是在多维空间的某一维度上选定某_ 一区问的维成 员。二是从多维空间中选取三个维度,在这三个维度上分别取某一区间或任意的维成员, 而将其余的维都取定一个维成员。( 3 ) 旋转旋转是在进行切片或切块后形成的报告和页 面上改变其显示的维方向。( 4 ) 钻取钻取可以分为上钻和下钻,下钻是指用户从某一个 粒度比较大的数据出发,去考察分柝与这一数据有关的、粒度比该数据小的数据。上钻 跟下钻刚好相反。 1 3 2o l a p 的发展方向 现在o l a p 和其他技术一样都是从昂贵走向合理,从专业走向普及。它的发展方向 主要从以下几方面来考虑。 ( 1 ) 管理方面:o l a p 应用中用户的管理,数锯权限的管理,模型的建立和维护, 模型数据的备份与恢复等: ( 2 ) 使用与设计方面:o l a p 的模型设计、数据装载和元数据管理都是很重要的发 展方向; ( 3 ) 可扩展性方面:由于用户数增多、维度增加和数据量增加使o l a p 处理能力的 扩展成为发展所必需面临的问题; ( 4 ) 越来越多的用户不满足局限于应用工具内的o l a p 分析; ( 5 ) 联机数据挖掘方面:o l a f 技术和数据挖掘技术结合也成为了o l a p 技术发展 的一个新方向; ( 6 ) o l a p 技术与关系型数据库技术的结合; ( 7 ) o l a p 技术的可视化问题。 另外,从技术的角度,o l a p 技术正在结合一些先进的技术理论,出现了面向对象 的联机分析( 0 3 l - a p - - o b j e c t o r i e n t e do l a p ) 、对象关系的联机分析o r o l a p ( o b j e c t r e l a t i o n a lo l a p ) 、分布式联机分析d o :l a p ( d i s t r i b u t e do l a p ) 和时态联机分析处理 ( t e m p o r a lo l a p ) 等内容。 7 中北大学学位论文 1 4 本论文的研究内容 ( 1 ) 了解与本课题相关理论和技术的产生和发展。 数据仓库理论产生、发展和研究现状; o l a p 数据分析技术的基本概念和发展方向; 构建数据仓库的研究,数据仓库中的数据组织、开发生命周期、开发过程介绍。 ( 2 ) 数据仓库的模型设计。 首先介绍了数据仓库模型设计理论中的实体关系建模和维度建模技术,然后介绍了 数据模型的三个模型设计: 概念模型设计 逻辑模型设计 物理模型设计 ( 3 ) 熟悉d e l p h i 编程以及和m i c r o s o f ts q l s e r v e r a n a l y s i ss e r v i c e s 的连接,并且完 成对通过编程建立的多维数据集的显示。 通过s q l - d m o 对象编程实现数据仓库基本库的构建; 在数据仓库基本库的基础上,使用s o l - d m 0 构建数据仓库数据库; 通过对象编程实现数据仓库结构的构建,完成数据仓库模型的物理模型设计; 通过与a n a l y s i ss e r v i c e s 的连接,使用m i c r o s o f t o f f i c ew e b c o m p o n e n t 组件完 成数据仓库多维数据集的显示。 1 5 本论文的研究意义 本文以我校学生成绩分析为实际需求,研究了数据仓库构建技术、数据建模技术和 o l a p 数据分析的展现技术,并以我校学生成绩为例,充分研究学生成绩和学生信息等 的数据特点,设计出了我校学生成绩分析系统的数据模型,并应用于实践,证明该模型 8 中北大学学位论文 有良好的实用性和利用价值。在泼模型基础上可以完成学生成绩主题的各方面的o l a p 分析报表和透视图,使学生成绩分析有一个量上的指标。 虽然本文是以我校学生成绩分析系统为研究背景,但研究成果对所有的高校都具有 很好的适用性。 1 6 本论文的结构安排 全文共分为六个章节。 第一章是全文的绪论,在此章中介绍了本课题的研究背景,研究意义,以及数据仓 库和联机分析处理技术的研究内容和研究现状。最后论述了本论文的研究内容和结构安 排。 第二章是数据仓库的开发原理。在本章中介绍数据仓库的体系结构和实施框架、数 据组织结构、数据组织形式、数据的追加技术、数据的粒度、数据的分割、数据的清理, 并分析数据仓库的开发生命周期以及技术准备工作、数据仓库的构建、数据仓库的应用 和维护的开发过程。 第三章介绍有关数据仓库模型设计的基本概念,研究数据仓库建模技术,并分析数 据仓库的概念模型、逻辑模型、物理模型的设计过程。 第四章介绍学生成绩分析系统的需求分析和设计原则、设计方法,然后对系统的体 系结构进行总体设计,通过分析它的数据源的构成,对要应用的技术环境进行选择,最 后根据第三章中的模型设计理论进行本系统的数据仓库的数据模型设计:概念模型设 计、逻辑模型设计、物理模型设计。 第五章是基于数据仓库技术的学生成绩分析系统的总体设计,在本章中分析系统的 设计思想,设计目标以及整个系统的总体结构,并且实现了数据仓库的基本库和多维数 据库构建,并对数据仓库中多维数据集进行展现。 第六章是全文的总结与展望。 9 中北大学学位论文 2 数据仓库的开发原理 2 1 数据仓库的体系结构与实施框架 在构建数据仓库之前,确定数据仓库系统的体系结构是一项很重要的工作,数据仓 库不是简单地对数据进行存储,而是对数据进行“再组织”。这争所说的体系结构不仅 指物理上的体系结构,它应该包括三个方面:物理体系结构、逻辑体系结构以及实施方 式。 物理体系结构有三种类型:统一的数据仓库、独立的数据集市和统一的数据仓库+ 从属的数据集市。实旋方式也有三种类型:自上而下、自下而上和两者的混合。实施方 式与体系结构的选择是独立的,不同的选择可以组合,物理结构可以选择全部集中存储, 也可以选择分稚式存储;逻辑结构可以选择集中管理以及分布式管理;实施方式也可以 是三种中的一种。数据仓库的体系结构如图2 1 所示。 圈2 i 数据仓库的体系结构 1 0 中北大学学位论文 统一的数菰 :仓库:也称为企业级的数据仓库,即在一个数据仓库中,包含了企业所 有部门的分析信息,数据高度地集成,访问统一控制,能够满足所有部门的分析要求。 数据集市:数据集市的概念和数据仓库类似,主要区别在于应用的范围。数据集市 主要面向部门,它通常为单位的职能部门提供信息。 独立的数据集市:不依赖于中央的数据仓库的数据集市。 从属数据集市:在数据仓库的实施过程中,对于某些主体的业务分析问题,司能会 按照主题,采用数据集市的方式对数据进行进步的组织,所以在数据仓库的基础上根 据分析需求会创建相应的从属数掘集市。 2 2 数据仓库的数据组织 2 2 1 数据仓库的数据组织结构 一个典型的数据仓库的数据组织结构如图2 2 所示 高度综合级 轻度综台级 当前细节级 早期细节级 图2 2 数据仓库数据组织结构 数据仓库中的数据分为四个级别:早期细节级、当前细节级、轻度综合级、高度综 合级。源数据经过综合后,首先进入当前细节级,并根据具体需要进行进一步的综合, 从而进入轻度综合级乃至高度综合级,老化的数据将进入早期细节级。由此可见,数据 中北大学学位论文 仓库中存在着不同的综合级别,一般称之为“粒度”。粒度越大,表示细节程度越低, 综合程度越高。总的来说,数据仓库的这种组织方式的核心思想是在系统中保留最有可 能被用户使用的数据,而用户很少使用的数据则备份出系统。在数据仓库中,处理提取 和综合后的数据还包括非常重要的元数据,它描述的是提取和综合后的数据的组织方 式。 元数据( m e t ad a t a ) 是关于数据的数据。在数据仓库系统中,元数据可以帮助数 据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述 数据仓库内数据的结构和建立方法的数据。 2 2 2 数据仓库的数据粒度和数据分割 数据粒度和数据分割是数据仓库中两个重要的概念【1 4 l ,它们是数据仓库模型设计时 重要考虑的问题。 1 数据粒度 在数据仓库环境中粒度之所以是重要的设计问题,是因为它会深刻地影响存放在数 据仓库中的数据量的大小以及数据仓库所能回答的查询类型。粒度可以使众多用户从不 同的角度观察数据;可以对数据进行一致性协调;还具有灵活性,用户还可以更改他们 观察数据的角度:可以使整个企业的数据足够详细地为满足不同需要而进行重构最重 要的是可以容纳将来未知的需求。数据仓库粒度可以分为两种形式,第种粒度指的是 数据仓库中的数据单元的细节程度或综合程度的级别。细节程度越高,粒度级就越低; 相反,细节程度越低,粒度级就越高。在数据仓库中,多维粒度是必不可少的。由于数 据仓库的主要作用是决策支持系统( d s s ) 分析,因而绝大多数查询都基于一定程度的 综合数据之上,只有极少查询涉及到细节。所以应该将大粒度数据存储于快速设备如磁 盘上,小粒度数据存储于低速设备如磁带上。 还有一种粒度形式,即样本数据库。它根据给定的采样率从细节数据库中抽取出一 个子集。这样样本数据库中的粒度就不是根据综合程度的不同来划分的,而是由采样率 的高低来划分,采样粒度不同的样本数据库可以具有相同的数据综合程度。 1 2 中北大学学位论文 在本文后续章节中讨论的粒度主要是指数据综合程度的高低。选择合适的粒度级别 是体系结构设计环境成功的关键。选择粒度级别的一般方法是利用常识,建立数据仓库 的一小部分,并让用户去访问这些数据,然后仔细聆听用户的意见,根据他们的反馈意 见适当调整粒度的级别。 2 ,数据分割 数据分割是数据仓库中又一个重要的概念。由于数据仓库中的数据量极大,数据量 大使用起来会遇到很多问题,尤其是效率问题。分割的目的就在于提高效率。它是将数 据分散到各自的物理单元中去,以便能分别独立处理。数据分割没有固定的标准,分割 的方法和粒度一样应该根据实际情况来确定。有许多数据分割的标准可供参考:如同期、 地理、业务范围等等,也可以进行组合。一般来说,分割标准总应包括日期项,因为它 分割后分布均匀。 2 2 3 数据仓库的数据组织形式 在数据仓库发展过程中。出现了不同的数据组织形式,这里介绍几种简单的组织形 式f 15 1 。 1 简单堆积文件:它将每天由数据库中提取并处理后的数据逐天存储起来。 2 轮转综合文件:数据存储单位被分为同、周、月、年等几个级别。数据被逐一地 添加到每天的数据集合中,当个星期过去了,每天数据被综合成周数据,以此类推。 轮转综合文件结构比较简单,数据量比简单堆积文件大大减少。当然它是以损失数掘细 节为代价的,越久远的数据,细节损失越多。 3 简单直接文件:它类似于简单堆积文件,数据仅仅是从操作型环境拖入数据仓库 环境中,并没有任何累积。另外,简单直接文件不是在每天的基础上组织的,而是以较 长时间为单位的,它是间隔一定时间的数据库快照,比如每隔一个星期或一个月。 4 连续文件:依照两个或更多的简单直接文件能生成一种连续文件。当然,连续文 件也可以通过把个快照追加到一个以前生成的连续文件上来创建。 对于各种文件结构的最终实现,在关系数据库中仍然要依靠“表”这种最基本的结 1 3 中北大学学位论文 构,并且在一个数据仓库体系结构中,不同主题下的表或相同主题下的不同的表可以采 用不同的数据组织形式。 2 2 4 数据仓库的数据追加技术 数据的组织结构和数据组织形式解决的是数据仓库的存储闯题。数据追加是从数据 库角度提出的,它解决的是在数据仓库初始数据转载后如何再向数据仓库输入数据的问 题。数据追加实际上只增加在上次数据输入后数据库中变化了的数据,要完成数据追加 的工作,最关键的是“捕获”数据变化,并把它们的变化记录下来。 1 时标法:最早提出“时标法”的思想是为数据记录增加一个时间标记。当数据在 上次数据导入完成后发生了变化,则修改这条记录的时间标记。但是,在时问数据库系 统中,通常没有专门的时间标记,因此,时标法虽然简单,但很难得到应用。 2 前后映像比较法:将上次执行完数据追加任务的数据库快照记录下来,同要执行 新的数据追加任务前的数据库快照进行比较,比较这两次快照的不同,来生成追加的内 容。这种方法简单,但是如果数据库的数据量很大,进行这样全数据库的比较将会耗费 大量的系统资源和时间,所以它不实用。 3 d e l t a 方法:数据的变化是由数据库应用程序引发的,因此数据库应用程序应 当知道它修改了哪些数据,应用程序可以将它执行成功的修改操作记录下来,形成 d e l t a 文件作为追加的内容。数据库的应用程序主要是为了完成事务处理而设计的, 要使所有的应用程序d e l t a 文件的功能在实际的工程应用中很难,因此,这种方法也 没有得到实用。 4 日志文件法:各个应用程序都是通过同数据库服务器进程通信来实现其数据访问 功能,最终数据的访问和处理工作是由数据库服务器来承担,因此数据库服务器能够感 知数据的变化。如果数据库开启了系统日志,数据库服务器将会把它所执行的所有操作 详细地记录下来。我们可以通过分析数据库日志来获取数据变化的情况。由于同志文件 中不是所有的信息都是必须的,通过分析日志文件可以减少工作量。虽然同志文件法需 要对日志本身进行比较复杂的分折,但是由于它能够极大程度地减少工作量,所以褥到 1 4 中北大学学位论文 了广泛的应用。 2 2 5 数据仓库中数据的滑理 数据仓库系统中的数据也具有自身的生命周期,数据仓库系统并不是总装载数据而 不清除数据的系统。它的数据清理和普通系统的数据清理的含义有所区别。在普通的系 统中,数据清理意味着将数据清除,而数据仓库系统是从细化级别的数据逐渐上升为高 度综合级的数据,直到数据已经不再具备任何意义时被清除的过程。数据仓库数据清理 的过程如下: 数据从操作型环境进入分析型环境; 数据从细节数据逐渐转换为综合数据; 数据从高速磁盘中转移到低速存储介质上: 数据失去实际意义,最终被清除。 2 3 数据仓库的开发生命周期 由数据仓库的特点决定了数据仓库的系统设计不能采用传统的操作型数据库开发 方法i 圳。操作型数据库系统的开发是开始于需求,结束于代码;而数据仓库系统的开 发是开始于数据,结束于需求。这两者的典型开发方法是瀑布式开发和螺旋式开发,下 面简单介绍一下这两种开发方法: 1 瀑布式开发方法:它是按照编写需求说明、系统分析、系统设计、系统实现、单 元测试、系统调试成功并投入运行的流程来进行软件系统的开发。如果需求确定,利用 它开发系统,效率很高;但是如果开发的后续阶段,用户的需求发生了改变,则需要重 新返回到系统的分析阶段,重新开始设计系统。这样将使得软件开发团队付出昂贵的人 力和物力,并且会延长系统开发时间。 2 螺旋式开发:它采用“分而治之”的思想,将一个庞大的任务划分成多个阶段, 1 5 中北大学学位论文 在每一个阶段中,项目按照问题定义、系统分析、系统设计、开发、实现、维护和系统 评估来进行。在一个阶段完成后,再开始新的阶段设计。它采用不断扩大开发范围的方 式来逐渐完善数据仓库系统。实践证明螺旋模型适合数据仓库系统开发,螺旋式的方法 已经成为数据仓库业内比较公认的开发策略。 2 4 数据仓库的开发过程 在上面一节中已阐明数据仓库的开发适宜用螺旋式开发方法,尽可能快地为d s s 分 析者提供出数据仓库原型,再在数据仓库体系结构设计者和d s s 分析者之间的反馈循环 中不断丰富、完善数据仓库系统。 数据仓库的开发过程大体包括以下几个步骤: 数据仓库技术准备: 数据仓库的模型设计: 数据仓库的构建; 数据仓库的使用和维护。 数据仓库模型设计就是根据目前业务系统具有的数据和可以捕获到的系统需求两 个角度设计出数据仓库的信息存储结构,数据仓库模型的设计可以分为三个层面的设 计:概念模型设计、逻辑模型设计和物理模型设计,详细内容将在下一章介绍,下面分 别描述一下数据仓库开发过程中其它几个重要的步骤。 2 4 1 技术准备工作 进行系统设计前需要完成技术准备工作,包括: ( 1 ) 了解各个数据仓库厂商产品的性能和特征并对其进行评估: ( 2 ) 对数据仓库系统未来的数据量进行估算,这个数据量的估算是选择系统软件和 硬件平台的基础; 1 6 中北大学学位论文 ( 3 ) 根据系统的数据量选择合适的软件和硬件平台; ( 4 ) 熟悉软件系统、硬件系统的技术特长,并在后续的设计工作中运用这些技术特 长: f 5 ) 对开发人员进行培训。 这一阶段的成果是:技术评估报告、软硬件配簧方案、系统( 软、硬件) 总体设计方 案。管理数据仓库的技术要求与管理操作型环境中的数据与处理的技术要求区别很大, 两者所考虑的方面也不同。我们之所以在一般情况下总是将分析型数据与操作型数据分 离开来,将分析型数据单独集中存放,也就是用数据仓库来存放,技术要求上的差异是 一个重要原因。 2 4 2 数据仓库的构建 创建数据仓库晟重要的一个步骤是将数据从各种操作型数据系统中抽取出来,排除 数据中的数据缺陷,完成一系列转换、汇总,最后将数据加载到数据仓库。所要做的工 作是接口编程抽取规则设计、进行源数据的获取、清洗、整理及数据装入。 这一步工作的成果是,数据己经装入到数据仓库中,可以在其上建立数据仓库的应 用,即o 乙廿应用。 】设计数据转换接口 将操作型环境下的数据装载进入数据仓库环境需要在两个不同环境的记录系统之 间建立一个接口。建立和设计这个接口,似乎只要编制一个抽取程序就可以了,事实上, 在这一阶段的工作中,的确对数据进行了抽取,但抽取并不是全部的工作,这一接口还 应具有以下的功能: 从面向应用和操作的环境生成完整的数据,对数据进行转换、净化; 数据基于时间的转换: 数据的汇总: 对现有记录系统的有效扫描,以便以后进行追加。 当然,考虑这些因素的同时,还要考虑到物理设计的些因素和技术条件限制,根 1 7 中北大学学位论文 据这些内容,严格地制定规格说明,然后根据规格说明,进行接口编程,也包括伪码丌 发、编码、编译、检错、测试等步骤。 在接口编程中,要注意: 保持高效性,这也是一般编程所要求的; 要保存完整的文档记录; 要灵活,易于改动; 要能完整、准确地完成从操作型环境到数据仓库环境的数据抽取、转换与集成。 2 数据抽取设计 因为数据仓库中包含粗细粒度不同即综合程度不同的数据,高度综合的数据需要从 轻度综合的数据中汇总而来,轻度综合的数据需要从当前细节数据中汇总而来,所以在 数据仓库内部也存在多次数据抽取、转换的过程,所以在开发数据仓库与数据源系统接 口的同时,也需要根据数据仓库中不同粒度的模型设计数据仓库内部抽取、转换、转载 的规则。 3 数据装入 在这一步舅! 所进行的就是运行接口程序和数据仓库抽取规则,将数据装入到数据仓 库中。主要的工作是: 确定数据装入的次序; 装入初始数据; 清除无效或错误数据: 数据“老化”; 数据粒度管理: 数据豹定期刷新。 最初只使用一部分数据来生成第一个主题域,使得设计人员能够轻易且迅速地对已 做工作进行调整,而且能够尽早地提交到下一步骤,即数据仓库的使用和维护。这样既 可以在经济上最快地得到回报,又能够通过最终用户的使用、尽早发现一些闯题并提出 新的需求,然后反馈给设计人员,设计人员继续对系统进行改进、扩展。 1 8 中北大学学位论文 2 4 3 数据仓库的使用和维护 在这一步中所要做的工作有建立数据仓库应用系统,调整和完善数据仓库的应用系 统,维护数据仓库。 建立企业的体系化环境,不仅包括建立操作型和分析型的数据环境,还应包括在这 一数据环境中建立企业的各种应用。数据仓库装入数据之后,下一步工作是:一方面, 使用数据仓库中的数据服务于决策分析的目的,也就是在数据仓库中建立起0 l a p 应用; 另一方面,根据用户使用情况和反馈来的新的需求,开发人员进一步完善系统,并管理 数据仓库的一些日常活动,如刷新数据仓库的当前细节数据、将过时的数据转化成历史 数据、清除不再使用的数据、调整粒度级别等。我们把这一步骤称为数据仓库的使用与 维护。 1 建立数据仓库应用系统 数据仓库中的数据必须通过与用户的交互,爿。能转化为面向最终用户、面向业务主 题的可用信息,这就是建立数据仓库的最终目的。在传统数据库系统中,是通过定制的 业务报表来实现的;而在数据仓库中应用不仅仅限于报表,它可以为各类用户提供多种 多样面向分析的应用系统,包括面向高层决策者的主管信息系统( e i s ) ,面向决策分 析者的联机分析系统,为各层决策者提供决策服务的即时查询系统以及为报表制作者服 务的灵活报表系统等。以上所列举的分析应用系统主要侧重于在数据仓库中发现事实, 属于查询验证型分析应用系统。此外,还可以建立挖掘型应用系统,也就是数据挖掘系 统( d m ) 。数据挖掘系统能从数据仓库中提取隐藏的预测型信息,帮助企业决策者寻 找数据问的关系,发现被忽略的因素。其实现的具体方法有:决策树方法、神经网络方 法、遗传算法、模糊方法及统计分析方法等。 在这些应用中,联机分析处理是当前最典型的数据仓库应用,它是随着数据仓库的 出现而发展起来的一种对多维信息进行快速分析的技术。联机分析处理通过对企业

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论