




已阅读5页,还剩54页未读, 继续免费阅读
(计算机应用技术专业论文)基于数据仓库的开放教育信息资源分析处理的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着市场竞争的加剧和信息社会需求的发展,从大量数据中提取制定市场策 略的信息就显得越来越重要了。然而在企业信息化建设过程中,由于各业务系统 建设和实施数据管理系统的阶段性、技术性以及其它经济和人为因素等的影响, 导致企业在发展过程中积累了大量孤立的采用不同存储方式的业务数据,因此这 就要求建立基于整合、集成各个业务异构数据源的数据仓库的分布式应用系统。 本论文论述了建立在异构数据源基础上的数据仓库应用系统开放教育信 息资源分析处理系统。本系统的特点是结合高校开放教育管理的一些特性,将数 据仓库和联机分析处理技术引入高校决策分析系统中。本文分析了在电大教务管 理系统中数据库实现的具体问题以及建立在此基础上的数据仓库和联机分析处 理。首先介绍了与此项目相关的技术背景和实施的必要基础条件:然后介绍了电 大教务管理系统的数据库的研制开发,给出了基于电大教务管理系统的开放教育 信息资源数据仓库的体系结构,并介绍了系统各部分功能:最后讨论了在电大的 建设中如何利用数据仓库来实施分析决策。本文详细介绍了系统在实施过程中遇 到的问题及所采用的相应技术手段,研究了数据库设计、数据仓库、联机分析处 理在电大教务管理与分析决策系统中的应舁j 。这对提升学校的竞争力和办学水平 将起到巨大作用。 关键词数据仓库:联机分析处理:数据库设计 a b s tr a c t w i t ht h e d e v e l o p m e n to ft h ei n f o r m a t i o ni n d u s t r ya n dt h e s e v e r i t y o ft h e c o m p e t i t i o n ,i ti sm o r ea n dm o r ei m p o r t a n tt oa b s t r a c ti n f o r m a t i o nf r o mm a s so fd a t a t om a k ec o r r e c tm a r k e t i n gs t r a t e g y b u ti nt h ep r o g r e s so f i n f o r m a t i o n i z a t i o n ,d u et o t h ef a c tt h a tv a r i a n t o p e r a t i o ns y s t e m sa n dd a t am a n a g e m e n ts y s t e m sa r eb a s e do n d i f f e r e n tt e c h n i q u e s ,i m p l e m e n t e di nd i f f e r e n tp h a s e s ,a n da l s ot h ee c o n o m i c r e a s o n , a sw e l la st h ee f f e c to fc o n s i d e r a t i o nf a c t o r ,e n t e r p r i s e sh a v ea c c u m u l a t e dag r e a td e a l o f i n d e p e n d e n to p e r a t i o nd a t at h a ts t o r e di nv a r i a n tm a m a e r t h e r ei sas t r o n gd e m a n d t os e t u pad i s t r i b u t i n ga p p l i c a t i o ns y s t e mt h a t b a s e do nd a t aw a r e h o u s ew h i c h c o n f o r m sa n di n t e g r a t e sa l lt h ed i f f e r e n td a t as o n r c e s t h i st h e s i sd i s s e r t a t e sad a t aw a r e h o u s ea p p l i c a t i o ns y s t e m ,w h i c hb a s e so n v a r i a n td a t as o u r c e s 一o p e ne d u c a t i o n a li n f o r m a t i o nr e s o u r c ea n a l y s i sa n dp r o c e s s s y s t e m ”t h ec h a r a c t e r i s t i c o ft h i s s y s t e mi st h a t ,i ti m p o r t sd a t aw a r e h o u s ea n d o l a pt e c h n i q u et ot h e c o l l e g ed e c i s i o n - m a k es y s t e m ,w h i c h a l s o i n t e g r a t e s t h e p e c u l i a r i t yo fc o l l e g eo p e ne d u c a t i o nm a n a g e m e n t i nt h i st h e s i s ,t h ed a t aw a r e h o u s e a n do l a pa sw e l la st h eb a s e dd a t ab a s ei m p l e m e n t a t i o n ,i sa n a l y z e d t h ef i r s t p a r t i st h ei n t r o d u c t i o no ft h et e c h n i q u eb a c k g r o u n d a n dt h e i m p l e m e n t a t i o n c o n d i t i o no ft h es y s t e m ;t h es e c o n dp a r td e s c r i b e st h e d a t ab a s e d e s i g n ,t h ea r c h i t e c t u r eo fo p e ne d u c a t i o ni n f o r m a t i o nr e s o u r c ed a t aw a r e h o u s e ,a n d t h ef u n c t i o no fe a c hp a r t ;t h el a s tp a r t d i s c u s s e st h eu s a g eo fd a t aw a r e h o u s ei n a n a l y s i s a n dd e c i s i o n m a k e i nc o n c l u s i o n ,d e t a i l s o ft h e p r o b l e m s m e ti nt h e i m p l e m e n t a t i o no ft h es y s t e ma n d t h ec o r r e s p o n d i n gt e c h n i q u es o l u t i o ni s s h o w si n t h i st h e s i s ,d a t ab a s ed e s i g n ,a p p l i c a t i o no fd a t aw a r e h o u s e a n do l a pa r er e s e a r c h e d t h i sw i l l d e f i n i t e l y c o n t r i b u t et ot h ei m p r o v i n go fc o l l e g ec o m p e t e n c e a n dt h e t e a c h i n gs t a n d a r d k e yw o r d sd w ( d a t aw a r e h o u s e ) ;o l a p ( o n l i n ea n a l y t i c a lp r o c e s s i n g ) ;d a t a b a s ed e s i g n i i 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名:j 毕斗一 日期:洲丘n 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:主耻导师签名:盔盆墨日期:出蛐 第1 章绪论 在当今信息技术飞速发展,各个企业之间的竞争愈演愈烈,只有能够快速地 对用户需求做出响应和预测并不断进行技术创新的企业才能在竞争中立于不败 之地;随着社会主义市场经济的曰新月异,高校的管理工作也必将走向市场,走 自主生存、自主发展的道路,尤其是对于目前高校的开放教育而言,那么如何去 面对风云变幻、险象环生的市场环境,才能使高校的管理工作得以顺利进行,甚 至走在同行或同时代的前列,这是摆在我们面前的一个非常突出而又尖锐的问 题。 1 1 本研究课题的学术背景 计算机网络与数据库技术的迅速发展和广泛应用,使得企业管理进入了一 个崭新的时代。面对竞争日趋激烈、瞬息万变的市场经济,各级管理人员迫切需 要对不同层次的大量信息迅速做出抉择。这就要求各级管理人员能够从大量复杂 的业务数据中获取各自权限内的决策信息,及时把握市场变化的脉搏,做出正确 有效的判断。特别是随着数据库系统的逐日运行,数据的堆积将越来越庞大,这 种需求就比以往任何时候都更加迫切。从各级决策者的角度来看,数据处理的重 点应浚从传统的业务过程扩展到对业务数据的联机分析处理,并从中得到面向各 种管理主题的统计信息和决策支持信息。 d a t aw a r e h 。u s e ( 数据仓库) 就是针对解决上述问题所产生的一种技术方案, 是基于大规模数据库的决策支持系统环境的核心。正如数据仓库之父w h i n m o n 所定义的,数据仓库是一个面向主题的、集成的、不可更新的且随时间不断变化 的数据集合,用来支持管理人员的决策j 。 数据仓库是近几年来才出现的并得到迅速发展的一种新兴技术,它可以充分 利用数据仓库中已经存储的数据或信息辅助决策者进行决策分析。 数据仓库产业及其基本信息处理技术己发展了许多年。早期人们认为,具有 各种查询和报表功能的产品数据库系统可以提供一个单位所需的所有决策支持。 b o 年代后期,人们逐渐认识到数据是无限的,而信息是有限的。由于数据的分 北京工业大学工学硕士学位论文 散性,各种管理系统几乎没有任何用处,更不用说进行决策分析。近几年,具有 聚集和概括等新特征的数据仓库技术出现以后,就使人们可以及时掌握商业趋势 和客户趋势,提供决策分析支持,以便能更好地把握稍纵即逝的商业契机和满足 客户越来越高的个性化服务需求。简而言之,数据仓库的基本目的是要了解组织 的过去从而预见和计划未来口j 。 本论文论述了从电大教务管理系统的建立( o l t p ) 到基于教务管理系统的 开放教育信息资源分析处理( o l a p ) 的设计开发的整个过程。主要包括数据库 的需求分析、逻辑设计、物理设计、数据仓库的需求分析、体系结构、数据仓库 中的数据访问方式、数据仓库的各种组织技术以及数据仓库的开发方法等。并且 解决了开发实践中遇到的各种软硬件难题,对于开发从o l t p 到o l a p 的应用系 统做出了有力的探索。 1 2 数据仓库在国内外的研究与应用现状 自从二十世纪八十年代中期,b i l li n m o n 首次提出“数据仓库”的概念, 至今为止,数据仓库技术得到了飞速的发展,其规模也已经达到了t b 级,应用 领域遍及电信、银行、零售、航空、铁路、邮政、食品、消费类制造、汽车、医 疗、保险等行业。国外如i b m 、0 r a c t e 、s y b a s e 、c a 、n c r 、i n f o r m i x 、m i c r o s o f t 和s a s 等有实力的公司相继( 通过收购或研发的途径) 推出了自己的数据仓库解 决方案,b o 和b r i o 等专业软件公司也在前端在线分析处理工具市场上占有一席 之地。虽然国内有很多大学和研究机构也在从事数据仓库技术的研究,但到目前 为止,国内基本上没有成熟的数据仓库解决方案。 目前九大数据仓库解决方案的特点比较如下: i b m 公司提供了一套基于可视化数据仓库的商业智能( b i ) 解决方案,具 有集成能力强,高级面向对象s q l 等特性。 o r a c l e 公司的数据仓库解决方案包含业界领先的数据库平台、开发工具和 应用系统,它能够提供一系列的数据仓库工具集和服务。它具有多用户数据仓库 管理的能力,多种分区方式,较强的与o l a p 工具的交互能力,及快速和边界的 数据移动机制等特性。 s v b a s e 公司提供的数据仓库解决方案能够支持多种关系型数据库。它能够 第1 章绪论 同时处理几十个即席查询,其b i t - w is c 技术和垂直数据存储技术使系统只访问 特定的少量数据,从而使查询速度比传统的关系型数据库管理系统快i 0 0 倍。 c a 提出了一个完整的数据仓库解决方案,包括:e r w i n 数据仓库设计工具、 i n f o p u m p 数据转换与抽取工具、i n f o b e a c o nr o l a p 服务器、f o r e s t & t r e e s 前端 数据展现工具、p r o v i s i o n 系统监视与作业调度工具和d e c i s i o n b a s e 元数据管 理工具等。 n c r 提出了一个可扩展数据仓库( s c a l a b l ed a t aw a r e h o u s e ,简称为s d w ) 解决方案。它的基本框架主要包括:数据装载、数据管理和信息访问等三个部分。 i n f o r m i x 公司提出的是一个集成的、可伸缩的f a s ts t a r t 数据仓库解决方 案,采用r o l a p 的星型模式与i n f o r m i xi d s 、i d s a d 紧密集成提供预先汇总、 抽样、后台查询等性能优化手段。 m i c r o s o f t 公司的s q ls e r v e r2 0 0 0 已经在性能和可扩展性方面处于世界领 先水平,是一套完全的数据仓库和数据分析解决方案,使用户可以快速创建下一 代的可扩展电子商务和数据仓库。m i c r o s o f t 将o l a p 功能集成到m i c r o s o f ts q t s e r v e r 中,提供可扩充的基于c o m 的o l a p 接口。m i c r o s o f t o f f i c e2 0 0 0 套件 中的a c c e s s 和e x c e l 可以作为数据展现工具,另外s q ls e r v e r 还支持第三方数 据展现工具。 s a s 数据仓库可以支持各种硬件平台、支持不同数据库之间数据的存取,它 还可对不同格式的数据进行查询、访问和分析,s a s 具有与目前许多流行数据库 软件和老的数据文件的接口,并可在s a s 环境中建立对应外部异构数据的统一的 公用数据界面。 b u s i n e s so b j e c t s 提出的是一个集查询、报表和o l a p 技术为一身的智能决 策支持系统。 从数据仓库技术的应用来看:数据仓库在国外的应用已经相当广泛,i d c 在 1 9 9 6 年的一次对9 0 年代前期进行的6 2 个数据仓库醒目的调查结果表明:进行 数据仓库项目开发的公司在平均2 3 年的时间内获得了平均为3 2 1 的投资回 报率。在9 8 年的调查中显示超过9 0 的大中型公司将建立数据仓库,大约8 0 己投资于数据仓库的公司都认为获得了巨大的成功。在2 0 0 0 年全球财富杂志 5 0 0 强名单中,有近5 0 的企业已经实施了企业级数据仓库或部门级数据集市。 = s z s = s s - s 暨翟型2 耋耋耋盏未耋譬鲨耋。,。,。一 g a r t n e rg r o u p 曾经有一份数据仓库市场占有率的报告,从报告中可以看出,到 2 0 0 3 年,美国的数据仓库销售额将占全世界的5 8 ,亚汕一i r 占7 5 ,由此不 难看出我们的差距i3 1 。 数据仓库技术在中国没能很好发展起来,主要有以下几方面原因:第一,数 据仓库中联机分析处理的实现前提首先是要有数据,大量的日积月累的数据;其 次是要有需求,做分析决策支持的需求。但目前我国的这两个前提还不够充分, 因而也相应造成数据仓库方面技术人才的缺乏。第二,数据仓库是一个数据共享 的系统,不同层面的入从中得到的信息会大不一样,它对企业决策是一个很好的 工具,但目前中国企业没有建立起一个管理机制来推动数据共享,不论是对人的 能力、企业的组织制度还是数据质量都没有一个连续的管理机制,要在这样的基 础上建立好的数据分析是非常困难的。第三,建立数据仓库不是一个简单的过程 就可以完成的,这中间有一个从起步到成熟的阶段。美国花了5 到6 年的时间, 才使这个市场成熟起来,澳大利亚借鉴了美国的经验,它只用了将近两年的时间, 就把这一市场培养起来。有了美国和澳大利亚的先行者,中国所走的路不会更曲 折,相反,它会大大缩短成熟期,也许不到两年,中国的市场就会日渐成熟起来。 无论在国外还是在国内,数据仓库的成熟的一个最重要的方面就是应用。只 有实际的应用才能说服用户。尽管我国数据仓库的应用才刚刚起步,但是己经在 银行、电信、证券、金融等方面取得了很大成功,尤其是上海证券中央登记结算 公司和中国民航信息网络公司已成功地实施了t b 级数据仓库系统。这给国内的 数据仓库技术的应用与发展提供了新的契机,再加上前些年,国内已经有不少的 用户在m r p i i 、企业财务管理,以及某些应用上有了原始数据的积累,这必将推 动中国数据仓库技术的发展。 目前,国外已经有好多现成的数据仓库产品,各大公司都相继推出自己的产 品,诸如m i c r o s o f t 的a n a y s i ss e r v i c e s ,i n f o r m i x 的o l a p 产品m e t a c u b e , o r a c l e 提供的d e s i g n e r 2 0 0 0 和d i s c o v e r 2 0 0 0 以及s y b a s e 的交互式产品 s y b a s ei q 等,并且成功地运用于企业的管理与决策支持之中,而且随着不断的 使用,日趋完善。国内对数据仓库技术的研究还处于起步阶段,真正意义上的数 据仓库应用还不多。但是,随着经济的高速发展和入世带来的机遇和挑战,各企 业也纷纷开始构建自己的数据仓库系统【”。例如,中国银行广州分行“八五”期 第1 罩绪论 间就开始建设数据仓库,该数据仓库包括了从数据挖掘、数据处理到数据存储的 全过程,但数据量相对来说比较小。现在上海宝钢、深圳招商银行等各大企业集 团也纷纷在创建自己的数据仓库、开展数据分析工作,为提高客户服务质量、增 加财政收入、提高产品质量等方面发挥了切实有效的作用。 因此,在数据仓库的应用方面,既要解决数据积累规模小的问题,又要注重 已建数据库系统的维护问题,二者不可偏废,才能逐步缩小与国外在数据仓库应 用方面的差距。 1 3 课题来源与主要研究内容 1 8 1 课题来源 本课题来源于中央广播电视大学的开放教育信息资源分析处理系统,中央电 大己建成教务管理系统、o a 系统、电大在线教学平台、人事管理系统以及财务 管理系统等众多管理系统。但是随着国家现代远程教育工程的实施和电大系统开 放教育的深入开展,对电大的教育和教学管理工作提出了新的更高的要求。因此 建立新的开放教育模式的教务管理系统并且在此基础上建立起基于异构数据源 的数据仓库和联机分析处理系统势在必行,这样就可以为企业提供集成的、统一 的、安全的、快捷的信息管理,信息查询、统计分析决策支持服务。从而进一步 完善电大现代远程开放教育教学支持服务体系,疏通教学信息传输渠道,实现教 学资源共享和教学管理现代化,提高全国电大系统的现代化建设水平。 1 3 2 主要研究内容 a ) 使用p 。w e rd e s i g n e r 进行了电大教育管理系统的数据库设计。 b ) 利用范式规范数据库设计。 c ) 对当今流行的数据仓库系统进行深入探究,从根本上揭示数据仓库的各种优 越性。 d ) 基于数据仓库和联机分析处理技术,构建了开放教育信息资源分析处理系统 的体系结构并给予实现。 e ) 着重研究了将数据仓库技术真正地运用到实践中去,即运用到企业信息中心 北京工业大学工学硕士学位论文 数据管理与发布系统中。这是一个综合运用理论知识( 计算机方面的数据开 发技术与企业管理方面的知识等) 、解决各类难题( 软硬件系统规划、接口、 程序设计、数据来源、开发协调) 的学习研究过程。 本论文将数据库和数据仓库的系统理论与开发应用( 即企业信息中心数据管 理与发布系统) 相结合,并提出自己的理论与实践的心得。数据仓库技术将是今 后的数据存储技术的一个业界标准,因此分析并实现数据仓库有其重要的理论价 值和现实意义。 1 4 实现开放教育信息资源分析处理系统的基础条件 并不是任何组织都具备建立数据挖掘、数据仓库或者是决策支持系统的条 件,在新系统的开发之前对所要开发系统的实现条件进行初步的分析,目的是避 免在时机尚未成熟时进行盲目的投资,从而造成不必要的损失。对一个组织来讲, 起码应该具备一定的科学管理基础,领导者的重视和大力支持,具有良好素质的 业务人员,较为健全的信息系统基础设施、具有统一平台和资源共享的校园网络 和接入i n t e r n e t 网的能力和其它资源条件等。在初步调查的基础上,又从以下 几个方面对建立电大开放教育信息资源分析处理系统的基础条件进行了分析。 数据条件 中央电大目前已建成原教务管理系统、0 a 系统、电大在线教学平台、人事 管理系统以及财务管理系统等众多管理系统,再加上新开发的教务管理系统,这 就为实现开放教育信息资源分析处理系统提供了充足的数据准备。 决策者条件 中央电大的领导对决策分析的需求很迫切,因此对此项目的开发给予了高度 重视。他们不仅提出了很多决策分析的建议,而且派出一支专门的队伍协助开发。 软硬件条件 经过调查研究,中央电大、省电大的设备投入是足以满足开发的需要r 而且 开发的软件环境也具备,还有校园网和i n t e r n e t 网络提供的强大的信息资源环境, 开发人员是资深的教授及其所带的研究生,因此在技术方面是十分可行的。 经济条件 对电大教务管理开放教育信息资源分析处理系统的开发所需要的投资费用 第1 章绪论 和运行费用( 设备费、开发费用、材料费以及其它费用等) 进行估算,并与新系 统未来直观和潜在的收益( 节省人力和财力资源所带来的收益;改进薄弱环节, 实现高效率工作所带来的收益:提高决策的高效率和准确性所带来的巨大收益, 还有其它各种有利因素等) 进行比较,通过比较衡量,新系统在经济上的收益是 十分可观的。 技术方案 该系统实现的关键技术是数据仓库技术和联机分析处理技术。数据仓库的作 用是将大量的数据转换成可供利用的信息。数据仓库就是对过去经验的详细历史 记录。联机分析处理工具允许决策者从过去的经验记录中查找出适用于当前的模 式,通过这一方法可使决策者更好地预测未来。 电大教务管理系统是构成开放教育信息资源分析处理系统的极其关键的部 分,它将为电大开放教育信息资源分析处理系统的生成奠定强大的数据来源基 础,其系统分析、系统设计尤其是数据库设计都是至关重要的,因此将在第三章 的有关章节详细介绍。电大信息数据仓库系统是进行决策支持的前提,决策支 持系统与其它应用程序的开发都离不开数据仓库这一数据基础,因此,可以这样 说,数据仓库系统是在构筑元数据,而在其上建立的所有应用程序,诸如o l a p 分析、w e b 查询以及报表输出等等都是在消费数据仓库系统中的元数据。这些内 容将在第四章的有关章节进行详细的论述。 图l l 所示为电大信息数据仓库的体系结构。它是开放教育信息资源中所有 的信息链构成的循环体。外部数据通过运行或提取程序流入该循环:这些外部数 据包括教务管理系统中有关招生、学籍、考务、收费、课程、选课、毕业等管理 数据,以及该组织本身的其他信息管理系统中的数据或信息等等。 图i - 1 高校信息数据仓库基本构成图 首先,数据在加入1 ) w 之前要有目的地进行提取、净化、清洗、转换和集成, 使其满足d w 的数据格式和质量标准,然后将其存储在中央存储库中。多维数据 库和关系数据库可以充当中央存储库。数据的提取、清洗、转换和存储是为了形 成的数据仓库或数据集市。 d s s 是高校信息决策支持系统。d s s 检索数据并将所查询的结果提交给业务 决策者。d s s 满足了从简单报表经由o l a p 扩展到数据挖掘范围内的各种需要。 尽管在通常意义上,人们认为是由d s s 从数据仓库或数据市场中检索数据或信 息,但现在开发的许多数据仓库都可直接从业务环境中获得数据,这一过程一般 是通过在内部创建中央存储区,有人也称之为中央存储库或单元来实现的。从上 图可以看出,d s s 是建立在数据仓库的基础之上的,业务决策者即指相关部门主 管或领导是该体系结构中的人为因素,同时也是最活跃、最积极和最具决定作用 的因素之,一。 1 5 本文结构 本文将分为四个部分来阐述: 第一部分:( 第一章) 对与本课题相关的背景知识进行介绍,对国内外相关 领域的研究和进展进行综述。介绍本课题的来源及主要内容。 第二部分 第三部分 ( 第二章) 本章主要论述了数据仓库及其相关技术,包括数据库 系统、数据仓库系统和联机分析处理技术。 ( 第三章) 本章详细介绍了电大教务管理系统中学生主题数据库 的设计过程。包括数据库系统选型、需求分析、逻辑设计、物理 设计以及数据库安全等多个方面的内容。 ( 第四章) 本章详细介绍了开放教育信息资源分析处理系统的设 计开发。主要包括系统的需求分析、系统的体系结构、电大数据 仓库的建立以及系统的前端报表展现以及系统在实施过程中遇 到了问题及所采用的相应技术手段 第2 章数据仓库及其相关技术 2 1 数据库系统概述 21 1 数据库技术概述 数据库系统是计算机软件的个重要分支,是近4 0 年来发展起来的门新 兴学科,它和计算机网络、人工智能被称为当今计算机技术界的三大热门技术。 数据库是用来满足多种类型终端用户需要的相关数据的共享集合。这种数据的 存储不依赖使用它的程序,加入新的数据,修改和检索现有的数据都得到周密 的控制,数据检索可以由多个用户用不同的方法以适当的个人控制来进行。这 种数据的结构为实际应用开发提供了一个扎实的数据基础。建立数据库管理系 统的宗旨是减少维护并在需要时能灵活地导出信息怕j 。 2 1 2 关系数据库 1 9 7 0 年,e f c o d d 创建了关系模型,从而使得关系型数据库取代了网状模 型和层次模型的数据库。成为目前最为流行的数据库系统。关系数据库是以关 系模型为基础的数据库,它是应用数学理论处理数据组织的一种方法,是数据 库设计中的种新的思想方法。关系数据库与层次数据库、网状数据库相比, 具有简单灵活的数据模型、较高的数据独立性、能提供良好性能的语言接口、 并且有比较坚实的理论基础等优点。目前,关系型数据库系统的产品种类越来 越多,如o r a c l e ,s y b a s e ,i n f o r m i x ,s q ls e r v e r , m y s q l 等。其中,m y s q l ,s q l s e r v e r 0 r a c l e 以其良好的易用性、稳定性和兼容性成为了最流行的三种关系数 据库。 2 2 数据仓库概述 随着市场竞争的日益加剧和社会信息化需求的不断发展,从大量的数据中 提取( 检索、查询、浏览等) 出制定市场策略的信息就显得越来越重要了。这种 需求既要满足联机服务,又要涉及大量用于决策的数据,而传统的数据库系统 是已无法满足这种需求。具体体现在三个方面: 系统生成的历史数据量很大; 辅助决策信息涉及到许多部门的数据,而来自不同系统的数据难以集成; 由于访问数据的能力不足,它对大量数据的访问性能明显下降; 随着c s 技术、b s 技术的成熟以及并行数据库、分布式数据库的发展, 信息处理技术的发展趋势是:从大量的事务型数据库中抽取数据,并将其清理、 转换为新的存储格式,即为实现决策目标把数据聚合在一种特殊的格式中。随 着此过程的发展和完善,这种支持决策的、特殊的数据存储即被称为硎( o a t a w a r e h o u s e ,数据仓库) n whi r m _ l o n 对数据仓库的定义为:数据仓库是个用以很好地支持企业或 组织的决策分析处理的、面向主题的、集成的、不可更新的、并随时间不断变 化的数据集合。 主题是数据归类的标准,每一个主题对应一个客观分析的领域,如开放教 育信息资源数据仓库中的学生、教师、办学点等,它可以通过集成多个部门的、 不同系统的大量的数据辅助有关决策者进行决策。数据仓库包含了大量的历史 数据,经集成后进入数据仓库的数据是极少更新的。数据仓库内的数据时限为 5 年至1 0 年,数据更新的最小延迟是2 4 小时,它主要用于时间趋势分析。数 据仓库的数据量很大,般为l og b 。它是一般数据库( i o o m b ) 数据量的i 0 0 倍, 大型的数据仓库系统其数据量往往达到t b 级【8 j 。 数据仓库主要应用在两个方面: 使用浏览分析在d w 中寻找有用的信息; 数据仓库系统支持在d w 上的实际应用,形成基于d w 的决策支持系统。 数据仓库主要包括: 1 ) 事实( f a c t s ) :如学生信息表、教师信息表、成绩表等;这些数据是实际 分析的基础数据,它们日积月累,数量庞大。 2 ) 维( d i m e n s i o n s ) :它是事实信息的属性,如学生专业、籍贯、性别等, 教师职称、职务、学历等。它们一般变化不大,数量也相对较小。 3 ) 粒度( u n i t s ) :它是维划分的单位,如时间维可按日计,也可按周、按学 期、按年计。如学生维,可从性别、年龄、专业、班级等来统计。这些信息一 般没有变化。 在设计数据仓库时通过使用的方法有两种:a 星型模型:b 雪花模型,都 包括“事实表”和“维度表”。 星型模式通过使用一个包括主题的事实表和多个包吉关键字的非正规化描 述的维度表来执行典型的决策支持查询。星型模式是一种关系数据库结构,在 该模式的中间是事实表,周围是次要的维度表,数据在事实表中维护,维度数 据在维度表中维护( 见图2 - 1 ) 。每一个维度表通过一个关键字直接与事实表关 联。维度是组织数据仓库数据的分类信息,例如时间、位置等。 图2 - i 星型模式结构示意图 雪花模型是星型模式的一种扩展形式( 见图2 - 2 ) ,在这种模式中,维度表 存储了正规化数据,这种结构通过减少读磁盘的数量雨提高查询性能。维度袁 分解成与事实表直接关联的主维度表和与主维度表关联的次维度表,次维度表 与事实表间接关联。 蟊芏厄丑翟 习 i 丝廑麦卜l 维鏖列 图2 2 雪花模式结构示意图 2 3 从数据库到数据仓库 传统的数据库技术是以数据库为中心,进行事务处理、批处理、决策分析 等各种数据处理工作,主要划分为两大类:操作型处理和分析型处理( 或信息型 处理) 。操作型处理也叫事务处理,是指对数据库联机的日常操作,通常是对 一个或一组纪录的查询和修改,主要为企业的特定应用服务的,注重响应时间, 数据的安全性和完整性:分析型处理则用于管理人员的决策分析,经常要访问 大量的历史数据。传统数据库系统优于企业的曰常事务处理工作,而难于实现 对数据分析处理多样化的要求。因此操作型处理和分析型处理的分离成为必然 1 8j 人们开始尝试对数据库中的数据进行再加工,形成一个综合的,面向分析 的环境,以更好支持决策分析,从而形成了数据仓库技术( d a t aw a r e h o u s e ,简 称d w ) 。作为决策支持系统( d e c i s i o n m a k i n gs u p p o r ts y s t e m ,简称d s s ) ,数 据仓库系统包括: 数据仓库技术; 联机分析处理技术( o n l i n ea n a l y t i c a lp r o c e s s i n g ,简称o l a p ) ; 数据挖掘技术( d a t am i n i n g ,简称d m ) ; 数据仓库弥补了原有数据库的缺点,将原来的咀单一数据库为中心的数据 环境发展为一种新环境。数据仓库的建立并不是要取代数据库,它要建立在一 个较全面和完善的信息应用的基础上,用于支持高层决策分析,而事务处理数 据库在企业的信息环境中承担的是日常操作性的任务。数据仓库是数据库技术 的一种新的应用,而且到目前为止,数据仓库还是用关系数据库管理系统来管 理其中的数据。 2 4 数据仓库系统 2 4 1 数据仓库的体系结构 数据仓库系统( d w s ) 由数据仓库、仓库管理和分析工具组成,其结构图形式 见图2 3 所示。 源数据:数据仓库的数据来源于多个数据源,包括企业内部的数据、市 场调查报告及各种文档之类的外部数据源的数据; 仓库管理:在确定数据仓库信息需求后,首先进行数据建模,然后确定 从源数据到数据仓库的数据抽取、清洗、转换和集成过程,最后划分维数及确 定数据仓库的物理存储结构。元数据是数据仓库的核心,它用于存储数据模型 和定义数据结构、转换规划、仓库结构、控制信息等。仓库管理包括对数据的 安全、归档、备份、维护、恢复等工作,这些工作需要利用数据库管理系统( d t 3 i s ) 的功能。 分析工具:用于完成实际决策问题所需的各种查询和搜索工具、多维数 据的o l a p 分析工具、数据挖掘d m 工具等,以实现决策支持系统的各种需求。 数据奄库营理l i 甩户蠢询工其| 关系数据痒一卜 l工其一l 综合数据t ,| i 提取,转换、i ic ,8 工氲* ,| 数据文件。 j 齑洗、装载,4 当前数据一 b ,s 工点一| f 元数据月 o l a p 工具r 7 苴守。r 、 i 历史数据+ t l 墓它决策分析 、:3 厂 溆据建横工具c l i 工丑, i 蠛数据。仓库管理一 数据仓窜。分析工真; 图2 - 3 数据仓库系统结构图 2 4 2 数据仓库的设计开发流程 数据仓库系统是一种解决问题的过程,而不是一个可以买到的现成的产品。 不同的企事业组织或单位会有不同的数据仓库。企业人员往往不懂如何建立和 利用数据仓库,发挥其决策支持的作用,而数据仓库公司人r 3 y 不懂业务,不 知道建立哪些决策主题,从数据源中抽取哪些数据。这需要双方互相沟通,共 同协商来开发数据仓库,因此从统一软件开发过程的角度来看,数据仓库系统 的设计开发是一种迭代的、增量式的不断往复、不断丰富和不断前进的过程p 1 。 北京工业大学工学硕士学位论文 但需要说明的是,数据仓库的设计开发是基于数据驱动的,而菲基于用户 需求的;并且数据仓库是在现有数据库系统的基础上进行开发的,它着眼于有 效地抽取、转换、集成和挖掘己有的数据库系统的数据资源以及有利于制定决 策的外部数据资源,服务于企业高层管理决策分析的需要。从整个开发的角度 看,数据仓库的设计开发区别于s d l c ( s y s t e md e v e l o p m e n tl i f e t i m ec y c l e ) 方法。 此外,在数据仓库开发的整个过程中,自始至终要求决策人员和开发者的 共同参与和密切协作,要求保持灵活的头脑,不做或尽量少做无效工作或重复 开发。 一般地,开发数据仓库的流程包括以下几个步骤,如图2 4 所示: 图2 4 数据仓厍的设计步骤 这里所说的数据仓库系统的开发步骤并不是绝对的顺序,因此,数据仓库 的设计并没有步骤可言,大体上可以分为以下几个步骤: 概念模型设计:这一阶段所要完成的工作有,( 1 ) 界定系统的边界a 即把 决策者的一些基本的、方向性的数据分析的需求以系统边界定义的形式表示出 来。( 2 ) 确定主要的主题域及其内容。这一步中,要确定系统所包含的主题域, 然后对每个主题域的内容进行比较明确的描述,例如描述主题域的公共键码、 主题域之间的联系以及充分代表主题的属性组等。 技术准备工作:这一阶段的工作包括技术评估和技术环境准备,选择实 现数据仓库的软硬件资源。 逻辑模型设计:这一步里要进行的工作主要有,( 1 ) 分析主题域,确定当 前要装载的主题。 ( 2 ) 确定粒度层次划分。通过估算数据行数,来确定采用单 一粒度还是多重粒度,以及粒度划分的层次。( 3 ) 确定数据分割策略。在选择适 当的数据分割标准时,一般要考虑以下几个方面的因素:数据量( 而非记录行 数) 、数据分析处理的实际情况、简单易行以及粒度划分策略等。( 4 ) 关系模式 的定义。数据仓库的每个主题都是由多个表来实现的,这些表之间依靠主题的 公共键码联系在一起,形成一个完整的主题。因此要确定各个表的关系模式。 ( 5 ) 定义记录系统。从数据仓库的概念模型出发,结合主题的多个表的关系模式, 确定现有系统的哪些数据能较好地适应数据仓库的需要。已录系统的定义要记 入数据仓库的元数据。 物理模型设计:这一阶段的任务是确定数据的存储结构,确定索引策略,确 定数据存放的位置,确定存储分配等。 数据仓库的生成:这一阶段所要做的是接口编程、数据装入,并且可以在其 上建立数据仓库的应用。 数据仓库的使用和维护:这一步所要做的工作就是使用数据仓库;理解需求, 调整和完善系统,维护数据仓库。 2 5 联机分析处理 2 5 1 联机分析处理的概念 联机分析处理的概念最早是由关系数据库之父e f c o d d 于1 9 9 3 年提出 的。当时,c o d d 认为o l t p ( o n l i n et r a n s a c t i o np r o c e s s i n g ,联机事务处理) 已不能满足终端用户对数据库查询分析的需要。s q l ( s t r u c t u r e dq u e r y l a n g u a g e ,结构化查询语言) 对大量数据库进行的简单查询也不能满足用户分析 的需求。用户的决策分析需求对关系数据库进行大量计算才得到结果,而查询 的结果并不能满足决策者提出的需求。因此c o d d 提出了多维数据分析的概念即 o l a p ( o n l i n ea n a l y t i e a lp r o c e s s i n g ,联机分析处理) u o o 随着数据仓库的发展,o l a p 也得到了迅猛的发展。数据仓库侧重于存储和 。,。垦型鳖耋:型耋篁鲨。一 管理面向决策主题的数据:而o l a p 则侧重于数据仓库的数据分析,并将其转换 成辅助决策信息。o l a p 的一个主要特点是多维数据分析,这与数据仓库的多维 数据组织正好形成相互结合、相互补充的关系。因此,利用o l a p 技术和数据仓 库的结合可以很好地解决传统决策支持系统既需要处理大量数据又需要进行大 量数值计算的问题。 o l a p 的多维数据分析主要通过对多维数据的维进行剖切、钻取和旋转来实 现对数据库所提供的数据进行深入分析,为决策者提供决策支持】。多维结构 是决策支持的支柱,也是o l a p 的核心。多维结构中的维与一般意义上的物理维 ( 如平面、立体等) 是有所区别的,它突破了三维概念,可以有四维、五维甚至 更多维的数据结构,即超立方体和多立方体的数据结构。可以利用分析工具对 多维数据结构进行切片、切块、上卷、下钻和旋转等处理得到所需的决策分析 数据。 联机分析处理是针对特定问题的联机数据访问和分析。通过对信息的多种 可能的观察形式进行快速,稳定一致和交互性的存取,允许管理决策人员对数 据进行深入观察。o l a p 实际上是数据仓库中分析工具的一部分,与数据仓库是 密不可分的,这里为了强调和清晰起见,将与它们紧密相关的概念分别介绍。 多维分析:多维分析是指对以多维形式组织起来的数据采取切片、切块、 旋转等各种分析动作,以求剖析数据,使最终用户可以从多个角度、多个侧面 观察数据库中的数据,从而深入了解包含在数据中的信息、内涵。多维分析方 式迎合了人的思维模式,遵循了思维中的从具体到抽象再到具体的过程模式, 因此减少了混淆并且降低了出现错误的可能性。 数据立方体( c u b e ) :许多数据仓库厂家在自己的产品中都用到了数据立方 体的概念,数据立方体实际上是对数据多维组织的一种形象描述,虽然用了“立 方体”的概念,实际上维的数量可以远远多于三个。 o l a p 的十二条评价准则:“关系模型之父”d r e f c o d d 曾经就选择o l a p 工具提出了十二条准则:多维概念视图准则、透明性准则、存取能力准则、稳 定的报表性能、客户服务器体系结构、维的等同性准则、动态的稀疏矩阵处理 准则、多用户支持、非限制性的跨维操作、直观的数据操纵、灵活的报表生成、 维数和聚集层次不受限制1 3 1 。这十二条准则不是绝对的,而且在不同厂家之问 有一定的争议,但在实际选择中具有十分重要的参考意义。 2 52o l t p 和o l a p 的比较 首先,o l t p 和o l a p 的目的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高中建设项目可行性报告
- 涉江采芙蓉教学课件
- 机械安全知识培训意义
- 2025年工业互联网平台量子通信技术在工业互联网平台战略规划中的应用与发展趋势报告
- 质量控制预警系统-洞察及研究
- 幼师手工制作培训课件
- 课件制作网络培训课程
- 环评流程培训课件
- Lactobionic-acid-calcium-dihydrate-生命科学试剂-MCE
- 信任度评估模型-洞察及研究
- 2025年渠道管理及维护工技能资格知识考试题与答案
- 登高车施工作业方案
- 急救药品知识课件
- 设备搬迁调试协议合同书
- 中证信息技术笔试题库
- 监护学徒协议书范本
- 办公楼维修改造施工方案
- 集团海外业务管理手册(专业完整格式模板)
- 高危儿培训计划和方案
- 2025年公文写作基础知识竞赛试题库及答案(共120题)
- ISO9001 质量管理体系全套(质量手册+程序文件+表格记录全套)
评论
0/150
提交评论